Development and evaluation of a semi-automatic anonymization tool for textual data
Cita com:
hdl:2117/168006
Document typeBachelor thesis
Date2019-07-10
Rights accessOpen Access
Except where otherwise noted, content on this work
is licensed under a Creative Commons license
:
Attribution-NonCommercial-NoDerivs 3.0 Spain
Abstract
Despite its undeniable advantages, the exponential growth of data analytic capabilities implies a significant increase in the risk of personal privacy loss and re-identification of the individuals appearing in databases. A tool capable of treating the data in a way that would avoid re-identification of the user and, thus, could be shared to other companies or to study groups would be undoubtedly effective. The main objective of this project focuses on anonymization of textual data. That is, the goal is to create a tool that enables the anonymization of an input text to prevent identity disclosure while conserving as much utility as possible. This is achieved with the help of Information Theory and Natural Language Processing techniques. Additionally, the user interaction is required to make certain decisions, having as a consequence a semi-automatic anonymization tool for textual data. Because of that, we have developed a Graphical User Interface. The evaluation of the tool in automatic mode has been carried out in order to check its performance in function of certain parameters. A pesar de sus innegables ventajas, el crecimiento exponencial de las capacidades de análisis de datos han comportado un crecimiento significativo del riesgo de pérdida de privacidad del individuo. Una herramienta capaz de tratar los datos de forma que se evitara la re-identificación del usuario y, por lo tanto, permitiera que los datos pudiesen ser compartidos a empresas o grupos de estudio, sería indudablemente útil. El objetivo principal de este proyecto se basa en la anonimización de documentos textuales. Así, el objetivo es la creación de una herramienta que permita la anonimización de un texto de entrada para prevenir la re-identificación del usuario y, a la vez, conserve tanta utilidad del documento como sea posible. Esto es posible con la ayuda de la Teoría de la Información y técnicas de NLP (Natural Language Processing). Además, la interacción del usuario es necesaria para la toma de ciertas decisiones, obteniendo en consecuencia una herramienta semi-automática para anonimización de documentos textuales. Es por eso que se ha desarrollado una Interfaz Gráfica de Usuario. Se ha llevado a cabo la evaluación de la herramienta para analizar su comportamiento en función de varios parámetros. Malgrat els innegables avantatges que aporta, el creixement exponencial de les capacitats d'anàlisi de dades comporta un creixement significatiu del risc de pèrdua de privacitat i re-identificació d'individus que apareixen en bases de dades. Una eina capaç de tractar les dades de manera que s'impedeixi la re-identificació de l'usuari i, per tant, permeti compartir les dades per estudis o a altres empreses seria, sens dubte, útil. L'objectiu principal d'aquest projecte es basa en l'anonimització de documents textuals. D'aquesta manera, l'objectiu és crear una eina que permeti l'anonimització d'un document textual d'entrada per prevenir que es reveli la seva identitat procurant tant com sigui possible mantenir la utilitat del document. Això és possible amb l'ajuda de la Teoria de l'Informació i de tècniques de NLP (Natural Language Processing). A més, la interacció de l'usuari es requereix per prendre certes decisions, obtenint, com a conseqüència, una eina semi-automàtica per l'anonimització de documents textuals. És per aquest motiu que s'ha desenvolupat una interfície gràfica d'usuari. A més, s'ha dut a terme l'evaluació de l'eina en mode automàtic per analitzar el seu comportament en funció de certs paràmetres.
SubjectsInformation theory, Graphical user interfaces (Computer systems), Computer security, Natural language processing (Computer science), Informació, Teoria de la, Interfícies gràfiques d'usuari (Informàtica), Seguretat informàtica, Tractament del llenguatge natural (Informàtica)
DegreeGRAU EN ENGINYERIA FÍSICA (Pla 2011)
Files | Description | Size | Format | View |
---|---|---|---|---|
Development and ... tool for textual data.pdf | 4,426Mb | View/Open |