Computational improvements of microaggregation algorithms for the anonymization of large-scale datasets
Cita com:
hdl:2117/100573
Document typeBachelor thesis
Date2017-01
Rights accessOpen Access
Except where otherwise noted, content on this work
is licensed under a Creative Commons license
:
Attribution-NonCommercial-NoDerivs 3.0 Spain
Abstract
The technical contents of this work fall within the field of statistical disclosure control (SDC), which concerns the postprocessing of the demographic portion of the statistical results of surveys containing sensitive personal information, in order to effectively safeguard the anonymity of the participating respondents. The concrete purpose of this study is to improve the efficiency of a widely used algorithm for k-anonymous micro¬aggregation, known as maximum distance to average vector (MDAV), in order to vastly accelerate its execution without affecting its excellent functional performance with respect to competing methods. The improvements tested in this project are quite diverse, encompassing algebraic modifications, divide-and-conquer algorithmic improvements, and last but not least, parallel computation both on CPU and graphics processing units (GPUs). We focused more on parallelization because it is the most scalable and powerful tool we could use, comparing CPU and massive GPU parallelization. Nonetheless, the algebraic and algorithmic improvement in the code are conceived bearing in mind the optimization of the parallelization of the algorithm. We also propose a computational change involving a drastically reduced execution time, occasionally at the price of a slightly higher distortion. Los contenidos técnicos de este trabajo recaen en el campo de la revelación estadística, que se refiere al procesamiento posterior de la parte demográfica de los resultados estadísticos de encuestas que contienen información personal, a fin de salvaguardar eficazmente la anonimidad de los encuestados que participan . El objetivo concreto de este estudio es mejorar la eficiencia de un algoritmo utilizado para la microagregació k-anónimo, conocido con el nombre de maximum distance to average vector (MDAV), para acelerar enormemente su ejecución sin afectar su excelente rendimiento funcional respecto a la de otros métodos. Las mejoras puestas a prueba en este proyecto son muy diversas, modificaciones algebraicas, algoritmos de "divide and conquer", y por último pero no menos importante, la computación paralela tanto en las unidades de CPU y de procesamiento gráfico (GPU). Nos centramos más en la paralelización, ya que es la herramienta más escalable y de gran alcance que podríamos utilizar, comparando la paralelización en CPU y la paralelización masiva en GPU. No obstante, las mejoras algebraicas y algorítmica que se han utilizado han tenido en cuenta la optimización de la paralelización del algoritmo. También proponemos un cambio computacional que implica una gran mejora en el tiempo, pero causando un pequeño aumento de la distorsión ocasionalmente. Els continguts tecnics d'aquest treball recauen en el camp de la revelació estadistica, que es refereix al processament posterior de la part demografica dels restultats estadistics d'enquestes que contenen informació personal, a fi de salvaguardar eficaçment l'anonimitat dels enquestats que hi participen. L'objectiu concret d'aquest estudi és millorar l'eficiencia d'un algoritme utilitzat per a la microagregació k-anonim, conegut amb el nom de maximum distance to average vector (MDAV), per tal d'accelerar enormement la seva execució sense afectar la seva excel·lent rendiment funcional respecte a la d'altres mètodes. Les millores possades a prova en aquest projecte són molt diverses, modificacions algebraiques, algorismes de "divide and conquer", i per últim però no menys important, la computació paral·lela tant en les unitats de CPU i de processament gràfic (GPU). Ens centrem més en la paral·lelització, ja que és l'eina més escalable i de gran abast que podríem utilitzar, comparant la paral·lelitzacio en CPU i la paral·lelització massiva en GPU. No obstant, les millores algebraiques i algorítmica que s'han utilitzat han tingut en compte la optimització de la paral·lelització del algoritme. També proposem un canvi computacional que implica una gran millora en el temps, però causant un petit augment de la distorsio ocasionalment.
SubjectsParallel programming (Computer science), Combinatorial optimization, Mathematical optimization, Programació en paral·lel (Informàtica), Optimització combinatòria, Optimització matemàtica, Algorismes
DegreeGRAU EN ENGINYERIA TELEMÀTICA (Pla 2010)
Files | Description | Size | Format | View |
---|---|---|---|---|
Computational I ... f Large-Scale Datasets.pdf | 1,396Mb | View/Open |