Generation of synthetic data with differential privacy in the context of sustainable mobility

Fuentes Oncins, Marc

Visualitza/Obre

169133.pdf (485,3Kb) (Accés restringit)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Fuentes Oncins, Marc

Tutor / directorForné Muñoz, Jorge

; Parra Arnau, Javier

Tipus de documentTreball Final de Grau

Data2022-06-29

Condicions d'accésAccés restringit per acord de confidencialitat

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets

Abstract

En esta investigación mostramos que una Red Adversarial Generativa de Wasserstein (WGAN) con un mecanismo de ruido de Privacidad Diferencial (DP) es capaz de generar datos de calidad preservando la privacidad de datos tabulares. Nos centramos en la generación de datos sobre movilidad sostenible y en los tipos de datos que se pueden esperar cuando se trata de movilidad sostenible. Probamos el DP-WGAN en dos conjuntos de datos de movilidad sostenible y lo evaluamos en términos de privacidad frente a utilidad. Implementamos un Ataque de Inferencia de Miembros (MIA) para evaluar la resistencia del modelo a los ataques que invaden la privacidad. Mostramos que la red WGAN es capaz de preservar la privacidad hasta un cierto nivel y que la adición de DP mejora la privacidad del modelo con pérdidas en la utilidad. Añadiendo DP al modelo somos capaces de obtener una resiliencia perfecta al MIA y pérdidas de utilidad del 10% como máximo, evaluadas en términos de un clasificador externo que distingue los datos reales de los generados.

In this research we show that a Wasserstein Generative Adversarial Network (WGAN) with a Differential Privacy (DP) noise mechanism is able to generate quality data while preserving the privacy of tabular data. We focus on the generation of data about sustainable mobility and the data types one can expect when dealing with such data. We test the DP-WGAN on two sustainable mobility datasets and evaluate it in terms of privacy versus utility. We implement a Membership Inference Attack (MIA) to evaluate the resilience of the model on privacy invading attacks. We show that the WGAN network is able to preserve privacy up to a certain level and the addition of the DP improves the privacy of the model with losses on the utility. By adding DP to the model we are able to obtain perfect resilience to MIA and utility losses of 10% at most, evaluated in terms of an external classifier that distinguishes real from generated data.

MatèriesData sets, Conjunts de dades, Mobilitat sostenible

TitulacióGRAU EN CIÈNCIA I ENGINYERIA DE DADES (Pla 2017)

URIhttp://hdl.handle.net/2117/373234

Col·leccions

Facultat d'Informàtica de Barcelona - Grau en Ciència i Enginyeria de Dades (Pla 2017) [118]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
169133.pdf		485,3Kb	PDF	Accés restringit

UPCommons. Portal del coneixement obert de la UPC

Generation of synthetic data with differential privacy in the context of sustainable mobility

Visualitza/Obre

Explora