Graph convolutional neural networks for open data discovery
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/354400
Tipus de documentTreball Final de Grau
Data2021-06-30
Condicions d'accésAccés obert
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
Abstract
In this thesis we study the suitability of a graph-based approach for data discovery in the contextof Open Data BCN with respect to other traditional Machine Learning (ML) or Deep Learning(DL) methods such as Random Forest or Multi-Layer Perceptron. Data discovery consists on finding semantic relationships between datasets and their attributes (i.e., similar topic, joinable, unionable, etc.) in a massive open data repository. We tackle the dataset similarity task, which we reduce to a classification problem by defining two similar datasets as datasets sharing the same thematic area which we call: class. Exact and hash-based approaches have shown to be ineffective in such large environments, this is why we approach the problem from a learning perspective based on data profiles. We define profiles as representations that capture the underlying characteristics of the schemata and data values of datasets. Relying on profiles diminishes the complexity and enhances the model performances. To this goal, we provide both an efficient tool to extract datasets from the council's open data website and a Graph Neural Network (GNN) framework leveraging a graph representation of the Barcelona's repository by representing the datasets as nodes, the node embeddings as profiles and the edges as indicators of two nodes sharing a class. Specifically, we propose to solve a link prediction task using a Graph Convolutional Neural Network (GCNN) and to later map it into a classification task for each of the nodes in the graph. This mapping step is done with a novel function we designed called "Class_Selector" that uses both the amount of edges involving each of the classes and their corresponding probabilities. Our experiments show that both the baseline methodologies and our GCNN approach are able to learn from the training sets but have difficulties generalizing in the test phase due to the lack of data available in the repository. With respect to the baseline models, our approach obtains lower accuracy results but those could be improved by introducing inductive link prediction emerging solutions which are still under development. En aquesta tesi estudiem la validesa d'un model basat en grafs per al descobriment de dades en el context d'Open Data BCN, respecte d'altres mètodes tradicionals d'aprenentatdge automàtic o profund com ara el Perceptró Multicapa o els Boscos Aleatoris. El descobriment de dades, conegut com a "data discovery", consisteix en trobar relacions semàntiques entre conjunts de dades i els seus atributs en un repositori massiu de dades obertes (com per exemple, temes similars, punts d'unió, punts de "join", etc.). Abordem la tasca de semblança, que reduïm a un problema de classificació definint dos conjunts de dades similars com a conjunts de dades que comparteixen la mateixa àrea temàtica que anomenem classe. Els enfocaments basats en comparacions de valors exactes o en funcions de hash resulten ser ineficaços en grans entorns de dades, per això abordem el problema des d'una perspectiva d'aprenentatge basada en perfils de dades. Aquests són representacions que capturen les característiques subjacents dels esquemes i els valors dels conjunts de dades. Basar-se en els perfils disminueix la complexitat i millora el rendiment dels models. Amb aquest objectiu, proporcionem una eina eficient per extreure conjunts de dades del portal de dades obertes de l'ajuntament i una implementació d'una Xarxa Neuronal basada en Grafs (GNN) que es beneficia de representar el repositori de Barcelona en forma de graf. Això s'aconsegueix codificant els conjunts de dades com a nodes, els seus perfils com a informació continguda al node ("embedding") i un indicador de si dos conjunts de dades comparteixen classe com a una aresta. Concretament, proposem resoldre una tasca de predicció d'arestes mitjançant una Xarxa Neuronal Convolucional basada en grafs (GCNN). Posteriorment ho transformem a una tasca de classificació per a cadascun dels nodes del graf. Aquesta transformació es realitza amb una nova funció que hem dissenyat anomenada "Class_Selector" que utilitza tant la quantitat d'arestes relacionant nodes pertanyents a una classe específica, com les probabilitats assignades pel model a aquestes arestes. Els nostres experiments mostren que tant les metodologies bàsiques com el nostre model de GCNN són capaços d'aprendre dels conjunts d'entrenament, però que tenen dificultats per generalitzar en la fase de prova a causa de la manca de dades disponibles al repositori. Pel que fa al rendiment del nostre model, no s'aconsegueixen sobrepassar els resultats dels models més tradicionals. No obstant, el model de GCNN es podria millorar introduint solucions recents de "predicció d'arestes inductives" que encara estan en ple desenvolupament.
MatèriesInternet in public administration, Neural networks (Computer science), Dades obertes, Xarxes neuronals (Informàtica)
TitulacióGRAU EN CIÈNCIA I ENGINYERIA DE DADES (Pla 2017)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
160150.pdf | 2,897Mb | Visualitza/Obre |