Comparative study of missing data treatment methods in radial basis function neural networks: is it necessary to impute?

Martín Ballesteros, Xavier

Visualitza/Obre

152719.pdf (1,387Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Martín Ballesteros, Xavier

Tutor / directorBelanche Muñoz, Luis Antonio

Tipus de documentTreball Final de Grau

Data2020-09-30

Condicions d'accésAccés obert

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets

Abstract

En el camp de l'aprenentatge automàtic, sovint ens trobem amb conjunts de dades incomplets i necessitem l'ús de mètodes de tractament dades que falten per superar aquest problema. Tanmateix, algunes tècniques d'aprenentatge automàtic només requereixen el càlcul de distàncies o funcions de kernel. Per tant, cal imputar primer els valors perduts per calcular posteriorment les distàncies o és millor estimar directament les distàncies sense haver d'imputar? En aquest treball, realitzem un estudi comparatiu de diversos mètodes de tractament de dades perdudes aplicats a problemes de classificació mitjançant l'anomenada Radial Basis Function Neural Network per veure si s'ha d'utilitzar sempre un pas previ d'imputació o no. L'estudi s'ha dut a terme mitjançant dades sintètiques generant valors perduts artificialment, i dades del món real amb valors perduts de forma natural i induïts per nosaltres. A més, hem realitzat una anàlisi de la complexitat dels mètodes usats en termes de temps i espai. Els resultats experimentals mostren que predir les distàncies sense haver d'imputar dóna millors resultats que imputar primer i després calcular la distància. Per tant, només s'haurien d'utilitzar els mètodes d'imputació quan fos estrictament necessari, i no per resoldre qualsevol problema. Per concloure, també introduïm la necessitat de calcular una cota superior pels diversos mètodes, i exposem dos casos diferents en els quals calculem aquesta cota superior.

In the machine learning field, we are frequently faced with incomplete datasets, and require the use of missing data treatment methods to overcome this problem. However, some machine learning techniques only require the computation of distances or kernel functions. Hence, is it necessary to impute the missing entries first for later computing the distances or is it better to estimate the distances directly without imputing? In this work, we perform a comparative study of several missing data treatment methods applied to classification problems using Radial Basis Function Neural Networks to see if it should always be used as a preprocessing imputation step or not. The study has been conducted using synthetic data with artificial missing values and realworld classification datasets with both natural and induced missing values. Moreover, we have done a complexity analysis in terms of time and space complexities for the methods used. Experimental results show that predicting distances without having to impute gives better results than imputing first and then calculating the distance. Therefore, imputation methods should be used only when strictly necessary, and not to solve any problem you are facing. To conclude, we also introduce the need to compute an upper bound for the missing data treatment methods, and expose two different case scenarios in which we compute this upper bound.

En el campo del aprendizaje automático, a menudo nos encontramos con conjuntos de datos incompletos y necesitamos el uso de métodos de tratamiento de los valores perdidos para superar este problema. No obstante, algunas técnicas de aprendizaje automático solo requieren el cálculo de distancias o funciones de kernel. Por lo tanto, ¿es necesario imputar primero los valores perdidos para calcular posteriormente las distancias o es mejor predecir directamente las distancias sin tener que imputar primero? En este trabajo, realizamos un estudio comparativo de varios métodos de tratamiento de datos perdidos aplicados a problemas de clasificación mediante la llamada Radial Basis Function Neural Network para ver si se debe utilizar siempre un paso previo de imputación o no. El estudio se ha llevado a cabo mediante el uso de datos sintéticos generando valores perdidos artificialmente, y datos del mundo real con valores perdidos de forma natural e inducidos por nosotros. Además, hemos realizado un análisis de la complejidad de los métodos usados en términos de tiempo y espacio. Los resultados experimentales muestran que predecir las distancias sin tener que imputar da mejores resultados que imputar primero para después calcular la distancia. Por lo tanto, solo deberían utilizarse los métodos de imputación cuando fuera estrictamente necesario, y no para solventar cualquier problema. Para concluir, también introducimos la necesidad de calcular una cota superior para los diversos métodos, y exponemos dos casos diferentes en los que calculamos esta cota superior.

MatèriesNeural networks (Computer science), Machine learning, Xarxes neuronals (Informàtica), Aprenentatge automàtic

TitulacióGRAU EN ENGINYERIA INFORMÀTICA (Pla 2010)

URIhttp://hdl.handle.net/2117/340454

Col·leccions

Facultat d'Informàtica de Barcelona - Grau en Enginyeria Informàtica (Pla 2010) [2.484]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
152719.pdf		1,387Mb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Comparative study of missing data treatment methods in radial basis function neural networks: is it necessary to impute?

Visualitza/Obre

Explora