Study and implementation of Machine Learning algorithms optimized for distributed multidimensional indexing databases

Correas Grifoll, Adrià

Visualitza/Obre

143389.pdf (2,591Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Correas Grifoll, Adrià

Tutor / directorBecerra Fontal, Yolanda

; Cugnasco, Cesare

Tipus de documentTreball Final de Grau

Data2019-03-20

Condicions d'accésAccés obert

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets

Abstract

Aquest projecte proposa optimitzacions per als algorismes de Machine Learning que es beneficien de les bases de dades d'indexació multidimensionals distribuïdes. Els algorismes de clustering, com K-means, requereixen una gran quantitat de recursos computacionals, i a mesura que la quantitat de punts i dimensions augmenten, una mala escalabilitat dels algorismes a més de la lectura d'arxius grans des del disc poden induir a temps de execució molt grans. Una anàlisi exhaustiu per estudiar l'escalabilitat de K-means demostra una mala escalabilitat de l'algorisme. Es presenten un parell d'implementacions d'optimització per aprofitar la tecnologia d'indexació Qbeast, que permet usar la indexació multidimensional en bases de dades per consultar percentatges de dades al llarg del temps. Es pot usar per a realitzar execucions amb quantitats petites però representatives de dades i millorar la inicialització de l'algorisme. S'han realitzat proves amb diferents enfocaments pel que fa als percentatges de dades consultades. També, es mostra una comparació de rendiment d'aquestes optimitzacions amb el K-means estàndard. Les proves van demostrar que les nostres optimitzacions presenten millores prometedores en comparació amb els enfocaments estàndard de lectura de dades per a K-means. D'aquesta manera apuntem alt en que el treball fet en aquest projecte millorarà i revolucionarà en un futur proper la manera en que el mercat modern enfoca l'ús dels algorismes de Machine Learning.

This project proposes optimizations for Machine Learning algorithms that benefit from distributed multidimensional indexing databases. Clustering algorithms, such as K-means, require a large amount of computational resources, and as the number of points and dimensions increase, poor scalability of the algorithms as well as the loading of large files from the disk can induce into very large execution times. A thorough analysis to study K-means scalability demonstrates poor scalability of the algorithm. A couple of optimization implementations are presented to take advantage of the Qbeast indexing technology, which allows the use of multidimensional indexing in databases to query percentages of data over time. It can be used to perform executions with small but representative amounts of data and improve the initialization of the algorithm. Tests have been conducted with different approaches with respect to the percentages of data consulted. Also, a performance comparison of these optimizations is shown with the standard K-means. The tests showed that our optimizations present promising improvements compared to the standard approaches of data loading for K-means. In this way we aim high in that the work done in this project will improve and revolutionize in the near future the way in which the modern market focuses on the use of Machine Learning algorithms.

MatèriesMachine learning, Algorithms, Databases, Aprenentatge automàtic, Algorismes, Bases de dades

TitulacióGRAU EN ENGINYERIA INFORMÀTICA (Pla 2010)

URIhttp://hdl.handle.net/2117/168653

Col·leccions

Facultat d'Informàtica de Barcelona - Grau en Enginyeria Informàtica (Pla 2010) [2.482]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
143389.pdf		2,591Mb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Study and implementation of Machine Learning algorithms optimized for distributed multidimensional indexing databases

Visualitza/Obre

Explora