Study and implementation of Machine Learning algorithms optimized for distributed multidimensional indexing databases
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/168653
Tipus de documentTreball Final de Grau
Data2019-03-20
Condicions d'accésAccés obert
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
Abstract
Aquest projecte proposa optimitzacions per als algorismes de Machine Learning que es beneficien de les bases de dades d'indexació multidimensionals distribuïdes. Els algorismes de clustering, com K-means, requereixen una gran quantitat de recursos computacionals, i a mesura que la quantitat de punts i dimensions augmenten, una mala escalabilitat dels algorismes a més de la lectura d'arxius grans des del disc poden induir a temps de execució molt grans. Una anàlisi exhaustiu per estudiar l'escalabilitat de K-means demostra una mala escalabilitat de l'algorisme. Es presenten un parell d'implementacions d'optimització per aprofitar la tecnologia d'indexació Qbeast, que permet usar la indexació multidimensional en bases de dades per consultar percentatges de dades al llarg del temps. Es pot usar per a realitzar execucions amb quantitats petites però representatives de dades i millorar la inicialització de l'algorisme. S'han realitzat proves amb diferents enfocaments pel que fa als percentatges de dades consultades. També, es mostra una comparació de rendiment d'aquestes optimitzacions amb el K-means estàndard. Les proves van demostrar que les nostres optimitzacions presenten millores prometedores en comparació amb els enfocaments estàndard de lectura de dades per a K-means. D'aquesta manera apuntem alt en que el treball fet en aquest projecte millorarà i revolucionarà en un futur proper la manera en que el mercat modern enfoca l'ús dels algorismes de Machine Learning. This project proposes optimizations for Machine Learning algorithms that benefit from distributed multidimensional indexing databases. Clustering algorithms, such as K-means, require a large amount of computational resources, and as the number of points and dimensions increase, poor scalability of the algorithms as well as the loading of large files from the disk can induce into very large execution times. A thorough analysis to study K-means scalability demonstrates poor scalability of the algorithm. A couple of optimization implementations are presented to take advantage of the Qbeast indexing technology, which allows the use of multidimensional indexing in databases to query percentages of data over time. It can be used to perform executions with small but representative amounts of data and improve the initialization of the algorithm. Tests have been conducted with different approaches with respect to the percentages of data consulted. Also, a performance comparison of these optimizations is shown with the standard K-means. The tests showed that our optimizations present promising improvements compared to the standard approaches of data loading for K-means. In this way we aim high in that the work done in this project will improve and revolutionize in the near future the way in which the modern market focuses on the use of Machine Learning algorithms.
TitulacióGRAU EN ENGINYERIA INFORMÀTICA (Pla 2010)
Col·leccions
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
143389.pdf | 2,591Mb | Visualitza/Obre |