Mostra el registre d'ítem simple

dc.contributorBecerra Fontal, Yolanda
dc.contributorCugnasco, Cesare
dc.contributor.authorCorreas Grifoll, Adrià
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors
dc.date.accessioned2019-09-24T21:20:52Z
dc.date.available2019-09-24T21:20:52Z
dc.date.issued2019-03-20
dc.identifier.urihttp://hdl.handle.net/2117/168653
dc.description.abstractAquest projecte proposa optimitzacions per als algorismes de Machine Learning que es beneficien de les bases de dades d'indexació multidimensionals distribuïdes. Els algorismes de clustering, com K-means, requereixen una gran quantitat de recursos computacionals, i a mesura que la quantitat de punts i dimensions augmenten, una mala escalabilitat dels algorismes a més de la lectura d'arxius grans des del disc poden induir a temps de execució molt grans. Una anàlisi exhaustiu per estudiar l'escalabilitat de K-means demostra una mala escalabilitat de l'algorisme. Es presenten un parell d'implementacions d'optimització per aprofitar la tecnologia d'indexació Qbeast, que permet usar la indexació multidimensional en bases de dades per consultar percentatges de dades al llarg del temps. Es pot usar per a realitzar execucions amb quantitats petites però representatives de dades i millorar la inicialització de l'algorisme. S'han realitzat proves amb diferents enfocaments pel que fa als percentatges de dades consultades. També, es mostra una comparació de rendiment d'aquestes optimitzacions amb el K-means estàndard. Les proves van demostrar que les nostres optimitzacions presenten millores prometedores en comparació amb els enfocaments estàndard de lectura de dades per a K-means. D'aquesta manera apuntem alt en que el treball fet en aquest projecte millorarà i revolucionarà en un futur proper la manera en que el mercat modern enfoca l'ús dels algorismes de Machine Learning.
dc.description.abstractThis project proposes optimizations for Machine Learning algorithms that benefit from distributed multidimensional indexing databases. Clustering algorithms, such as K-means, require a large amount of computational resources, and as the number of points and dimensions increase, poor scalability of the algorithms as well as the loading of large files from the disk can induce into very large execution times. A thorough analysis to study K-means scalability demonstrates poor scalability of the algorithm. A couple of optimization implementations are presented to take advantage of the Qbeast indexing technology, which allows the use of multidimensional indexing in databases to query percentages of data over time. It can be used to perform executions with small but representative amounts of data and improve the initialization of the algorithm. Tests have been conducted with different approaches with respect to the percentages of data consulted. Also, a performance comparison of these optimizations is shown with the standard K-means. The tests showed that our optimizations present promising improvements compared to the standard approaches of data loading for K-means. In this way we aim high in that the work done in this project will improve and revolutionize in the near future the way in which the modern market focuses on the use of Machine Learning algorithms.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.subjectÀrees temàtiques de la UPC::Informàtica
dc.subject.lcshMachine learning
dc.subject.lcshAlgorithms
dc.subject.lcshDatabases
dc.subject.otherDistribuït
dc.subject.otherAprenentatge automàtic
dc.subject.otherIndexar
dc.subject.otherMultidimensional
dc.subject.otherOptimització
dc.subject.otherDistributed
dc.subject.otherIndexing
dc.subject.otherMultidimensional
dc.subject.otherOptimization
dc.titleStudy and implementation of Machine Learning algorithms optimized for distributed multidimensional indexing databases
dc.typeBachelor thesis
dc.subject.lemacAprenentatge automàtic
dc.subject.lemacAlgorismes
dc.subject.lemacBases de dades
dc.identifier.slug143389
dc.rights.accessOpen Access
dc.date.updated2019-07-11T04:01:29Z
dc.audience.educationlevelGrau
dc.audience.mediatorFacultat d'Informàtica de Barcelona
dc.audience.degreeGRAU EN ENGINYERIA INFORMÀTICA (Pla 2010)


Fitxers d'aquest items

Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple