Visual analysis of text similarity metrics

Martínez Montes, Adrián

Visualitza/Obre

155929.pdf (7,234Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Martínez Montes, Adrián

Tutor / directorVázquez Alcocer, Pere Pau

Tipus de documentTreball Final de Grau

Data2022-04-29

Condicions d'accésAccés obert

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets

Abstract

Aquest projecte compara diferents mètriques de distància aplicades a embeddings de documents sobre diferents gràfics conceptuals. Al saber quines mètriques són efectives d'entre totes les analitzades sota uns límits establerts, facilita l'aplicació d'aquestes a altres àmbits. Per tant, coneixent els resultats del projecte tindrem la certesa que les mètriques funcionaran correctament, estalviant temps i optimitzant els recursos de qualsevol negoci quan es necessita una comparació de diferents documents per a una aplicació més professional. Aquest projecte aplica dos models NLP: Doc2Vec i Word2Vec. L'objectiu d'aquesta investigació és profunditzar en el funcionament de les mètriques estudiades sobre aquests models. S'han creat diverses pipelines per automatitzar tot el processament de text, l'entrenament de models i l'exportació de resultats. Això ha permès poder crear tres contexts per model, fent que els resultats siguin més diversos i tindre més marge per comparar els resultats. Entre tota l'experimentació realitzada, cal destacar l'estructura de proves combinatòries que ens ha permès crear resultats d'experimentació prou grans per a avaluar discriminant per Model-Context-Mètrica. Finalment, les conclusions extretes han sigut bastant clares, la mètrica amb millor comportament general ha sigut Cosine Similarity, on per grups discriminats (Blogs, Científic, Wikipedia, Doc2Vec i Word2Vec) ha tingut el millor rendiment exceptuant Wikipedia, que ha estat en segon lloc.

This project compares different distance metrics applied to document embeddings above different conceptual graphics. By knowing which metrics are effective among all the ones analysed under established limits, it facilitates the application of the aforementioned in other scopes. Therefore we have the certainty that the metrics will work properly, saving time and optimising the resources of any business when a comparison of different documents is needed for a more professional application. This project applies two NLP models: Doc2Vec and Word2Vec. The goal of this research is to delve into how the studied metrics work on these models: different pipelines have been created in order to have all the text processes automated, the fitting of the model process and the result exportation. This has allowed us to create three contexts per model, making the results more diverse and having a bigger margin to compare the results. Among all the experimentation done, the combinatory test structure should be highlighted as it has allowed us to create experimentation results large enough to evaluate the discrimination by Model-Context-Metric. Finally, the conclusions extracted are clear: the metric with best general behaviour has been Cosine Similarity, where by discriminated groups (Blogs, Scientific, Wikipedia, Doc2Vec and Word2Vec) has had the best performance excepting the Wikipedia context, that has resulted in a second place.

MatèriesSoftware measurement, Natural language processing (Computer science), Programari--Mesurament, Tractament del llenguatge natural (Informàtica)

TitulacióGRAU EN ENGINYERIA INFORMÀTICA (Pla 2010)

URIhttp://hdl.handle.net/2117/367509

Col·leccions

Facultat d'Informàtica de Barcelona - Grau en Enginyeria Informàtica (Pla 2010) [2.477]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
155929.pdf		7,234Mb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Visual analysis of text similarity metrics

Visualitza/Obre

Explora