Anàlisi de dades a Twitter sobre la difusió d’informació sobre el diòxid de clor (MMS/CDS) com a tractament per a la salut de les persones
Cita com:
hdl:2117/358683
Document typeBachelor thesis
Date2021-07-08
Rights accessOpen Access
Except where otherwise noted, content on this work
is licensed under a Creative Commons license
:
Attribution-NonCommercial-NoDerivs 3.0 Spain
Abstract
L’objectiu principal del treball és implementar i avaluar diversos algoritmes de classificació de sentiment per a un cas concret de ‘fake new’ en salut, com és l’ús de MMS com a teràpia. En concret, s’ha optat per realitzar un anàlisi basat en el lèxic amb diccionaris, i un altre amb algoritmes d’aprenentatge supervisat.
Per al primer anàlisi, inicialment s’han utilitzat uns diccionaris estàndard, que posteriorment s’han modificat per fer més acurada la classificació. Els resultats mostren que, amb aquests canvis, s’augmenta el nombre de dades classificades (8,5%). També sembla que l’exactitud de les classificacions millora, però no es pot afirmar amb seguretat segons les dades de les que es disposa.
Els algoritmes d’aprenentatge supervisat que s’utilitzen són Decision Tree i Random Forest. Les dades d’exactitud són, respectivament, 0,922 i 0,996. S’apliquen mètodes de validació creuada per tal de verificar que els algoritmes estiguin correctament ajustats.
Les prediccions dels dos anàlisis mostren que els algoritmes d’aprenentatge supervisat obtenen una exactitud més elevada i que aconsegueixen classificar totes les dades, al contrari que el mètode basat en diccionaris. Però aquest últim resulta més útil a l’hora de realitzar classificacions sense etiquetar, una funció de la que els altres algoritmes no disposen. El objetivo principal del trabajo es implementar y evaluar diversos algoritmos de clasificación de sentimiento para un caso concreto de 'fake new' en salud, como es el uso de MMS como terapia. En concreto, se ha optado por realizar un análisis basado en el léxico con diccionarios, y otro con algoritmos de aprendizaje supervisado.
Para el primer análisis, inicialmente se han utilizado unos diccionarios estándar, que posteriormente se han modificado para hacer más precisa la clasificación. Los resultados muestran que, con estos cambios, se aumenta el número de datos clasificados (8,5%). También parece que la exactitud de las clasificaciones mejora, pero no se puede afirmar con seguridad según los datos de los que se dispone. Los algoritmos de aprendizaje supervisado que se utilizan son Decision Tree y Random Forest. Los datos de exactitud son, respectivamente, 0,922 y 0,996. Se aplican métodos de validación cruzada para verificar que los algoritmos estén correctamente ajustados.
Las predicciones de los dos análisis muestran que los algoritmos de aprendizaje supervisado obtienen una exactitud más elevada y que consiguen clasificar todos los datos, al contrario que el método basado en diccionarios. Pero este último resulta más útil a la hora de realizar clasificaciones sin etiquetar, una función de la que los otros algoritmos no disponen. The main objective of this project is to implement and evaluate some sentiment classification algorithms for a specific case of fake new in health, such as the use of MMS as therapy. Specifically, a lexicon-based analysis with dictionaries and another with supervised learning algorithms are performed.
For the first analysis, standard dictionaries were initially used, which were later modified to make the classification more accurate. The results show that with these changes, the number of classified data increases (8.5%). It also seems that the accuracy of the classifications is improving, but it can not be stated with certainty according to the available data.
The supervised learning algorithms used are Decision Tree and Random Forest. Accuracy data are 0.922 and 0.996, respectively. Cross-validation methods are applied to verify that the algorithms are correctly adjusted.
The predictions in both analyzes show that supervised learning algorithms achieve higher accuracy and are able to classify all data, as opposed to the dictionary-based method. But the latter is more useful when performing unlabeled classifications, a function that other algorithms do not have.
DegreeGRAU EN ENGINYERIA BIOMÈDICA (Pla 2009)
Files | Description | Size | Format | View |
---|---|---|---|---|
TFG_Ariadna_Costas.pdf | 1,756Mb | View/Open | ||
negative_words_es.txt | 27,42Kb | Text file | View/Open | |
positive_words_es.txt | 15,93Kb | Text file | View/Open |