Machine learning aplicat a prediccions durant la nit electoral

Fernández Bertolín, Sergio

dc.contributor	Blasco Moreno, Pol
dc.contributor	Cabrera-Bean, Margarita
dc.contributor.author	Fernández Bertolín, Sergio
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned	2016-11-07T12:11:08Z
dc.date.available	2016-11-07T12:11:08Z
dc.date.issued	2016-10
dc.identifier.uri	http://hdl.handle.net/2117/93006
dc.description.abstract	The current project explores electoral data from Spanish national elections from 2000 to 2011. Using these, it is developed and tested an algorithm to predict election results with a small error. The analysed prediction is an Electoral Night Forecasting procedure, performed during the election night. Specifically, the implementation starts with the counting of the first votes and finishes with the publication of the final results. Differently from other widespread calculations, the basis of the study is not sociodemographic data. Machine Learning techniques, like clustering or PCA, are used in conjunction with electoral data from past elections and data from the current incoming votes. There are two distinguishable phases in the prediction: clustering of historical data to train the system and the prediction itself. Within the clustering phase, polling districts are grouped according to the similarity between their voting behaviour (clustering implementation depends strongly on the function chosen to calculate this similarity). Predictions of the final results are given as voting data is arriving. It is assumed that not computed polling districts have similar results to those already computed of the same cluster. With the previous assumption, predictions are improved. In addition, the error due to the bias of the early received results is reduced. The prediction model chosen to develop this approach was tested with great outcomes in the 2004 South African elections. A data study is conducted prior to the prediction, in order to find the optimal clustering type and number of clusters. Results obtained are not indicative enough to choose a good setting of the model. Consequently, the quest of the best parameters is done by the very same computation of predictions. For any tested configuration, the prediction improves the results thrown by pure counting of incoming votes. Forecasted results are studied according to the percentage of votes arrived. The study reveals that fewer clusters are a better option for lower votes arrived. On the contrary, a larger number of clusters is more accurate for a large number of incoming votes. An alternative implementation of the algorithm using PCA (Principal Component Analysis) is proposed. By using it, it is expected to lessen data volume and consequently, computational cost and execution time. By using PCA with training data, most of the forecasting results are notably enhanced. With this technique, a great behaviour is guaranteed with a large number of clusters, independently from the percentage of votes arrived.
dc.description.abstract	Aquest projecte explora les dades electorals dels comicis estatals celebrats a Espanya entre els anys 2000 i 2011. Amb elles s'elabora i testeja un algorisme de predicció de resultats electorals amb un error de predicció petit. La predicció a desenvolupar s'emmarca en l'anomenat Electoral Night Forecasting (ENF), prediccions durant la nit electoral. En concret, s'implementen durant l'escrutini, iniciant-se amb el recompte de vots de les primeres meses electorals i finalitzant amb la publicació de resultats definitius. Els còmputs a realitzar, a diferència d'altres més clàssics i coneguts, no es basen directament en dades sociodemogràfiques. Es combinen tècniques de Machine Learning, com clustering i PCA; amb dades històriques d'eleccions passades i les que s'obtenen del recompte de vots durant les eleccions actuals. Hi ha dues fases ben diferenciades per a desenvolupar la predicció: el clustering de les dades històriques, que serveix com a entrenament del sistema, i la mateixa predicció. A la fase de clustering es fan grups de meses electorals, assignant al mateix conjunt les que tenen resultats similars (aquesta agrupació dependrà en gran mesura de la funció que es fa servir per a calcular la semblança entre resultats). Tal com van arribant les dades durant l'escrutini, es van fent prediccions del resultat final. Aquestes assumeixen que els vots de les meses que encara no han finalitzat el recompte són similars a les ja escrutades del seu mateix clúster. D'aquesta manera es refina la predicció del resultat final i es redueix considerablement l'error provocat per l'arribada de meses amb patró de vot similar als primers estadis de l'escrutini. El model de predicció escollit per a realitzar aquesta aproximació es va testejar a les eleccions sud-africanes del 2004 amb bons resultats. Amb anterioritat a la fase de predicció s'estudien les dades, per a trobar el tipus de clustering i el nombre de clústers òptim a emprar. Els resultats obtinguts no són prou indicatius per a triar una bona configuració per al model descrit. Es passa llavors a cercar els millors paràmetres i nombre de clústers tot comparant-ne la reducció dels seus respectius errors de predicció directament. Per a qualsevol configuració utilitzada, la predicció millora els resultats de l'escrutini pur, mostrant la seva utilitat. S'estudia el comportament de la predicció per a diferents valors de l'escrutini. Amb valors baixos, es troben millors resultats si les agrupacions tenen un menor nombre de clústers. Per a valors superiors d'escrutini, és millor fer servir un nombre més gran de clústers. Es proposa també un càlcul alternatiu de l'algorisme fent servir PCA (Principal Component Analysis) per a alleugerir el volum de dades implicat en el càlcul de clústers i així obtenir temps d'execució més reduïts, comparant si afecta al resultat final i als paràmetres òptims. Amb el processat de les dades d'entrenament amb PCA, el comportament del sistema millora notablement per la majoria de casos estudiats. Amb PCA obtenim també resultats òptims (o quasi òptims en el pitjor dels casos) amb un nombre de clústers grans, independentment del percentatge d'escrutini computat.
dc.description.abstract	Este proyecto explora los datos electorales de los comicios estatales celebrados en España entre los años 2000 y 2011. Con ellos se elabora y testea un algoritmo de predicción de resultados electorales con un error de predicción pequeño. La predicción a desarrollar se enmarca en el llamado Electoral Night Forecasting (ENF), predicciones durante la noche electoral. En concreto, se implementan durante el escrutinio, iniciándose con el recuento de votos de las primeras mesas electorales y finalizando con la publicación de resultados definitivos. Los cómputos a realizar, a diferencia de otros más clásicos y conocidos, no se basan directamente en datos sociodemográficos. Se combinan técnicas de Machine Learning, como clustering y PCA; con datos históricos de elecciones pasadas y las que se obtienen del recuento de votos durante las elecciones actuales. Hay dos fases bien diferenciadas para desarrollar la predicción: el clustering de los datos históricos, que sirve como entrenamiento del sistema, y la misma predicción. En la fase de clustering se hacen grupos de mesas electorales, asignando al mismo conjunto las que tienen resultados similares (esta agrupación dependerá en gran medida de la función que se utiliza para calcular la semejanza entre resultados). Tal y como van llegando los datos durante el escrutinio, se van haciendo predicciones del resultado final. Éstas asumen que los votos de las mesas que aún no han finalizado el recuento son similares a las ya escrutadas de su mismo clúster. De esta manera se refina la predicción del resultado final y se reduce considerablemente el error provocado por la llegada de mesas con patrón de voto similar en los primeros estadios del escrutinio. El modelo de predicción escogido para realizar esta aproximación se implantó en las elecciones sudafricanas de 2004 con buenos resultados. Con anterioridad a la fase de predicción se estudian los datos, para encontrar el tipo de clustering y el número de clústeres óptimo a emplear. Los resultados obtenidos no son suficientemente indicativos para elegir una buena configuración para el modelo descrito. Se pasa entonces a buscar los mejores parámetros y número de clústeres comparando directamente la reducción de sus respectivos errores de predicción. Para cualquier configuración utilizada, la predicción mejora los resultados del escrutinio puro, mostrando su utilidad. Se estudia el comportamiento de la predicción para diferentes valores del escrutinio. Con valores bajos, se encuentran mejores resultados si las agrupaciones tienen un menor número de clústeres. Para valores superiores de escrutinio, es mejor usar un mayor número de clústeres. Se propone también un cálculo alternativo del algoritmo utilizando PCA (Principal Component Analysis) para aligerar el volumen de datos implicado en el cálculo de clústeres y así obtener tiempos de ejecución más reducidos, comparando si afecta al resultado final y a los parámetros óptimos. Con el procesado de los datos de entrenamiento con PCA, el comportamiento del sistema mejora notablemente para la mayoría de casos estudiados. Con PCA obtenemos también resultados óptimos (o casi óptimos en el peor de los casos) con un número de clústeres grandes, independientemente del porcentaje de escrutinio computado.
dc.language.iso	cat
dc.publisher	Universitat Politècnica de Catalunya
dc.rights	S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject	Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic
dc.subject.lcsh	Machine learning
dc.subject.other	Aprendizaje automático
dc.subject.other	Aprenentatge automàtic
dc.subject.other	Machine learning
dc.title	Machine learning aplicat a prediccions durant la nit electoral
dc.title.alternative	Machine learning aplicado a predicciones durante la noche electoral
dc.title.alternative	Machine learning applied to electoral night forecasting
dc.type	Master thesis (pre-Bologna period)
dc.subject.lemac	Aprenentatge automàtic -- Algorismes
dc.identifier.slug	ETSETB-230.120626
dc.rights.access	Open Access
dc.date.updated	2016-11-01T06:52:20Z
dc.audience.educationlevel	Estudis de primer/segon cicle
dc.audience.mediator	Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degree	ENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)

Fitxers d'aquest items

Nom:: Memoria_def.pdf
Mida:: 815,4Kb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Enginyeria de Telecomunicació (Pla 1992) [1.590]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Machine learning aplicat a prediccions durant la nit electoral

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora