Comparación de algoritmos de clasificación supervisada

Serra Marrugat, Alexandre

Visualitza/Obre

tfm-mueo-alexandre-serra.pdf (2,350Mb)

tfm-mueo-alexandre-serra-jupyternotebook.zip (3,436Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Serra Marrugat, Alexandre

Tutor / directorGinebra Molins, Josep

Tipus de documentProjecte Final de Màster Oficial

Data2020-07-21

Condicions d'accésAccés obert

Attribution-NonCommercial-NoDerivs 3.0 Spain

Llevat que s'hi indiqui el contrari, els continguts d'aquesta obra estan subjectes a la llicència de Creative Commons : Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya

Abstract

En este trabajo se comparan los principales algoritmos de clasificación de aprendizaje supervisado basados en árboles de decisión. Los algoritmos que se utilizarán en el estudio son: árbol de decisión, bagging, Random Forest y AdaBoost. El objetivo es observar cuál de estos algoritmos se comporta mejor. Para entender que son los algoritmos de clasificación de aprendizajes supervisados primero se detallará una ampliación general del aprendizaje automáticos y sus posibles clasificaciones y aplicaciones. En una primera parte del trabajo se definen cada uno de los algoritmos de manera teórica, consiguiendo así, entender de manera detallada su comportamiento, sus características, ventajas y desventajas. La segunda parte del trabajo consistirá en aplicar cada uno de estos algoritmos a un conjunto de datos para observar cuáles son sus prestaciones. Se emplearán un conjunto de datos que hacen referencia a múltiples reservas de hoteles. El objetivo del modelo será predecir si una reserva será cancelada o no. Para ello se usará Python, y en concreto, su librería de aprendizaje supervisado Scikit-Learn. Previo al uso de los algoritmos, el conjunto de datos ha sido estudiado con atención para detectar si había algunos datos erróneos o atributos que no eran útiles para nuestra aplicación del aprendizaje supervisado. Para conseguir el mejor modelo de cada uno de los algoritmos se han realizado dos pasos: seleccionar los atributos más importantes y ajustar los hiperparámetros. De esta manera conseguimos que los modelos obtengan unas prestaciones muchos mejores. Para realizar estos entrenamientos y ajustes se ha dividido el conjunto de datos en datos de entrenamiento, datos de validación y datos de test. De este modo se evita en lo posible presentar resultados sobre ajustados. Tras entrenar y ajustar cada uno de los modelos, se ha podido observar que el modelo que mejor se comporta con nuestro conjunto de datos es el Random Forest, seguido muy de cerca del bagging.

MatèriesAlgorithms, Algorismes

TitulacióMÀSTER UNIVERSITARI EN ENGINYERIA D'ORGANITZACIÓ (Pla 2012)

URIhttp://hdl.handle.net/2117/330482

Col·leccions

Màsters oficials - Màster universitari en Enginyeria d'Organització (ETSEIB) (Pla 2012) [150]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
tfm-mueo-alexandre-serra.pdf		2,350Mb	PDF	Visualitza/Obre
tfm-mueo-alexandre-serra-jupyternotebook.zip		3,436Mb	application/zip	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Comparación de algoritmos de clasificación supervisada

Visualitza/Obre

Explora