Comparación de algoritmos de clasificación supervisada
Tipus de documentProjecte Final de Màster Oficial
Data2020-07-21
Condicions d'accésAccés obert
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya
Abstract
En este trabajo se comparan los principales algoritmos de clasificación de aprendizaje supervisado basados en árboles de decisión. Los algoritmos que se utilizarán en el estudio son: árbol de decisión, bagging, Random Forest y AdaBoost. El objetivo es observar cuál de estos algoritmos se comporta mejor.
Para entender que son los algoritmos de clasificación de aprendizajes supervisados primero se detallará una ampliación general del aprendizaje automáticos y sus posibles clasificaciones y aplicaciones.
En una primera parte del trabajo se definen cada uno de los algoritmos de manera teórica, consiguiendo así, entender de manera detallada su comportamiento, sus características, ventajas y desventajas.
La segunda parte del trabajo consistirá en aplicar cada uno de estos algoritmos a un conjunto de datos para observar cuáles son sus prestaciones. Se emplearán un conjunto de datos que hacen referencia a múltiples reservas de hoteles. El objetivo del modelo será predecir si una reserva será cancelada o no. Para ello se usará Python, y en concreto, su librería de aprendizaje supervisado Scikit-Learn.
Previo al uso de los algoritmos, el conjunto de datos ha sido estudiado con atención para detectar si había algunos datos erróneos o atributos que no eran útiles para nuestra aplicación del aprendizaje supervisado.
Para conseguir el mejor modelo de cada uno de los algoritmos se han realizado dos pasos: seleccionar los atributos más importantes y ajustar los hiperparámetros. De esta manera conseguimos que los modelos obtengan unas prestaciones muchos mejores. Para realizar estos entrenamientos y ajustes se ha dividido el conjunto de datos en datos de entrenamiento, datos de validación y datos de test. De este modo se evita en lo posible presentar resultados sobre ajustados.
Tras entrenar y ajustar cada uno de los modelos, se ha podido observar que el modelo que mejor se comporta con nuestro conjunto de datos es el Random Forest, seguido muy de cerca del bagging.
TitulacióMÀSTER UNIVERSITARI EN ENGINYERIA D'ORGANITZACIÓ (Pla 2012)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
tfm-mueo-alexandre-serra.pdf | 2,350Mb | Visualitza/Obre | ||
tfm-mueo-alexandre-serra-jupyternotebook.zip | 3,436Mb | application/zip | Visualitza/Obre |