Ciència de dades aplicada a la predicció de resultats acadèmics
Cita com:
hdl:2117/393689
Document typeMaster thesis
Date2023-09-19
Rights accessOpen Access
Except where otherwise noted, content on this work
is licensed under a Creative Commons license
:
Attribution-NonCommercial-ShareAlike 3.0 Spain
Abstract
Aquest Treball de Fi de Màster se centra en la construcció de models d’aprenentatge automàtic per a la predicció dels resultats acadèmics dels estudiants del tercer quadrimestre del Grau en Enginyeria en Tecnologies Industrials de l’ETSEIB a partir de les qualificacions obtingudes en el primer i en el segon quadrimestre i de la nota obtinguda a la selectivitat. En concret, s’han creat models de regressió logística, arbres de decisió i random forests. En el transcurs del projecte, s’han seguit les fases que conformen la metodologia més utilitzada en projectes de ciència de dades, coneguda com a CRISP-DM (Cross-Industry Standard Process for Data Mining). Per poder entrenar i avaluar els models predictius, s’ha partit de les dades personals i acadèmiques dels estudiants de l’ETSEIB, proporcionades per la pròpia Escola. Aquestes dades han estat tractades mitjançant el llenguatge de programació Python i, més concretament, utilitzant la llibreria pandas. Un cop transformades les dades, se n’ha fet una anàlisi exploratòria fent ús de les biblioteques pandas, NumPy, SciPy, Matplotlib i seaborn. Pel que fa als models predictius, s’han creat i avaluat models de regressió logística, arbres de decisió i random forests mitjançant la llibreria scikit-learn. A més a més, s’han aplicat dues tècniques de mostreig per al desequilibri de dades, Random Oversampling i SMOTE, emprant la biblioteca imbalanced-learn. En aquest projecte s’han utilitzat dos conjunts de dades, anomenats DataFrame pre-covid i DataFrame covid. El primer correspon als estudiants que han cursat el Q3 per primer cop abans de la pandèmia i el segon correspon a aquells que ho han fet en el quadrimestre en què va sorgir la Covid-19, és a dir, el de primavera del curs 2019-2020. Els models s’han entrenat i avaluat seguint el mètode de validació hold-out, emprant un 80% de les dades del DataFrame pre-covid per a l’entrenament (Training Set) i el 20% restant per a l’avaluació (Test Set). Addicionalment, s’ha utilitzat el DataFrame covid com a conjunt de test extra per posar a prova els models i veure si són igual de bons predient mostres d’alumnes que han cursat per primer cop el Q3 en pandèmia, tot i haver estat entrenats amb dades pre-covid. D’entre els resultats obtinguts, destaca el fet que, en el context del projecte, sembla que els models de regressió logística i la tècnica de mostreig basada en el mètode SMOTE presenten uns millors resultats. També s’ha observat una disminució del rendiment dels models en fer prediccions sobre estudiants que han cursat per primer cop el Q3 durant el quadrimestre en què va sorgir la pandèmia
SubjectsEscola Tècnica Superior d’Enginyeria Industrial de Barcelona -- Students -- Statistics, Curriculum evaluation -- Statistics -- Mathematical models, Escola Tècnica Superior d’Enginyeria Industrial de Barcelona -- Estudiants -- Estadístiques, Avaluació curricular -- Estadístiques -- Models matemàtics, CampusLab
DegreeMÀSTER UNIVERSITARI EN ENGINYERIA INDUSTRIAL (Pla 2014)
Collections
Files | Description | Size | Format | View |
---|---|---|---|---|
annex-marina-asens-llanas.zip | 64,55Mb | application/zip | View/Open | |
memoria-marina-asens-llanas.pdf | 12,05Mb | View/Open |