Mostra el registre d'ítem simple
Método de concordancia bayesiano y su aplicación en problemas de clasificación multiclase con categorías desequilibradas
dc.contributor | Monleón Getino, Antonio |
dc.contributor | Rodellar Benedé, José |
dc.contributor.author | Borja Robalino, Ricardo Stalin |
dc.contributor.other | Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa |
dc.date.accessioned | 2019-01-22T12:11:12Z |
dc.date.available | 2019-01-22T12:11:12Z |
dc.date.issued | 2019-01 |
dc.identifier.uri | http://hdl.handle.net/2117/127344 |
dc.description.abstract | Antecedentes: Actualmente la clasificación de fenómenos se dificulta por la masiva existencia de casos donde algunas clases están muy poco representadas en comparación con otras, refiriéndonos así a datos multiclase desequilibrados que impiden un óptimo desempeño del clasificador. Los análisis de concordancia ya sea entre un gold estándar (patrón) y un clasificador o a su vez entre dos clasificadores utilizan el índice kappa como elemento de validación que permite realizar una comparación confiable basada en la relación entre la precisión observada y la esperada, demostrando gran sensibilidad para casos desbalanceados. Los métodos bayesianos han ganado terreno especialmente en el área de la salud en la mayoría de cálculos estadísticos, permitiendo a través del teorema de Bayes y la teoría de la decisión generar modelos que adicionen información del fenómeno en la distribución a priori transmitiéndola a la distribución a posteriori con la ayuda de métodos de simulación de cadenas de Markov Monte Carlo (MCMC). Objetivo: Ayudar a solucionar problemas de clasificación multiclase con categorías desequilibradas, los cuales son cada vez más comunes debido a la aparición de nuevos métodos procedentes del campo del aprendizaje automático, poniendo el enfoque en métodos de concordancia con la aplicación de la inferencia estadística. Obteniendo la estimación puntual del parámetro de interés a través de modelos que presenten robustez y exactitud en sucesos con probabilidades extremas, permitiendo la inserción de información en la distribución a priori en forma de probabilidad. Métodos: El trabajo se centra en el diseño de una librería para el lenguaje R llamada K_Freq_Bay, que posee funciones principales y secundarias que permite obtener el análisis frecuentista y bayesiano en problemas de clasificación categóricos multiclase. El enfoque bayesiano trabaja con tres modelos planteados: Dirichlet-Dirichlet, Dirichlet-Multinomial y Beta-Beta. La librería proporciona un informe con las estimaciones del índice kappa y estadísticas básicas en los dos métodos aplicados, gráficas de densidad kappa frecuentista y bayesiano, análisis de convergencia de Gelman Rubin, análisis de estacionariedad de Von Mises y análisis descriptivo de categorías. En la validación de la librería K_Freq_Bay se aplica los tres modelos planteados a simulaciones del gold estándar y tres observadores con cinco categorías y tamaños muestrales de 921 y 9000 con información a priori de prevalencias de clases equiprobables y probabilidades de 0.15,0.40,0.05,0.20,0.20 por clase. El grupo Cellsilab formado por investigadores del Laboratorio CORE del Centro de Diagnóstico Biomédico del Hospital Clínic de Barcelona y del Departamento de Matemáticas de la Universitat Politècnica de Catalunya trabajan en el proyecto de clasificación automática de imágenes digitales de sangre periférica para su aplicación al diagnóstico inicial de leucemias y linfomas. Se aplicó la librería K_Freq_Bay a la base de datos proporcionadas por Cellsilab de 4365 clasificaciones de células leucémicas con cuatro categorías: células reactivas (CLR), células leucémicas linfocíticas agudas (LAL), células leucémicas agudas mieloides (LAM-MIELOIDE) y células leucémicas agudas mieloides promielocítica (LAM-PROMIELOCÍTICA), utilizando algoritmos de aprendizaje supervisado como: Análisis Discriminante Lineal (LDA), Support Vector Machine (SVM) y Random Forest (RF). La información a priori utilizada en los modelos bayesianos fue la equiprobabilidad y la prevalencia de cada tipo de leucemia tanto en el Hospital Clínic como a nivel de España. Resultados y conclusiones: La utilización del índice Kappa para problemas de clasificación multiclase desequilibradas es óptima debido a su diferencia normalizada entre la tasa de acuerdo observada y la que se esperaría puramente por casualidad. Esto se debe a que la precisión esperada posee dependencia frente al número de categorías y su desequilibrio, ya que cuantas más categorías y mayor diferencia en la frecuencia entre clases exista se considera más difícil clasificar correctamente un evento que habitualmente implica valores más bajos de kappa. La aplicación de la libreria K_Freq_Bay a datos simulados y a la clasificación de células leucémicas permitió concluir que el mejor modelo que permite estimar con gran exactitud y robustez el índice kappa bayesiano con tasas de exactitud menores a 1.5% es la asignación de dos distribuciones a priori Dirichlet en casos en los que la información a priori es nula, regular o extrema. Mientras que los otros dos modelos presentan sensibilidad a la inclusión de información a priori extrema generando densidades kappa demasiado leptocúrticas y platicúrticas que demuestran precisión, pero no exactitud. Es importante recalcar que cuanto más específica y extrema fue la información a priori, los modelos mejoraron su exactitud. En el caso de la aplicación en células leucémicas, el análisis del índice kappa se basa en la tabla valorativa de la concordancia de Landis y Koch, mostrando un buen acuerdo entre el gold estándar y los clasificadores LDA y SVM. Por lo tanto, los algoritmos tanto balanceados como desequilibrados clasifican efectivamente las células leucémicas en base a la proximidad con la realidad. La librería diseñada K_Feq_Bay permite realizar pruebas educativas claras y eficaces, ya sea simplemente por simulación de datos o aplicados a una base específica, relacionadas al análisis de concordancia bayesiano y frecuentista para casos multiclase desequilibrados en donde es de gran importancia la interpretación del índice kappa. |
dc.language.iso | spa |
dc.publisher | Universitat Politècnica de Catalunya |
dc.publisher | Universitat de Barcelona |
dc.subject | Àrees temàtiques de la UPC::Matemàtiques i estadística::Estadística matemàtica |
dc.subject.lcsh | Mathematical Statistics |
dc.subject.other | Concordancia |
dc.subject.other | índice kappa |
dc.subject.other | Precisión |
dc.subject.other | Inferencia bayesiana |
dc.subject.other | Distribuciones de probabilidad |
dc.subject.other | Gold estándar |
dc.subject.other | Células leucémicas |
dc.subject.other | Sangre periférica |
dc.subject.other | Métodos de clasificación |
dc.title | Método de concordancia bayesiano y su aplicación en problemas de clasificación multiclase con categorías desequilibradas |
dc.type | Master thesis |
dc.subject.lemac | Estadística matemàtica--Aplicacions |
dc.subject.ams | Classificació AMS::62 Statistics::62P Applications |
dc.identifier.slug | FME-1743 |
dc.rights.access | Open Access |
dc.date.updated | 2019-01-22T06:26:00Z |
dc.audience.educationlevel | Màster |
dc.audience.mediator | Universitat Politècnica de Catalunya. Facultat de Matemàtiques i Estadística |
dc.audience.degree | MÀSTER UNIVERSITARI EN ESTADÍSTICA I INVESTIGACIÓ OPERATIVA (Pla 2013) |
Fitxers d'aquest items
Aquest ítem apareix a les col·leccions següents
-
Màster universitari en Estadística i Investigació Operativa (UPC-UB) [437]
Titulació interuniversitària UPC-UB