Método de concordancia bayesiano y su aplicación en problemas de clasificación multiclase con categorías desequilibradas

Borja Robalino, Ricardo Stalin

dc.contributor	Monleón Getino, Antonio
dc.contributor	Rodellar Benedé, José
dc.contributor.author	Borja Robalino, Ricardo Stalin
dc.contributor.other	Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa
dc.date.accessioned	2019-01-22T12:11:12Z
dc.date.available	2019-01-22T12:11:12Z
dc.date.issued	2019-01
dc.identifier.uri	http://hdl.handle.net/2117/127344
dc.description.abstract	Antecedentes: Actualmente la clasificación de fenómenos se dificulta por la masiva existencia de casos donde algunas clases están muy poco representadas en comparación con otras, refiriéndonos así a datos multiclase desequilibrados que impiden un óptimo desempeño del clasificador. Los análisis de concordancia ya sea entre un gold estándar (patrón) y un clasificador o a su vez entre dos clasificadores utilizan el índice kappa como elemento de validación que permite realizar una comparación confiable basada en la relación entre la precisión observada y la esperada, demostrando gran sensibilidad para casos desbalanceados. Los métodos bayesianos han ganado terreno especialmente en el área de la salud en la mayoría de cálculos estadísticos, permitiendo a través del teorema de Bayes y la teoría de la decisión generar modelos que adicionen información del fenómeno en la distribución a priori transmitiéndola a la distribución a posteriori con la ayuda de métodos de simulación de cadenas de Markov Monte Carlo (MCMC). Objetivo: Ayudar a solucionar problemas de clasificación multiclase con categorías desequilibradas, los cuales son cada vez más comunes debido a la aparición de nuevos métodos procedentes del campo del aprendizaje automático, poniendo el enfoque en métodos de concordancia con la aplicación de la inferencia estadística. Obteniendo la estimación puntual del parámetro de interés a través de modelos que presenten robustez y exactitud en sucesos con probabilidades extremas, permitiendo la inserción de información en la distribución a priori en forma de probabilidad. Métodos: El trabajo se centra en el diseño de una librería para el lenguaje R llamada K_Freq_Bay, que posee funciones principales y secundarias que permite obtener el análisis frecuentista y bayesiano en problemas de clasificación categóricos multiclase. El enfoque bayesiano trabaja con tres modelos planteados: Dirichlet-Dirichlet, Dirichlet-Multinomial y Beta-Beta. La librería proporciona un informe con las estimaciones del índice kappa y estadísticas básicas en los dos métodos aplicados, gráficas de densidad kappa frecuentista y bayesiano, análisis de convergencia de Gelman Rubin, análisis de estacionariedad de Von Mises y análisis descriptivo de categorías. En la validación de la librería K_Freq_Bay se aplica los tres modelos planteados a simulaciones del gold estándar y tres observadores con cinco categorías y tamaños muestrales de 921 y 9000 con información a priori de prevalencias de clases equiprobables y probabilidades de 0.15,0.40,0.05,0.20,0.20 por clase. El grupo Cellsilab formado por investigadores del Laboratorio CORE del Centro de Diagnóstico Biomédico del Hospital Clínic de Barcelona y del Departamento de Matemáticas de la Universitat Politècnica de Catalunya trabajan en el proyecto de clasificación automática de imágenes digitales de sangre periférica para su aplicación al diagnóstico inicial de leucemias y linfomas. Se aplicó la librería K_Freq_Bay a la base de datos proporcionadas por Cellsilab de 4365 clasificaciones de células leucémicas con cuatro categorías: células reactivas (CLR), células leucémicas linfocíticas agudas (LAL), células leucémicas agudas mieloides (LAM-MIELOIDE) y células leucémicas agudas mieloides promielocítica (LAM-PROMIELOCÍTICA), utilizando algoritmos de aprendizaje supervisado como: Análisis Discriminante Lineal (LDA), Support Vector Machine (SVM) y Random Forest (RF). La información a priori utilizada en los modelos bayesianos fue la equiprobabilidad y la prevalencia de cada tipo de leucemia tanto en el Hospital Clínic como a nivel de España. Resultados y conclusiones: La utilización del índice Kappa para problemas de clasificación multiclase desequilibradas es óptima debido a su diferencia normalizada entre la tasa de acuerdo observada y la que se esperaría puramente por casualidad. Esto se debe a que la precisión esperada posee dependencia frente al número de categorías y su desequilibrio, ya que cuantas más categorías y mayor diferencia en la frecuencia entre clases exista se considera más difícil clasificar correctamente un evento que habitualmente implica valores más bajos de kappa. La aplicación de la libreria K_Freq_Bay a datos simulados y a la clasificación de células leucémicas permitió concluir que el mejor modelo que permite estimar con gran exactitud y robustez el índice kappa bayesiano con tasas de exactitud menores a 1.5% es la asignación de dos distribuciones a priori Dirichlet en casos en los que la información a priori es nula, regular o extrema. Mientras que los otros dos modelos presentan sensibilidad a la inclusión de información a priori extrema generando densidades kappa demasiado leptocúrticas y platicúrticas que demuestran precisión, pero no exactitud. Es importante recalcar que cuanto más específica y extrema fue la información a priori, los modelos mejoraron su exactitud. En el caso de la aplicación en células leucémicas, el análisis del índice kappa se basa en la tabla valorativa de la concordancia de Landis y Koch, mostrando un buen acuerdo entre el gold estándar y los clasificadores LDA y SVM. Por lo tanto, los algoritmos tanto balanceados como desequilibrados clasifican efectivamente las células leucémicas en base a la proximidad con la realidad. La librería diseñada K_Feq_Bay permite realizar pruebas educativas claras y eficaces, ya sea simplemente por simulación de datos o aplicados a una base específica, relacionadas al análisis de concordancia bayesiano y frecuentista para casos multiclase desequilibrados en donde es de gran importancia la interpretación del índice kappa.
dc.language.iso	spa
dc.publisher	Universitat Politècnica de Catalunya
dc.publisher	Universitat de Barcelona
dc.subject	Àrees temàtiques de la UPC::Matemàtiques i estadística::Estadística matemàtica
dc.subject.lcsh	Mathematical Statistics
dc.subject.other	Concordancia
dc.subject.other	índice kappa
dc.subject.other	Precisión
dc.subject.other	Inferencia bayesiana
dc.subject.other	Distribuciones de probabilidad
dc.subject.other	Gold estándar
dc.subject.other	Células leucémicas
dc.subject.other	Sangre periférica
dc.subject.other	Métodos de clasificación
dc.title	Método de concordancia bayesiano y su aplicación en problemas de clasificación multiclase con categorías desequilibradas
dc.type	Master thesis
dc.subject.lemac	Estadística matemàtica--Aplicacions
dc.subject.ams	Classificació AMS::62 Statistics::62P Applications
dc.identifier.slug	FME-1743
dc.rights.access	Open Access
dc.date.updated	2019-01-22T06:26:00Z
dc.audience.educationlevel	Màster
dc.audience.mediator	Universitat Politècnica de Catalunya. Facultat de Matemàtiques i Estadística
dc.audience.degree	MÀSTER UNIVERSITARI EN ESTADÍSTICA I INVESTIGACIÓ OPERATIVA (Pla 2013)

Fitxers d'aquest items

Nom:: memoria.pdf
Mida:: 6,526Mb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Màster universitari en Estadística i Investigació Operativa (UPC-UB) [437]
Titulació interuniversitària UPC-UB

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Método de concordancia bayesiano y su aplicación en problemas de clasificación multiclase con categorías desequilibradas

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora