Mostra el registre d'ítem simple

dc.contributorMonleón Getino, Antonio
dc.contributorRodellar Benedé, José
dc.contributor.authorBorja Robalino, Ricardo Stalin
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa
dc.date.accessioned2019-01-22T12:11:12Z
dc.date.available2019-01-22T12:11:12Z
dc.date.issued2019-01
dc.identifier.urihttp://hdl.handle.net/2117/127344
dc.description.abstractAntecedentes: Actualmente la clasificación de fenómenos se dificulta por la masiva existencia de casos donde algunas clases están muy poco representadas en comparación con otras, refiriéndonos así a datos multiclase desequilibrados que impiden un óptimo desempeño del clasificador. Los análisis de concordancia ya sea entre un gold estándar (patrón) y un clasificador o a su vez entre dos clasificadores utilizan el índice kappa como elemento de validación que permite realizar una comparación confiable basada en la relación entre la precisión observada y la esperada, demostrando gran sensibilidad para casos desbalanceados. Los métodos bayesianos han ganado terreno especialmente en el área de la salud en la mayoría de cálculos estadísticos, permitiendo a través del teorema de Bayes y la teoría de la decisión generar modelos que adicionen información del fenómeno en la distribución a priori transmitiéndola a la distribución a posteriori con la ayuda de métodos de simulación de cadenas de Markov Monte Carlo (MCMC). Objetivo: Ayudar a solucionar problemas de clasificación multiclase con categorías desequilibradas, los cuales son cada vez más comunes debido a la aparición de nuevos métodos procedentes del campo del aprendizaje automático, poniendo el enfoque en métodos de concordancia con la aplicación de la inferencia estadística. Obteniendo la estimación puntual del parámetro de interés a través de modelos que presenten robustez y exactitud en sucesos con probabilidades extremas, permitiendo la inserción de información en la distribución a priori en forma de probabilidad. Métodos: El trabajo se centra en el diseño de una librería para el lenguaje R llamada K_Freq_Bay, que posee funciones principales y secundarias que permite obtener el análisis frecuentista y bayesiano en problemas de clasificación categóricos multiclase. El enfoque bayesiano trabaja con tres modelos planteados: Dirichlet-Dirichlet, Dirichlet-Multinomial y Beta-Beta. La librería proporciona un informe con las estimaciones del índice kappa y estadísticas básicas en los dos métodos aplicados, gráficas de densidad kappa frecuentista y bayesiano, análisis de convergencia de Gelman Rubin, análisis de estacionariedad de Von Mises y análisis descriptivo de categorías. En la validación de la librería K_Freq_Bay se aplica los tres modelos planteados a simulaciones del gold estándar y tres observadores con cinco categorías y tamaños muestrales de 921 y 9000 con información a priori de prevalencias de clases equiprobables y probabilidades de 0.15,0.40,0.05,0.20,0.20 por clase. El grupo Cellsilab formado por investigadores del Laboratorio CORE del Centro de Diagnóstico Biomédico del Hospital Clínic de Barcelona y del Departamento de Matemáticas de la Universitat Politècnica de Catalunya trabajan en el proyecto de clasificación automática de imágenes digitales de sangre periférica para su aplicación al diagnóstico inicial de leucemias y linfomas. Se aplicó la librería K_Freq_Bay a la base de datos proporcionadas por Cellsilab de 4365 clasificaciones de células leucémicas con cuatro categorías: células reactivas (CLR), células leucémicas linfocíticas agudas (LAL), células leucémicas agudas mieloides (LAM-MIELOIDE) y células leucémicas agudas mieloides promielocítica (LAM-PROMIELOCÍTICA), utilizando algoritmos de aprendizaje supervisado como: Análisis Discriminante Lineal (LDA), Support Vector Machine (SVM) y Random Forest (RF). La información a priori utilizada en los modelos bayesianos fue la equiprobabilidad y la prevalencia de cada tipo de leucemia tanto en el Hospital Clínic como a nivel de España. Resultados y conclusiones: La utilización del índice Kappa para problemas de clasificación multiclase desequilibradas es óptima debido a su diferencia normalizada entre la tasa de acuerdo observada y la que se esperaría puramente por casualidad. Esto se debe a que la precisión esperada posee dependencia frente al número de categorías y su desequilibrio, ya que cuantas más categorías y mayor diferencia en la frecuencia entre clases exista se considera más difícil clasificar correctamente un evento que habitualmente implica valores más bajos de kappa. La aplicación de la libreria K_Freq_Bay a datos simulados y a la clasificación de células leucémicas permitió concluir que el mejor modelo que permite estimar con gran exactitud y robustez el índice kappa bayesiano con tasas de exactitud menores a 1.5% es la asignación de dos distribuciones a priori Dirichlet en casos en los que la información a priori es nula, regular o extrema. Mientras que los otros dos modelos presentan sensibilidad a la inclusión de información a priori extrema generando densidades kappa demasiado leptocúrticas y platicúrticas que demuestran precisión, pero no exactitud. Es importante recalcar que cuanto más específica y extrema fue la información a priori, los modelos mejoraron su exactitud. En el caso de la aplicación en células leucémicas, el análisis del índice kappa se basa en la tabla valorativa de la concordancia de Landis y Koch, mostrando un buen acuerdo entre el gold estándar y los clasificadores LDA y SVM. Por lo tanto, los algoritmos tanto balanceados como desequilibrados clasifican efectivamente las células leucémicas en base a la proximidad con la realidad. La librería diseñada K_Feq_Bay permite realizar pruebas educativas claras y eficaces, ya sea simplemente por simulación de datos o aplicados a una base específica, relacionadas al análisis de concordancia bayesiano y frecuentista para casos multiclase desequilibrados en donde es de gran importancia la interpretación del índice kappa.
dc.language.isospa
dc.publisherUniversitat Politècnica de Catalunya
dc.publisherUniversitat de Barcelona
dc.subjectÀrees temàtiques de la UPC::Matemàtiques i estadística::Estadística matemàtica
dc.subject.lcshMathematical Statistics
dc.subject.otherConcordancia
dc.subject.otheríndice kappa
dc.subject.otherPrecisión
dc.subject.otherInferencia bayesiana
dc.subject.otherDistribuciones de probabilidad
dc.subject.otherGold estándar
dc.subject.otherCélulas leucémicas
dc.subject.otherSangre periférica
dc.subject.otherMétodos de clasificación
dc.titleMétodo de concordancia bayesiano y su aplicación en problemas de clasificación multiclase con categorías desequilibradas
dc.typeMaster thesis
dc.subject.lemacEstadística matemàtica--Aplicacions
dc.subject.amsClassificació AMS::62 Statistics::62P Applications
dc.identifier.slugFME-1743
dc.rights.accessOpen Access
dc.date.updated2019-01-22T06:26:00Z
dc.audience.educationlevelMàster
dc.audience.mediatorUniversitat Politècnica de Catalunya. Facultat de Matemàtiques i Estadística
dc.audience.degreeMÀSTER UNIVERSITARI EN ESTADÍSTICA I INVESTIGACIÓ OPERATIVA (Pla 2013)


Fitxers d'aquest items

Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple