Comparison between machine learning and deep learning for the classification of mammograms in bi-rads
Correu electrònic de l'autorignaciomoraguesrgmail.com
Tipus de documentTreball Final de Grau
Data2021-06-30
Condicions d'accésAccés obert
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya
Abstract
Tal com apunten les estadístiques, el càncer de mama és un problema de salut greu que suposa una
considerable càrrega econòmica a l'hora de dur a terme el seu tractament, de manera que es
justifica, indubtablement, la necessitat de realitzar un cribratge d'aquesta malaltia. No obstant això̀,
en l'actualitat, la forma en què es realitza el diagnòstic en la pràctica clínica és propensa a errors.
D'aquesta manera, sorgeix la necessitat de buscar una eina que ajudi als professionals a classificar
les mamografies en les quatre categories de BI-RADS.
En aquest projecte es presenten dos enfocament: un de machine learning i un de deep learning.
Principalment, més enllà de la comparació dels resultats, el que es pretén és analitzar i desgranar
en profunditat el procés seguit per aconseguir els seus respectius desenvolupaments i posterior
implementació. Així, es mostren les dificultats i desavantatges trobats a l’hora que s'avaluen i
comparen els dos models. Per a això, s'utilitzen tres bases de dades de mamografies que experts ja
han classificat seguint les pautes de BI-RADS.
Pel model de machine learning, es desenvolupen i utilitzen algoritmes que extreuen
característiques de textura de les mamografies. L’àrea densa de la mama es segmenta utilitzant la
informació́obtinguda de textura i Fuzzy C-means (una tècnica de soft clustering sense supervisió́).
A continuació́, les àrees denses segmentades de la mama es classifiquen, utilitzant les
característiques prèviament obtingudes i seleccionades, amb l'ajuda de l'algoritme dels k-nearest
neighbors (k-NN). En aquest estudi s'especifiquen, també, les estratègies de desenvolupament al
voltant de les possibilitats que no s'han implementat en la seva totalitat explicant els motius que
van determinar la seva (parcial) exclusió. En canvi, pel model deep learning, atès que la base de
dades de les mamografies era insuficient per a l'entrenament adequat del model, s'utilitzen
tècniques de data augmentation. S'avaluen i entrenen, així, diferents arquitectures de xarxes
neuronals convolucionals (CNN).
Finalment, es presenten els resultats obtinguts i es proposa una discussió exhaustiva dels resultats,
demostrant que el model de machine learning requereix d’un gran esforç i expertesa per obtenir
uns resultats acceptables, mentre que el de deep learning mostra una precisió molt major i, per la
seva facilitat d’implementació, pot considerar-se com una eina clau per futurs treballs o
investigacions en aquesta matèria. Tal y como apuntan las estadísticas, el cáncer de mama es un problema de salud grave que supone una
considerable carga económica a la hora de llevar a cabo su tratamiento, por lo que se justifica,
indudablemente, la necesidad de realizar un cribado de esta enfermedad. Sin embargo, en la
actualidad, la forma en que se realiza el diagnóstico en la práctica clínica es propensa a errores. De este
modo, surge la necesidad de buscar una herramienta que ayude a los profesionales a clasificar las
mamografías en las cuatro categorías de BI-RADS.
En este proyecto se presentan dos enfoques: uno de machine learning y otro de deep learning.
Principalmente, más allá de la comparación de los resultados, lo que se pretende es analizar y
desgranar en profundidad el proceso seguido para conseguir sus respectivos desarrollos y posterior
implementación. Así, se muestran las dificultades y desventajas encontradas a la hora de evaluar y
comparar los dos modelos. Para ello, se utilizan tres bases de datos de mamografías que expertos ya
han clasificado siguiendo las pautas de BI-RADS.
En el caso del modelo de machine learning, se desarrollan y utilizan algoritmos que extraen
características de textura de las mamografías. El área densa de la mama se segmenta utilizando la
información obtenida de textura y Fuzzy C-means (una técnica de soft clustering sin supervisión). A
continuación, las áreas densas segmentadas de la mama se clasifican, utilizando las características
previamente obtenidas y seleccionadas, con la ayuda del algoritmo de k-nearest neighbors (k-NN). En
este estudio se especifican, también, las estrategias de desarrollo en torno a las posibilidades que no
se han implementado en su totalidad explicando los motivos que determinaron su (parcial) exclusión.
En cambio, en el modelo de deep learning, dado que la base de datos de las mamografías era
insuficiente para el entrenamiento adecuado del modelo, se utilizan técnicas de data augmentation.
Se evalúan y entrenan, así, diferentes arquitecturas de redes neuronales convolucionales (CNN).
Finalmente, se presentan los resultados obtenidos y se plantea una discusión exhaustiva de los
resultados, demostrando que el modelo de machine learning requiere de un gran esfuerzo y
experiencia para obtener unos resultados aceptables, mientras que el de deep learning muestra una
precisión mucho mayor y, debido a su fácil implementación, puede considerarse como una
herramienta clave para futuros trabajos o investigaciones en esta materia. Epidemiological statistics portray the fact that breast cancer is a significant health concern and
economic burden, undoubtedly justifying the need for breast cancer screening. Nevertheless, how the
current diagnosis is made in clinical practice is prone to errors. Hence, there is a necessity for a tool to
assist physicians when classifying mammographies into the four categories of BI-RADS.
In this project, two approaches are presented: one based on machine learning and the other one based
on deep learning. Mainly, beyond the comparison of the results, what is intended is to analyze and
discuss in-depth the process followed to achieve their respective developments and subsequent
implementation. Thus, the difficulties and drawbacks found when evaluating and comparing the two
models are shown. Consequently, three mammography databases are used that experts have already
classified following the BI-RADS guidelines.
In the case of the machine learning model, algorithms that extract texture features from mammograms
are developed and used. The dense area of the breast is segmented, with the information obtained
from texture, using Fuzzy C-means (an unsupervised soft clustering technique). Subsequently, a feature
selection process was carried out. The classification of the dense areas was performed using a knearest neighbors algorithm (k-NN). The development strategy around other possibilities that were
not fully implemented is also explained, with reference to the motives behind these decisions. On the
other hand, in the deep learning model, the mammogram database was insufficient for the adequate
training of the model. Hence, data augmentation techniques are used. Different convolutional neural
network (CNN) architectures were assessed and trained.
Finally, the results obtained are presented and an exhaustive discussion is performed, demonstrating
that the machine learning model requires great effort and experience to obtain acceptable results. In
contrast, the deep learning model shows a much higher accuracy and can be considered as key for
future work or research in this area.
TitulacióGRAU EN ENGINYERIA BIOMÈDICA (Pla 2009)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
COMPARISON BETW ... MAMMOGRAMS IN BI-RADS.pdf | 5,029Mb | Visualitza/Obre |