Text classification of biomaterials abstracts and information extraction from the 3D-printing literature for biomedical applications using machine learning algorithms
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/345982
Correu electrònic de l'autorCLARENCE.LEPINE8ETU.UNIV-LORRAINE.FR
Tipus de documentProjecte Final de Màster Oficial
Data2021-02-11
Condicions d'accésAccés obert
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya
Abstract
Desde el advenimiento de la era digital, la mayoría de los resultados de investigación se publican
en línea, e Internet se ha convertido en la mayor fuente de conocimiento disponible en el mundo.
Con el paso de los años, el número de publicaciones ha aumentado progresivamente y la
literatura sobre biomateriales no es una excepción. Por este motivo, debido a su gran volumen y a
su naturaleza heterogénea, recopilar y sintetizar conocimientos en este campo de forma manual
es una tarea agotadora. Las técnicas de minería de textos, como por ejemplo la clasificación de
textos, facilitan la organización y extracción de estos datos. De hecho, la clasificación de textos es
una de las tareas básicas supervisadas en el procesamiento del lenguaje natural, que permite
asignar etiquetas o categorías al texto según su contenido. Estas categorías se determinan a partir
de un conjunto de documentos muestra usados para el entrenamiento (“training set”), que se
clasifican manualmente de antemano. Para construir un modelo de clasificación, se utiliza un
algoritmo de aprendizaje automático. Este algoritmo analiza los datos de entrenamiento para
crear un modelo que puede predecir la clase de un nuevo documento procedente del mundo
real. En este trabajo, se propone un procedimiento de clasificación de textos basado en
resúmenes de artículos, ensayándolo en resúmenes de artículos biomédicos obtenidos de la base
de datos Pubmed. El conjunto de artículos usado como entrenamiento se compone de 3224
resúmenes de artículos de biomateriales y el conjunto de análisis se compone de 477 resúmenes
de artículos sobre impresión 3D. Los objetivos del proyecto son dos: (1) comparar varios modelos
para la clasificación de documentos de biomateriales y (2) obtener una visión general del dominio
de la impresión 3D en el ámbito biomédico a través de la clasificación de textos y la extracción de
datos de una gran cantidad de publicaciones de investigación. Nuestro clasificador se implementó
utilizando el lenguaje de programación Python. Después de probar varios modelos de
clasificación, incluidos modelos binarios y multinomiales, logramos lograr 0.92 de precisión y 0.89
de F1-score con Stochastic Gradient Descent (SGD) con el modelo multinomial en comparación
con el tratamiento manual. Este modelo se utilizó para clasificar toda la literatura de impresión 3D
disponible en Pubmed hasta la fecha, un total de 11.153 artículos. Posteriormente, se utilizaron
técnicas de extracción de datos para extraer información sobre la tecnología de impresión 3D
para aplicaciones biomédicas. Esta información permitió identificar 4 aspectos relevantes: (1)
enfermedades que se pueden tratar con esta tecnología, (2) tejidos u órganos que pueden
reemplazarse por implantes impresos en 3D, (3) biomateriales más utilizados y (4) nuevas
aplicaciones no directamente relacionadas con prótesis o implantes. Since the advent of the digital age, the majority of research findings are published online, and the
Internet has become the largest source of knowledge available in the world. As the years passed,
the number of publications has steadily increased and the biomaterials literature is no exception.
But because of its high volume and heterogeneous nature, collecting and synthesizing knowledge
in this field is a gruelling manual task. Text Mining (TM) techniques such as Text Classification (TC)
can facilitate the organization and the extraction of these data. Indeed text classification is one of
the fundamental supervised tasks in natural language processing that allows for assigning tags or
categories to text according to its content. These categories are determined by a set of training
documents that were manually classified beforehand. In order to build a classification model, a
machine learning algorithm is used. This algorithm analyses the training data to create a model
that can predict the class of a new unseen document (that comes from the real world). In this
work, a text classification approach based on article abstracts will be proposed and tested with
biomedical abstracts retrieved from Pubmed. The training set is composed of 3224 biomaterials
abstracts covering a broad range of topics, and the testing set is composed of 477 abstracts about
3D-printing. The objectives of the project are two fold: (1) to compare various models for
biomaterials document classification and (2) to get an overview of the 3D-printing domain in the
biomedical field through text classification and data extraction (DE) of a large number of research
publications. Our classifier was implemented using Python programming language. After testing
several classification models, including binary and multinomial models, we manage to achieve
0.92 of accuracy and 0.89 of F1-score with Stochastic Gradient Descent (SGD) with the
multinomial model compared to the manual curation. This model was used to classify the entire
3D-printing literature available from Pubmed to date, a total of 11,153 articles. DE techniques
were then used to retrieve information about the 3D-printing technology for biomedical
applications. These informations permitted to identify 4 main aspects: (1) diseases that can be
treated using this technology, (2) tissues or organs that can be replaced by 3D-printed implants,
(3) most commonly used biomaterials and (4) new applications which do not deal with prosthetics
or implants. Des de l’aparició de l’era digital, la majoria dels resultats de la investigació es publiquen en línia, i
Internet s’ha convertit en la font de coneixement més gran del món. Amb el pas dels anys, el
nombre de publicacions ha augmentat progressivament i la literatura sobre biomaterials no n’és
una excepció. Precisament a causa del seu alt volum i la seva naturalesa heterogènia, recopilar i
sintetitzar coneixements en aquest camp de forma manual és una tasca esgotadora. Les tècniques
de mineria de textos, com per exemple la classificació de textos, faciliten l’organització i
l’extracció d’aquestes dades. De fet, la classificació de textos és una de les tasques supervisades
bàsiques en el processament del llenguatge natural, que permet assignar etiquetes o categories al
text segons el seu contingut. Aquestes categories es determinen a partir d’un conjunt de
documents mostra utilitzats com a entrenament (“training set”), que es classifiquen manualment
prèviament. Per construir un model de classificació, s’utilitza un algorisme d’aprenentatge
automàtic. Aquest algorisme analitza les dades d’entrenament (“training set”) per crear un model
que pugui predir la classe d’un nou document procedent del món real. En aquest treball, es
proposa un procediment de classificació de textos basat en resums d'articles, assajant-lo en
resums d’articles biomèdics obtinguts de la base de dades Pubmed. El conjunt d’entrenament es
compon de 3224 resums d’articles de biomaterials, i el conjunt d’estudi es compon de 477 resums
d’articles sobre impressió 3D. Els objectius del projecte són dos: (1) comparar diversos models de
classificació de documents de biomaterials i (2) obtenir una visió general del domini de la
impressió 3D en l’àmbit biomèdic mitjançant la classificació de texts i l’extracció de dades d’un
gran nombre de publicacions de recerca. El nostre classificador es va implementar utilitzant el
llenguatge de programació Python. Després de provar diversos models de classificació, inclosos
els models binaris i multinomials, es va aconseguir un 0,92 de precisió i un 0,89 de la puntuació F1
amb descens de gradient estocàstic (SGD) en comparació amb el tractament manual. Aquest
model es va utilitzar per classificar tota la literatura d’impressió en 3D disponible de Pubmed fins
a la data, que representa un total de 11,153 articles. Després es van utilitzar tècniques d'extracció
de dades per recuperar informació sobre la tecnologia d’impressió 3D per a aplicacions
biomèdiques. Després es van utilitzar tècniques d’extracció de dades per recuperar informació
sobre la tecnologia d’impressió 3D per a aplicacions biomèdiques. Aquesta informació va
permetre identificar 4 aspectes rellevants: (1) malalties que es poden tractar mitjançant aquesta
tecnologia, (2) teixits o organs que es poden substituir per implants impresos en 3D, (3)
biomaterials més utilitzats i (4) altres aplicacions no relacionades directament amb pròtesis o
implants.
MatèriesClassification, Word processing, Biomedical engineering, Three-dimensional printing, Classificació, Tractament de textos, Enginyeria biomèdica, Impressió 3D
TitulacióMÀSTER UNIVERSITARI EN CIÈNCIA I ENGINYERIA DE MATERIALS (Pla 2014)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
TFM-EEBE-Clarence Lépine.pdf | 5,559Mb | Visualitza/Obre |