Text classification of biomaterials abstracts and information extraction from the 3D-printing literature for biomedical applications using machine learning algorithms

Lépine, Clarence Emma

Visualitza/Obre

TFM-EEBE-Clarence Lépine.pdf (5,559Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Lépine, Clarence Emma

Correu electrònic de l'autorCLARENCE.LEPINE8

ETU.UNIV-LORRAINE.FR

Tutor / directorGinebra Molins, Maria Pau

Tipus de documentProjecte Final de Màster Oficial

Data2021-02-11

Condicions d'accésAccés obert

Attribution-NonCommercial-NoDerivs 3.0 Spain

Llevat que s'hi indiqui el contrari, els continguts d'aquesta obra estan subjectes a la llicència de Creative Commons : Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya

Abstract

Desde el advenimiento de la era digital, la mayoría de los resultados de investigación se publican en línea, e Internet se ha convertido en la mayor fuente de conocimiento disponible en el mundo. Con el paso de los años, el número de publicaciones ha aumentado progresivamente y la literatura sobre biomateriales no es una excepción. Por este motivo, debido a su gran volumen y a su naturaleza heterogénea, recopilar y sintetizar conocimientos en este campo de forma manual es una tarea agotadora. Las técnicas de minería de textos, como por ejemplo la clasificación de textos, facilitan la organización y extracción de estos datos. De hecho, la clasificación de textos es una de las tareas básicas supervisadas en el procesamiento del lenguaje natural, que permite asignar etiquetas o categorías al texto según su contenido. Estas categorías se determinan a partir de un conjunto de documentos muestra usados para el entrenamiento (“training set”), que se clasifican manualmente de antemano. Para construir un modelo de clasificación, se utiliza un algoritmo de aprendizaje automático. Este algoritmo analiza los datos de entrenamiento para crear un modelo que puede predecir la clase de un nuevo documento procedente del mundo real. En este trabajo, se propone un procedimiento de clasificación de textos basado en resúmenes de artículos, ensayándolo en resúmenes de artículos biomédicos obtenidos de la base de datos Pubmed. El conjunto de artículos usado como entrenamiento se compone de 3224 resúmenes de artículos de biomateriales y el conjunto de análisis se compone de 477 resúmenes de artículos sobre impresión 3D. Los objetivos del proyecto son dos: (1) comparar varios modelos para la clasificación de documentos de biomateriales y (2) obtener una visión general del dominio de la impresión 3D en el ámbito biomédico a través de la clasificación de textos y la extracción de datos de una gran cantidad de publicaciones de investigación. Nuestro clasificador se implementó utilizando el lenguaje de programación Python. Después de probar varios modelos de clasificación, incluidos modelos binarios y multinomiales, logramos lograr 0.92 de precisión y 0.89 de F1-score con Stochastic Gradient Descent (SGD) con el modelo multinomial en comparación con el tratamiento manual. Este modelo se utilizó para clasificar toda la literatura de impresión 3D disponible en Pubmed hasta la fecha, un total de 11.153 artículos. Posteriormente, se utilizaron técnicas de extracción de datos para extraer información sobre la tecnología de impresión 3D para aplicaciones biomédicas. Esta información permitió identificar 4 aspectos relevantes: (1) enfermedades que se pueden tratar con esta tecnología, (2) tejidos u órganos que pueden reemplazarse por implantes impresos en 3D, (3) biomateriales más utilizados y (4) nuevas aplicaciones no directamente relacionadas con prótesis o implantes.

Since the advent of the digital age, the majority of research findings are published online, and the Internet has become the largest source of knowledge available in the world. As the years passed, the number of publications has steadily increased and the biomaterials literature is no exception. But because of its high volume and heterogeneous nature, collecting and synthesizing knowledge in this field is a gruelling manual task. Text Mining (TM) techniques such as Text Classification (TC) can facilitate the organization and the extraction of these data. Indeed text classification is one of the fundamental supervised tasks in natural language processing that allows for assigning tags or categories to text according to its content. These categories are determined by a set of training documents that were manually classified beforehand. In order to build a classification model, a machine learning algorithm is used. This algorithm analyses the training data to create a model that can predict the class of a new unseen document (that comes from the real world). In this work, a text classification approach based on article abstracts will be proposed and tested with biomedical abstracts retrieved from Pubmed. The training set is composed of 3224 biomaterials abstracts covering a broad range of topics, and the testing set is composed of 477 abstracts about 3D-printing. The objectives of the project are two fold: (1) to compare various models for biomaterials document classification and (2) to get an overview of the 3D-printing domain in the biomedical field through text classification and data extraction (DE) of a large number of research publications. Our classifier was implemented using Python programming language. After testing several classification models, including binary and multinomial models, we manage to achieve 0.92 of accuracy and 0.89 of F1-score with Stochastic Gradient Descent (SGD) with the multinomial model compared to the manual curation. This model was used to classify the entire 3D-printing literature available from Pubmed to date, a total of 11,153 articles. DE techniques were then used to retrieve information about the 3D-printing technology for biomedical applications. These informations permitted to identify 4 main aspects: (1) diseases that can be treated using this technology, (2) tissues or organs that can be replaced by 3D-printed implants, (3) most commonly used biomaterials and (4) new applications which do not deal with prosthetics or implants.

Des de l’aparició de l’era digital, la majoria dels resultats de la investigació es publiquen en línia, i Internet s’ha convertit en la font de coneixement més gran del món. Amb el pas dels anys, el nombre de publicacions ha augmentat progressivament i la literatura sobre biomaterials no n’és una excepció. Precisament a causa del seu alt volum i la seva naturalesa heterogènia, recopilar i sintetitzar coneixements en aquest camp de forma manual és una tasca esgotadora. Les tècniques de mineria de textos, com per exemple la classificació de textos, faciliten l’organització i l’extracció d’aquestes dades. De fet, la classificació de textos és una de les tasques supervisades bàsiques en el processament del llenguatge natural, que permet assignar etiquetes o categories al text segons el seu contingut. Aquestes categories es determinen a partir d’un conjunt de documents mostra utilitzats com a entrenament (“training set”), que es classifiquen manualment prèviament. Per construir un model de classificació, s’utilitza un algorisme d’aprenentatge automàtic. Aquest algorisme analitza les dades d’entrenament (“training set”) per crear un model que pugui predir la classe d’un nou document procedent del món real. En aquest treball, es proposa un procediment de classificació de textos basat en resums d'articles, assajant-lo en resums d’articles biomèdics obtinguts de la base de dades Pubmed. El conjunt d’entrenament es compon de 3224 resums d’articles de biomaterials, i el conjunt d’estudi es compon de 477 resums d’articles sobre impressió 3D. Els objectius del projecte són dos: (1) comparar diversos models de classificació de documents de biomaterials i (2) obtenir una visió general del domini de la impressió 3D en l’àmbit biomèdic mitjançant la classificació de texts i l’extracció de dades d’un gran nombre de publicacions de recerca. El nostre classificador es va implementar utilitzant el llenguatge de programació Python. Després de provar diversos models de classificació, inclosos els models binaris i multinomials, es va aconseguir un 0,92 de precisió i un 0,89 de la puntuació F1 amb descens de gradient estocàstic (SGD) en comparació amb el tractament manual. Aquest model es va utilitzar per classificar tota la literatura d’impressió en 3D disponible de Pubmed fins a la data, que representa un total de 11,153 articles. Després es van utilitzar tècniques d'extracció de dades per recuperar informació sobre la tecnologia d’impressió 3D per a aplicacions biomèdiques. Després es van utilitzar tècniques d’extracció de dades per recuperar informació sobre la tecnologia d’impressió 3D per a aplicacions biomèdiques. Aquesta informació va permetre identificar 4 aspectes rellevants: (1) malalties que es poden tractar mitjançant aquesta tecnologia, (2) teixits o organs que es poden substituir per implants impresos en 3D, (3) biomaterials més utilitzats i (4) altres aplicacions no relacionades directament amb pròtesis o implants.

MatèriesClassification, Word processing, Biomedical engineering, Three-dimensional printing, Classificació, Tractament de textos, Enginyeria biomèdica, Impressió 3D

TitulacióMÀSTER UNIVERSITARI EN CIÈNCIA I ENGINYERIA DE MATERIALS (Pla 2014)

URIhttp://hdl.handle.net/2117/345982

Col·leccions

Màsters oficials - Màster universitari en Ciència i Enginyeria de Materials (Pla 2014) [123]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
TFM-EEBE-Clarence Lépine.pdf		5,559Mb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Text classification of biomaterials abstracts and information extraction from the 3D-printing literature for biomedical applications using machine learning algorithms

Visualitza/Obre

Explora