Implementation of state-of-the-art machine learning: models to extract data from financial documents

Hachicha, Fedi

Visualitza/Obre

TFM_report_FediHachicha.pdf (5,175Mb) (Accés restringit)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Hachicha, Fedi

Correu electrònic de l'autorFEDI.HACHICHA95

GMAIL.COM

Tutor / directorGhaffar Abbassi, Naqqash; Benítez Iglesias, Raúl

; Pozo Montero, Francesc

Realitzat a/ambDost AI Solutions

Tipus de documentProjecte Final de Màster Oficial

Data2022-07-04

Condicions d'accésAccés restringit per acord de confidencialitat (embargat fins 2027-06-27)

Attribution-NonCommercial-NoDerivs 4.0 International

Llevat que s'hi indiqui el contrari, els continguts d'aquesta obra estan subjectes a la llicència de Creative Commons : Reconeixement-NoComercial-SenseObraDerivada 4.0 Internacional

Abstract

In the financial documents processing, especially in the case of accounts payable, as the number of documents increases, manually extracting data becomes time-consuming, repetitive, and allows for mistakes to occur. Automating this process has been a field of research in document understanding for decades, as it became a need to help companies save resources and optimize existing processes in their digital transformation journey. Since most of these documents such as invoices are confidential documents, there is not much data publicly available to take advantage of and improve the data extraction via Machine Learning (ML) models. In the scope of this work, we were able to get that data from the existing customer to create ML models to extract information from their data. This thesis investigates three main strategies to handle automatic document processing. First, an automatic strategy for document annotation based on Microsoft Azure Cognitive services. This technique allows faster data preparation with high key field annotation precision to be used for developing ML models for data extraction. Second, a comparison of two methods to extract the logo and identify its issuer; one is based on an Object Detection model, a VGG16 architecture is fine-tuned on invoices and their corresponding logo bounding box, while the other approach consists of extracting words lying on the top of an invoice, then detecting organization entities using Flair NER model. The third and final strategy consists of implementing a state-of-the-art Transformer model, called LayoutLM, to identify a couple of fields from a document, such as the total amount, date of issue, and company name. This strategy is introduced to avoid the costs of Azure services. Results are later presented and discussed evaluating the performance of each approach. Finally, a conclusion summarizes the work and the achievements realized, along with a snippet describing future work.

En el procesamiento de documentos financieros, especialmente en el caso de las cuentas por pagar, a medida que aumenta la cantidad de documentos, la extracción manual de datos se vuelve lenta, repetitiva y permite que ocurran errores. La automatización de este proceso ha sido un campo de investigación en la comprensión de documentos durante décadas, ya que se convirtió en una necesidad para ayudar a las empresas a ahorrar recursos y optimizar los procesos existentes en su proceso de transformación digital. Dado que la mayoría de estos documentos, como las facturas, son documentos confidenciales, no hay muchos datos disponibles públicamente para aprovechar y mejorar la extracción de datos a través de modelos de aprendizaje automático (AA). En el ámbito de este trabajo, hemos podido obtener estos datos de un cliente para crear modelos AA para extraer información de sus datos. Esta tesis investiga tres estrategias principales para manejar el procesamiento automático de documentos. Primero, una estrategia automática para la anotación de documentos basada en los servicios cognitivos de Microsoft Azure. Esta técnica permite una preparación de datos más rápida con alta precisión de anotación de campo clave para el desarrollo de modelos AA para la extracción de datos. En segundo lugar, una comparación de dos métodos para extraer el logotipo e identificar a su emisor; uno se basa en un modelo de detección de objetos, una arquitectura VGG16 se ajusta con precisión en las facturas y su cuadro delimitador de logotipo correspondiente, mientras que el otro enfoque consiste en extraer palabras que se encuentran en la parte superior de una factura y luego detectar entidades de la organización utilizando el modelo Flair NER. La tercera y última estrategia consiste en implementar un modelo transformador de última generación, llamado LayoutLM, para identificar un par de campos de un documento, como el importe total, la fecha de emisión y el nombre de la empresa. Esta estrategia se introduce para evitar los costes de los servicios de Azure. Los resultados se presentan y discuten más adelante para evaluar el desempeño de cada enfoque. Finalmente, una conclusión resume el trabajo y los logros alcanzados, junto con un fragmento que describe el trabajo futuro.

En el processament de documents financers, especialment en el cas de comptes a pagar, a mesura que augmenta el nombre de documents, l'extracció manual de dades es fa llarga, repetitiva i permet que es produeixin errors. L'automatització d'aquest procés ha estat un camp d'investigació en la comprensió de documents durant dècades, ja que es va convertir en una necessitat per ajudar les empreses a estalviar recursos i optimitzar els processos existents en el seu viatge de transformació digital. Com que la majoria d'aquests documents, com ara les factures, són documents confidencials, no hi ha moltes dades disponibles públicament per aprofitar i millorar l'extracció de dades mitjançant models d'aprenentatge automàtic (AA). En l'àmbit d'aquest treball hem pogut obtenir aquestes dades d’un client per crear models d’AA per extreure informació de les seves dades. Aquesta tesi investiga tres estratègies principals per gestionar el processament automàtic de documents. En primer lloc, una estratègia automàtica per a l'anotació de documents basada en els serveis cognitius de Microsoft Azure. Aquesta tècnica permet una preparació de dades més ràpida amb una alta precisió d'anotació de camp clau per desenvolupar models d’AA per a l'extracció de dades. En segon lloc, una comparació de dos mètodes per extreure el logotip i identificar el seu emissor; un es basa en un model de detecció d'objectes, una arquitectura VGG16 s'ajusta a les factures i el seu corresponent quadre delimitador del logotip, mentre que l'altre enfocament consisteix a extreure paraules que es troben a la part superior d'una factura i, a continuació, detectar les entitats de l'organització mitjançant el model Flair NER. La tercera i última estratègia consisteix a implementar un model de transformador d'última generació, anomenat LayoutLM, per identificar un parell de camps d'un document, com ara l'import total, la data d'emissió i el nom de l'empresa. Aquesta estratègia s'introdueix per evitar els costos dels serveis Azure. Més endavant es presenten i es discuteixen els resultats per avaluar el rendiment de cada enfocament. Finalment, una conclusió resumeix el treball i els assoliments aconseguits, juntament amb un fragment que descriu el treball futur.

MatèriesMachine learning, Image processing--Digital techniques, Aprenentatge automàtic, Imatges--Processament--Tècniques digitals

TitulacióMÀSTER UNIVERSITARI EN ENGINYERIA INTERDISCIPLINÀRIA I INNOVADORA (Pla 2019)

URIhttp://hdl.handle.net/2117/376984

Col·leccions

Màsters oficials - Màster universitari en Enginyeria Interdisciplinària i Innovadora (Pla 2019) [40]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
TFM_report_FediHachicha.pdf		5,175Mb	PDF	Accés restringit

UPCommons. Portal del coneixement obert de la UPC

Implementation of state-of-the-art machine learning: models to extract data from financial documents

Visualitza/Obre

Explora