Implementation of state-of-the-art machine learning: models to extract data from financial documents
Visualitza/Obre
TFM_report_FediHachicha.pdf (5,175Mb) (Accés restringit)
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/376984
Correu electrònic de l'autorFEDI.HACHICHA95GMAIL.COM
Realitzat a/ambDost AI Solutions
Tipus de documentProjecte Final de Màster Oficial
Data2022-07-04
Condicions d'accésAccés restringit per acord de confidencialitat
(embargat fins 2027-06-27)
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement-NoComercial-SenseObraDerivada 4.0 Internacional
Abstract
In the financial documents processing, especially in the case of accounts payable, as the number of
documents increases, manually extracting data becomes time-consuming, repetitive, and allows for
mistakes to occur. Automating this process has been a field of research in document understanding for
decades, as it became a need to help companies save resources and optimize existing processes in their
digital transformation journey. Since most of these documents such as invoices are confidential
documents, there is not much data publicly available to take advantage of and improve the data
extraction via Machine Learning (ML) models. In the scope of this work, we were able to get that data
from the existing customer to create ML models to extract information from their data.
This thesis investigates three main strategies to handle automatic document processing. First, an
automatic strategy for document annotation based on Microsoft Azure Cognitive services. This
technique allows faster data preparation with high key field annotation precision to be used for
developing ML models for data extraction.
Second, a comparison of two methods to extract the logo and identify its issuer; one is based on an
Object Detection model, a VGG16 architecture is fine-tuned on invoices and their corresponding logo
bounding box, while the other approach consists of extracting words lying on the top of an invoice,
then detecting organization entities using Flair NER model.
The third and final strategy consists of implementing a state-of-the-art Transformer model, called
LayoutLM, to identify a couple of fields from a document, such as the total amount, date of issue, and
company name. This strategy is introduced to avoid the costs of Azure services. Results are later
presented and discussed evaluating the performance of each approach.
Finally, a conclusion summarizes the work and the achievements realized, along with a snippet
describing future work. En el procesamiento de documentos financieros, especialmente en el caso de las cuentas por pagar, a
medida que aumenta la cantidad de documentos, la extracción manual de datos se vuelve lenta,
repetitiva y permite que ocurran errores. La automatización de este proceso ha sido un campo de
investigación en la comprensión de documentos durante décadas, ya que se convirtió en una
necesidad para ayudar a las empresas a ahorrar recursos y optimizar los procesos existentes en su
proceso de transformación digital. Dado que la mayoría de estos documentos, como las facturas, son
documentos confidenciales, no hay muchos datos disponibles públicamente para aprovechar y
mejorar la extracción de datos a través de modelos de aprendizaje automático (AA). En el ámbito de
este trabajo, hemos podido obtener estos datos de un cliente para crear modelos AA para extraer
información de sus datos.
Esta tesis investiga tres estrategias principales para manejar el procesamiento automático de
documentos. Primero, una estrategia automática para la anotación de documentos basada en los
servicios cognitivos de Microsoft Azure. Esta técnica permite una preparación de datos más rápida con
alta precisión de anotación de campo clave para el desarrollo de modelos AA para la extracción de
datos.
En segundo lugar, una comparación de dos métodos para extraer el logotipo e identificar a su emisor;
uno se basa en un modelo de detección de objetos, una arquitectura VGG16 se ajusta con precisión en
las facturas y su cuadro delimitador de logotipo correspondiente, mientras que el otro enfoque
consiste en extraer palabras que se encuentran en la parte superior de una factura y luego detectar
entidades de la organización utilizando el modelo Flair NER.
La tercera y última estrategia consiste en implementar un modelo transformador de última generación,
llamado LayoutLM, para identificar un par de campos de un documento, como el importe total, la fecha
de emisión y el nombre de la empresa. Esta estrategia se introduce para evitar los costes de los servicios
de Azure. Los resultados se presentan y discuten más adelante para evaluar el desempeño de cada
enfoque.
Finalmente, una conclusión resume el trabajo y los logros alcanzados, junto con un fragmento que
describe el trabajo futuro. En el processament de documents financers, especialment en el cas de comptes a pagar, a mesura que
augmenta el nombre de documents, l'extracció manual de dades es fa llarga, repetitiva i permet que
es produeixin errors. L'automatització d'aquest procés ha estat un camp d'investigació en la
comprensió de documents durant dècades, ja que es va convertir en una necessitat per ajudar les
empreses a estalviar recursos i optimitzar els processos existents en el seu viatge de transformació
digital. Com que la majoria d'aquests documents, com ara les factures, són documents confidencials,
no hi ha moltes dades disponibles públicament per aprofitar i millorar l'extracció de dades mitjançant
models d'aprenentatge automàtic (AA). En l'àmbit d'aquest treball hem pogut obtenir aquestes dades
d’un client per crear models d’AA per extreure informació de les seves dades.
Aquesta tesi investiga tres estratègies principals per gestionar el processament automàtic de
documents. En primer lloc, una estratègia automàtica per a l'anotació de documents basada en els
serveis cognitius de Microsoft Azure. Aquesta tècnica permet una preparació de dades més ràpida amb
una alta precisió d'anotació de camp clau per desenvolupar models d’AA per a l'extracció de dades.
En segon lloc, una comparació de dos mètodes per extreure el logotip i identificar el seu emissor; un
es basa en un model de detecció d'objectes, una arquitectura VGG16 s'ajusta a les factures i el seu
corresponent quadre delimitador del logotip, mentre que l'altre enfocament consisteix a extreure
paraules que es troben a la part superior d'una factura i, a continuació, detectar les entitats de
l'organització mitjançant el model Flair NER.
La tercera i última estratègia consisteix a implementar un model de transformador d'última generació,
anomenat LayoutLM, per identificar un parell de camps d'un document, com ara l'import total, la data
d'emissió i el nom de l'empresa. Aquesta estratègia s'introdueix per evitar els costos dels serveis Azure.
Més endavant es presenten i es discuteixen els resultats per avaluar el rendiment de cada enfocament.
Finalment, una conclusió resumeix el treball i els assoliments aconseguits, juntament amb un fragment
que descriu el treball futur.
MatèriesMachine learning, Image processing--Digital techniques, Aprenentatge automàtic, Imatges--Processament--Tècniques digitals
TitulacióMÀSTER UNIVERSITARI EN ENGINYERIA INTERDISCIPLINÀRIA I INNOVADORA (Pla 2019)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
TFM_report_FediHachicha.pdf | 5,175Mb | Accés restringit |