Combining multilingual machine translation and other NLP tasks to learn intermediate language representations
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/358671
Tipus de documentTreball Final de Grau
Data2021-07-13
Condicions d'accésAccés obert
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
Abstract
In a world in which the internet gives us access to any kind of information, there are still limitations when the source of such information is presented in another language. Online translators are far from perfect, this is why language machine translation is a trending topic in the field of deep learning. The purpose of this project is to use the Transformer architecture, developed by Google in 2017, in the context of Multilingual Machine Translation and to improve its results both in translation and a common intermediate representation. The Transformer model is focused on self-attention and composed by an encoder and decoder that rely on a common intermediate representation of the source language. For the purpose of raising the BLEU score that defines the quality of the translation and enhancing the common intermediate representation, we have introduced Part-Of-Speech tagging in the encoder of the model. We perform experiments with four languages (English, Spanish, French and German) both in Machine Translation and in Cross-lingual Natural Language Inference. Finally, we visualize the intermediate representation and make experiments to see how source embeddings codify gender information. Comparing a baseline model without tagging with the new POS tagged codes, the translation BLEU has decreased 0.50 points on average. In the case of NLI, the accuracies have also decreased 8% on average, showing that the POS tagged models do not improve the performances of these tasks. However, in the gender experiments of the encoder embeddings, the accuracy of the gender classification for professions has increased by 1.1%. En un mundo donde Internet nos da acceso a cualquier tipo de información, aún hay limitaciones cuando la fuente de esta se presenta en otro idioma. Los traductores en línea están lejos de ser perfectos y es por eso que la traducción automática entre idiomas es un tema de tendencia en el campo del aprendizaje profundo. El objetivo de este proyecto es utilizar la arquitectura del Transformer, desarrollada por Google en 2017, en el contexto de la traducción automática multilingüe. El modelo se centra en el concepto de la atención y está compuesto por un codificador y un decodificador basados en una representación intermedia del lenguaje de origen. Con el objetivo de aumentar la BLEU, puntuación que define la calidad de la traducción, y mejorar la representación intermedia, hemos introducido el etiquetado de categorías gramaticales (Part-Of-Speech) en el codificador del modelo. Hemos realizado experimentos con cuatro idiomas (inglés, español, francés y alemán) tanto en traducción automática como en Comprensión del Lenguaje Natural (CLN). Finalmente, hemos visualizado la representación intermedia y hemos hecho experimentos para ver cómo las representaciones de palabras en vectores codifican la información de género. Al comparar un modelo base sin etiquetado Part-Of-Speech con los nuevos códigos etiquetados, la BLEU de traducción ha disminuido 0.50 puntos de media. En el caso de la CLN, las precisiones también han disminuido un 8%, demostrando que los modelos etiquetados no mejoran el rendimiento de estas tareas. Sin embargo, la precisión de la clasificación de género para profesiones ha aumentado en un 1.1%. En un món on l'Internet ens dóna accés a qualsevol tipus d'informació, encara hi ha limitacions quan la font d'aquesta informació es presenta en un altre idioma. Els traductors en línia són lluny de ser perfectes i és per això que la traducció automàtica entre idiomes és un tema de tendència en el camp de l'aprenentatge profund. L'objectiu d'aquest projecte és utilitzar l'arquitectura del Transformer, desenvolupada per Google al 2017, en el context de la traducció automàtica multilingüe. El model es centra en el concepte de l'atenció i està compost per un codificador i un decodificador basats en una representació intermèdia del llenguatge d'origen. Amb l'objectiu d'augmentar la BLEU, puntuació que defineix la qualitat de la traducció, i millorar la representació intermèdia comuna, hem introduït l'etiquetatge de categories gramaticals (Part-Of-Speech) al codificador del model. Hem realitzat experiments amb quatre idiomes (anglès, castellà, francès i alemany) tant en traducció automàtica com en Comprensió del Llenguatge Natural (CLN). Finalment, hem visualitzat la representació intermèdia i hem fet experiments per veure com les representacions de paraules en vectors codifiquen la informació de gènere. En comparar un model base sense etiquetatge Part-Of-Speech amb els nous codis etiquetats, la BLEU de traducció ha disminuït 0.50 punts de mitjana. En el cas de la CLN, les precisions també han disminuït un 8%, demostrant que els models etiquetats no milloren el rendiment d'aquestes tasques. No obstant això, la precisió de la classificació de gènere per a professions ha augmentat en un 1.1%.
TitulacióGRAU EN ENGINYERIA FÍSICA (Pla 2011)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
TFG-Julia-Sanchez-Martinez.pdf | 1,497Mb | Visualitza/Obre |