Learning how to divert attention in multilingual machine translation to mitigate gender bias

Crucera Barrero, Pablo

Visualitza/Obre

TFG_Pablo_Crucera_Barrero_def.pdf (742,7Kb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Crucera Barrero, Pablo

Tutor / directorRuiz Costa-Jussà, Marta

; Escolano Peinado, Carlos

Tipus de documentTreball Final de Grau

Data2021-07-13

Condicions d'accésAccés obert

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets

Abstract

Deep learning has aroused over the past years as a promising technique in AI. Implementing algorithms that allow systems to learn with applications in several fields has made a difference with the conventional rule coding that had multiple limitations. Since successful experiments within this scope have taken place, the limits of the development of intelligent machines seem to have faded out. However, this is still not a flawless procedure: there is a great number of improvements ahead to be performed in order to obtain better results. One of these issues is the presence of stereotypes in large data sets, a generalized problem in many applications of Deep Learning. In the case of Neural Machine Translation, this phenomenon leads to gender-biased inaccurate translations. In this thesis, our commitment is to work on developing a modification of the attention mechanism (within the architecture of NMT) that can mitigate such bias. Attention controls the amount of context that is used in Neural Machine Translation. The motivation of this work is that the attention mechanism for different types of words, e.g. words with different amounts of dependencies, should be different. The concentration or diversion of context information both at encoding and decoding levels may differ depending on the studied biases and language. We study the effect of controlling this amount of attention both by modifying the attention mechanism at the encoding and decoding level, for self and inter-attention. We evaluate this for the case of mitigating biases in a multilingual setting on a recent NMT architecture: the Transformer. The results show a similar quality of translation as the baseline model in terms of accuracy, but outperforms the reference model in nearly all gender-bias indicators, yielding results that are encouraging for continuing exploring this line of research.

El aprendizaje profundo ha surgido en los últimos años como una técnica prometedora en IA. La implementación de algoritmos que permiten que los sistemas aprendan con aplicaciones en varios campos ha marcado la diferencia con la codificación de reglas convencional que tenía múltiples limitaciones. Desde que se han llevado a cabo experimentos exitosos dentro de este ámbito, los límites del desarrollo de las máquinas inteligentes parecen haberse desvanecido. Sin embargo, este todavía no es un procedimiento impecable: hay un gran número de mejoras por realizar para obtener mejores resultados. Uno de estos problemas es la presencia de estereotipos en grandes conjuntos de datos, un problema generalizado en muchas aplicaciones de Deep Learning. En el caso de la traducción automática neuronal, este fenómeno conduce a traducciones inexactas con sesgo de género. En esta tesis, nuestro compromiso es trabajar en el desarrollo de una modificación del mecanismo de atención (dentro de la arquitectura de NMT) que pueda mitigar dicho sesgo. La atención controla la cantidad de contexto que se utiliza en la traducción automática neuronal. La motivación de este trabajo es que el mecanismo de atención para diferentes tipos de palabras, por ejemplo palabras con diferentes cantidades de dependencias, deberían ser diferentes. La concentración o el desvío de la información del contexto, tanto a nivel de codificación como de decodificación, puede diferir dependiendo de los sesgos y el lenguaje estudiados. Estudiamos el efecto de controlar esta cantidad de atención modificando el mecanismo de atención a nivel de codificación y decodificación, para la atención propia y la atención cruzada. Evaluamos esto para el caso de mitigar los sesgos en un entorno multilingüe en una arquitectura NMT reciente: el Transformer. Los resultados muestran una calidad de traducción similar al modelo de línea de base en términos de precisión, pero supera al modelo de referencia en casi todos los indicadores de sesgo de género, arrojando resultados que son alentadores para seguir explorando esta línea de investigación.

L’aprenentatge profund ha sorgit durant els darrers anys com una tècnica prometedora en IA. La implementació d’algoritmes que permeten els sistemes aprendre amb aplicacions en diversos camps ha marcat la diferència amb la codificació de regles convencionals que tenia múltiples limitacions. Atès que s'han dut a terme experiments amb èxit dins d'aquest àmbit, els límits del desenvolupament de màquines intel·ligents semblen haver esvaït. Tot i això, aquest no és encara un procediment impecable: hi ha un gran nombre de millores per assolir per obtenir millors resultats. Un d’aquests problemes és la presència d’estereotips en grans conjunts de dades, un problema generalitzat en moltes aplicacions de Deep Learning. En el cas de la traducció automàtica neuronal, aquest fenomen condueix a traduccions inexactes esbiaixades en quant a gènere. En aquesta tesi, el nostre compromís és treballar en el desenvolupament d’una modificació del mecanisme d’atenció (dins de l’arquitectura de NMT) que pugui mitigar aquest biaix. L’atenció controla la quantitat de context que s’utilitza a la traducció automàtica de neurones. La motivació d’aquest treball és que el mecanisme d’atenció de diferents tipus de paraules, com per exemple, les paraules amb diferents quantitats de dependències, haurien de ser diferents. La concentració o diversificació de la informació de context tant a nivells de codificació com de descodificació pot variar en funció dels biaixos i del llenguatge estudiats. Estudiem l’efecte de controlar aquesta quantitat d’atenció modificant el mecanisme d’atenció a nivell de codificació i descodificació, per a l’interès i la interatenció. Ho avaluem per al cas de biaixos mitigadors en un entorn multilingüe sobre una arquitectura NMT recent: el transformador. Els resultats mostren una qualitat de traducció similar a la del model de referència en termes de precisió, però supera el model de referència en gairebé tots els indicadors de biaix de gènere, donant resultats que són encoratjadors per continuar explorant aquesta línia d’investigació

MatèriesMachine learning, Artificial intelligence, Speech processing systems, Machine translating, Aprenentatge automàtic, Intel·ligència artificial, Processament de la parla, Traducció automàtica

TitulacióGRAU EN ENGINYERIA FÍSICA (Pla 2011)

Document relacionathttp://infoteleco.upc.edu/incoming/pfc/159794/Poster_TFG_Pablo_Crucera_Barrero_bnMzlX.pdf

URIhttp://hdl.handle.net/2117/355515

Col·leccions

Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona - Grau en Enginyeria Física (Pla 2011) [266]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
TFG_Pablo_Crucera_Barrero_def.pdf		742,7Kb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Learning how to divert attention in multilingual machine translation to mitigate gender bias

Visualitza/Obre

Explora