Injection of linguistic knowledge into neural text generation models

Casas Manzanares, Noé

doi:10.5821/dissertation-2117-341598

dc.contributor	Rodríguez Fonollosa, José Adrián
dc.contributor	Ruiz, Marta, 1981- .
dc.contributor.author	Casas Manzanares, Noé
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned	2021-03-14T01:01:48Z
dc.date.available	2021-03-14T01:01:48Z
dc.date.issued	2020-12-14
dc.identifier.citation	Casas Manzanares, N. Injection of linguistic knowledge into neural text generation models. Tesi doctoral, UPC, Departament de Teoria del Senyal i Comunicacions, 2020. DOI 10.5821/dissertation-2117-341598.
dc.identifier.uri	http://hdl.handle.net/2117/341598
dc.description	Aplicat embargament des de la data de defensa fins a l'1 de febrer e 2021
dc.description.abstract	Language is an organic construct. It emanates from the need for communication and changes through time, influenced by multiple factors. The resulting language structures are a mix of regular syntactic and morphological constructions together with divergent irregular elements. Linguistics aims at formalizing these structures, providing a rationalization of the underlying phenomena. However, linguistic information alone is not enough to fully characterize the structures in language, as they are intrinsically tied to meaning, which constrains and modulates the applicability of the linguistic phenomena and also to context and domain. Classical machine translation approaches, like rule-based systems, relied completely on the linguistic formalisms. Hundreds of morphological and grammatical rules were wired together to analyze input text and translate it into the target language, trying to take into account the semantic load carried by it. While this kind of processing can satisfactorily address most of the low-level language structures, many of the meaning-dependent structures failed to be analyzed correctly. On the other hand, the dominant neural language processing systems are trained from raw textual data, handling it as a sequence of discrete tokens. These discrete tokens are normally defined looking for reusable word pieces identified statistically from data. In the whole training process, there is no explicit notion of linguistic knowledge: no morphemes, no morphological information, no relationships among words, or hierarchical groupings.This thesis aims at bridging the gap between the neural systems and linguistics-based systems, devising systems that have the flexibility and good results of the former with a base on the linguistic formalisms, with the purposes of improving quality where data alone cannot and forcing human-understandable working dynamics into the otherwise black-box neural systems. For this, we propose techniques to fuse statistical subwords with word-level linguistic information, to remove subwords altogether and rely solely on lemmas and morphological traits of the words, and to drive the text generation process on the ordering defined by syntactic dependencie. The main results of the proposed methods are the improvements in translation quality that can be obtained by injecting morphological information into NMT systems when testing on out-of-domain data for morphologically-rich languages, and the control over the generated text that can be gained by means of linking the generation order to the syntactic structure.
dc.description.abstract	El lenguaje es una construcción orgánica que surge de la necesidad de comunicación, y que cambia a lo largo del tiempo, influenciado por múltiples factores, resultando en estructuras del lenguaje donde se mezclan construcciones morfológicas y sintácticas regulares con otros elementos irregulares. La lingüística tiene como objetivo el formalizar estas estructuras, proponiendo interpretaciones de los fenómenos subyacentes. Sin embargo, la lingüística no es suficiente para caracterizar de manera completa las estructuras del lenguaje, ya que éstas se encuentran intrínsicamente ligadas tanto al significado -al restringir y modular éste la aplicabilidad de los fenómenos lingüísticos- como al contexto y al dominio. Las técnicas de traducción automática clásicas empleadas por los sistemas basados en reglas, se basan en formalismos lingüísticos, haciendo uso de miles de reglas morfológicas y gramaticales para analizar texto del idioma de origen y traducirlo al idioma de destino, intentando mantener la carga semántica original. Aunque este tipo de traducción procesa adecuadamente la estructuras de bajo nivel del lenguaje, muchas estructuras dependientes del significado no son analizadas correctamente. Los sistemas de procesado del lenguaje natural dominantes, en cambio, se entrenan usando texto como datos de entrada. Dicho texto se procesa como una secuencia de elementos discretos, normalmente definidos como trozos de palabras o sub-palabras, que se agrupan en una estructura de diccionario que es confecccionado estadísticamente de modo que se maximice el reuso de sus sub-palabras al codificar el texto de entrenamiento. En todo este proceso, no hay ninguna noción explícita de conocimiento lingüístico, ni morfemas, ni información morfológica, ni relaciones sintácticas entre palabras o grupos jerárquicos. El objetivo de esta tesis es hibridizar los sistemas neuronales y los sistemas basados en reglas lingüísticas, de manera que el resultado pueda mostrar la flexibilidad y buenos resultados de los primeros, pero teniendo una base lingüística que le permita tanto mejorar la calidad del texto generado en los casos en los que simplemente más datos no lo consiguen, como establer unas dinámicas de funcionamiento internas que sean entendibles por humanos, a diferencia de la naturaleza de "caja negra" de los sistemas neuronales normales. Para ello, se proponen técnicas para enriqueces las sub-palabras con información lingüística de nivel de palabra, ténicas para prescindir de las sub-palabras y basarse únicamente en el lema y los rasgos lingüísticos de las palabras, y técnicas para dirigir el orden de generación de texto mediante dependencias sintácticas. Los principales resultados de los métodos propuestos son la mejora en la calidad de traducción en sistemas neuronales a los que les inyectamos información lingüística, especialmente en escenarios de lenguas morfológicamente ricas con texto de distinto dominio, y el control directo del proceso de generación al ligarlo a las estructuras sintácticas del texto.
dc.format.extent	133 p.
dc.language.iso	eng
dc.publisher	Universitat Politècnica de Catalunya
dc.rights	ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source	TDX (Tesis Doctorals en Xarxa)
dc.subject	Àrees temàtiques de la UPC::Informàtica
dc.title	Injection of linguistic knowledge into neural text generation models
dc.type	Doctoral thesis
dc.identifier.doi	10.5821/dissertation-2117-341598
dc.rights.access	Open Access
dc.description.version	Postprint (published version)
dc.identifier.tdx	http://hdl.handle.net/10803/671045

Fitxers d'aquest items

Nom:: TNCM1de1.pdf
Mida:: 2,135Mb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Departament de Teoria del Senyal i Comunicacions [346]
Totes les tesis [5.461]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Injection of linguistic knowledge into neural text generation models

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora