Mostra el registre d'ítem simple

dc.contributorRuiz Costa-Jussà, Marta
dc.contributor.authorTubay Álvarez, Brian
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2018-10-25T09:56:58Z
dc.date.available2018-10-25T09:56:58Z
dc.date.issued2018-07
dc.identifier.urihttp://hdl.handle.net/2117/122983
dc.descriptionParaphrase generation is the task of given a word sequence generating another word sequence that keeps the same meaning than the original one. Generating new paraphrases can be used to enhance machine translation systems both at training and test phases. This project proposes to exploit latest sequence-to-sequence deep learning techniques to model paraphrase generation and integrate it in a state-of-the-art neural machine translation system. As part of this project, the enhanced neural machine translation system will be participating in the WMT 2018 international evalua
dc.description.abstractDeep Learning algorithms have a big impact in such areas as speech and image recognition or natural language processing. Machine Translation included. In recent years Neural Machine Translation (NMT) models have reached state-of-the art in this task of translating from a source language into another target language. This project is developed with the aim of learning about the latest NMT architecture, The Transformer, which has become in the current state-of-the-art. This architecture out-stands for being the first NMT model that relies entirely on self-attention to compute representations of its inputs and outputs without Recurrent Neural Networks. Despite of being developed recently, it has been used in diverse tasks. In this project, this model is implemented to develop a translator of biomedical texts. Biomedical field has the peculiarity that it does not count with huge databases of translated language pairs. In the aim of solving this problem, a multilingual translation system has been implemented: Romance languages like Spanish, French and Portuguese and their translation to English compose a large and unique dataset. With the objective of evaluating these systems, the student has enrolled in the Biomedical Translation Task (WMT18). As the results are not published yet, for this bachelor's thesis, WMT17 datasets have been used to tests the translation systems.
dc.description.abstractLos algoritmos basados en Deep Learning han supuesto un gran impacto en áreas como el reconocimiento del habla y imágenes o el procesamiento del lenguaje natural. Traducción automática incluida. En los últimos años, los modelos de traducción automática basados en redes neuronales (NMT) han alcanzado el estado del arte en esta tarea de traducir de un idioma fuente a un idioma destino. Este proyecto se desarrolla con el fin de aprender acerca de la última arquitectura NMT, el Transformer, el cual se ha convertido en el actual estado del arte. Esta arquitectura destaca por ser el primer modelo de NMT que se basa únicamente en self-attention para obtener representaciones de sus entradas y salidas sin redes recurrentes. A pesar de haber sido desarrollado recientemente, ya se ha utilizado en diversas tareas. En este proyecto en concreto, el modelo se utiliza para desarrollar un traductor de textos biomédicos. El campo biomédico tiene la peculiaridad que no cuenta con enormes datasets de traducciones de idiomas. Con el fin de solventar este problema, un sistema de traducción multilingüe es implementado: Lenguas románicas como el español, francés y portugués y su traducción al inglés componen un gran y único dataset. Con el objetivo de evaluar los traductores, se ha participado en la Biomedical Translation Task (WMT18). Dado que los resultados no han sido publicados aún, para esta memoria se han utilizado los datasets de WMT17 para analizar los sistemas de traducción.
dc.description.abstractEls algoritmes basats en Deep Learning ha suposat un gran impacte en àrees com el reconeixement de la parla i imatges o el processament del llenguatge natural. Traducció automàtica inclosa. Als darrers anys, els models de traducció automàtica basats en xarxes neuronals (NMT) han assolit l?estat del art en aquesta àrea de traduir un idioma font a un de destí.\\ Aquest projecte es desenvolupa amb la fi d?aprendre sobre la darrera arquitectura NMT, el Transformer, que s?ha convertit en l?actual estat de l?art. Aquesta arquitectura destaca per ser el primer model de NMT que es basa únicament en self-attention per obtenir representacions de les seves entrades i sortides sense xarxes recurrents. Tot i haver estat desenvolupat fa poc, el seu ús és extens en diverses tasques. En aquest projecte en concret, el model s?utilitza per desenvolupar un traductor de texts biomèdics. El camp biomèdic té la peculiaritat que no compta amb grans datasets de traduccions d?idiomes. Amb l?objectiu de solucionar aquest problema, un sistema de traducció multilingüe és implementat: Llengües romàniques com el castellà, el francès i el portuguès, amb la seva traducció a l?anglès, composen un gran i únic data set. Amb l?objectiu d?avaluar els traductors, s?ha participat en la Biomedical Translation Task (WMT18). Donat que els resultats encara no han estat publicats, per a aquesta memòria s?han fet servir els datasets del WMT17 per analitzar els sistemes de traducció.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshArtificial intelligence
dc.subject.lcshNeural networks (Computer science)
dc.subject.lcshMachine translating
dc.subject.otherNeural Machine Translation
dc.subject.otherSelf-Attention
dc.subject.otherByte Pair Encoding
dc.subject.otherRomance languages
dc.subject.otherNeural Machine Translation
dc.subject.otherLlenguas románicas
dc.titleNeural machine translation enhanced with paraphrasing techniques
dc.typeBachelor thesis
dc.subject.lemacIntel·ligència artificial
dc.subject.lemacXarxes neuronals (Informàtica)
dc.subject.lemacTraducció automàtica
dc.identifier.slugETSETB-230.136123
dc.rights.accessOpen Access
dc.date.updated2018-07-10T05:52:14Z
dc.audience.educationlevelGrau
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degreeGRAU EN CIÈNCIES I TECNOLOGIES DE TELECOMUNICACIÓ (Pla 2010)


Fitxers d'aquest items

Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple