Multiformer: a head-configurable transformer for direct speech translation

Sant Muniesa, Gerard

Visualitza/Obre

Degree_Thesis_Gerard_Sant.pdf (2,138Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Sant Muniesa, Gerard

Tutor / directorRuiz Costa-Jussà, Marta

; Gallego Olsina, Gerard Ion

Tipus de documentTreball Final de Grau

Data2022-01-31

Condicions d'accésAccés obert

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets

Abstract

Transformer-based models have achieved state-of-the-art performance in many research fields including speech translation. However, since it has quadratic complexity with respect to the input sequence length, its direct application to audio tasks is not trivial. Therefore, it is common to reduce the length of audio sequences using convolutional layers prior to the Encoder. This work adds another approach and questions the use of Multi-Head Attention, originally proposed for text, for extracting information from the voice, specifically in Speech-to-Text Translation. In this study, we present Multiformer, a model based on the Transformer that allows different attention mechanisms between each head. By introducing attention diversity, the redundancy of the information extracted by the different heads is reduced. Our results show that Multiformer with attention diversity at both head and layer level outperforms the reference model by ~ 0.4 BLEU points.

Los modelos basados en el Transformer se han ido estableciendo como líderes en varios campos de Natural Lenguage Processing, como es el caso de Speech Translation. Sin embargo, dado que éste posee una complejidad cuadrática respecto a la longitud de la secuencia de entrada, su aplicación directa a tareas de audio no es trivial. Por ende, es común reducir la longitud de las secuencias de audio mediante capas convolucionales previas al Encoder. Este trabajo añade otro enfoque y se cuestiona la utilización de la Multi-Head Attention, originalmente planteada para texto, para la extracción de información de la voz, concretamente en Speech-to-Text Translation. En este estudio, presentamos el Multiformer, un modelo basado en el Transformer que permite aplicar diferentes mecanismos de atención en cada head. Al introducir diversidad de atención, se reduce la redundancia de la información extraída por los distintos heads. Nuestros resultados muestran que el Multiformer con diversidad de atención tanto a nivel de head, como a nivel de capa, supera al modelo de referencia por ~ 0.4 puntos de BLEU.

Els models basats en el Transformer s'han anat establint com a líders en diversos camps de Natural Lenguage Processing, com és el cas de Speech Translation. No obstant això, atès que aquest posseeix una complexitat quadràtica respecte a la longitud de la seqüència d'entrada, la seva aplicació directa a tasques d'àudio no és trivial. Per tant, és comú reduir la longitud de les seqüències d'àudio mitjançant capes convolucionals prèvies al Encoder. Aquest treball proposa un altre enfocament i es qüestiona la utilització de la Multi-Head Attention, originalment plantejada per a text, per a l'extracció d'informació de la veu, concretament en Speech-to-Text Translation. En aquest estudi, presentem el Multiformer, un model basat en el Transformer que permet aplicar diferents mecanismes d'atenció en cada head. En introduir diversitat d'atenció, es redueix la redundància de la informació extreta pels diferents heads. Els nostres resultats mostren que el Multiformer amb diversitat d'atenció tant a nivell de head, com a nivell de capa, supera al model de referència per ~ 0.4 punts de BLEU.

Descripció

Traditionally, speech-to-text translation has been faced as the concatenation of speech recognition and machine translation modules. Nowadays, thanks to deep learning, this task is faced with an end-to-end approach, i.e., directly generating translations, without an intermediate step to get the transcriptions. This approach, which has many advantages, has been performing behind the pipeline, but now, it seems the gap has been closed. The student will have to contribute to the development of this field by proposing new architectures that improve the performance of the end-t

MatèriesMachine learning, Machine translating, Aprenentatge automàtic, Traducció automàtica

TitulacióGRAU EN ENGINYERIA DE TECNOLOGIES I SERVEIS DE TELECOMUNICACIÓ (Pla 2015)

URIhttp://hdl.handle.net/2117/368118

Col·leccions

Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona - Grau en Enginyeria de Tecnologies i Serveis de Telecomunicació (Pla 2015) [851]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
Degree_Thesis_Gerard_Sant.pdf		2,138Mb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Multiformer: a head-configurable transformer for direct speech translation

Visualitza/Obre

Explora