dc.contributor | Giró Nieto, Xavier |
dc.contributor | Tarrés, Laia |
dc.contributor.author | Cabot Álvarez, Patricia |
dc.contributor.other | Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions |
dc.date.accessioned | 2022-10-05T07:47:18Z |
dc.date.available | 2022-10-05T07:47:18Z |
dc.date.issued | 2022-06-29 |
dc.identifier.uri | http://hdl.handle.net/2117/373981 |
dc.description.abstract | La Traducció de la Llengua de Signes és un problema obert que té com a objectiu generar frases escrites a partir de vídeos de signes. En els darrers anys, molts treballs de recerca que s'han desenvolupat en aquest camp van abordar principalment la tasca de Reconeixement de la Llengua de Signes, que consisteix a comprendre els signes d'entrada i transcriure'ls en seqüències d'anotacions. A més, els estudis actuals mostren que aprofitar aquesta darrera tasca ajuda a aprendre representacions significatives i es pot veure com un pas intermig cap a l'objectiu final de traducció. En aquest treball, presentem un mètode per generar pseudo-glosses automàtiques a partir de les frases escrites, que pot funcionar com a substitució de les glosses reals. Això aborda el problema de la seva adquisició, ja que s'han d'anotar manualment i és extremadament costós. A més, introduïm una nova implementació basada en Fairseq de l'enfocament del model Transformer introduït per Camgoz et al., que està entrenat conjuntament per resoldre les tasques de reconeixement i traducció. També proporcionem nous resultats de referència per ambdues implementacions: en primer lloc, per la base de dades Phoenix, presentem resultats que superen els proporcionats per Camgoz et al. en el seu treball i, en segon lloc, per la base de dades How2Sign, presentem els primers resultats de la tasca de traducció. Aquests resultats poden servir de base per a futures investigacions en el camp. |
dc.description.abstract | Sign Language Translation is an open problem whose goal is to generate written sentences from sign videos. In recent years, many research works that have been developed in this field mainly addressed the Sign Language Recognition task, which consists in understanding the input signs and transcribing them into sequences of annotations. Moreover, current studies show that taking advantage of the latter task helps to learn meaningful representations and can be seen as an intermediate step towards the end goal of translation. In this work, we present a method to generate automatic pseudo-glosses from written sentences, which can work as a replacement for real glosses. This addresses the issue of their collection, as they need to be manually annotated and it is extremely costly. Furthermore, we introduce a new implementation built on Fairseq of the Transformer-model approach introduced by Camgoz et al., which is jointly trained to solve the recognition and translation tasks. Besides, we provide new baseline results on both implementations: first, on the Phoenix dataset, we present results that outperform the ones provided by Camgoz et al. in their work, and, second, on the How2Sign dataset, we present the first results on the translation task. These results can work as a baseline for future research in the field. |
dc.language.iso | eng |
dc.publisher | Universitat Politècnica de Catalunya |
dc.subject | Àrees temàtiques de la UPC::Enginyeria de la telecomunicació::Processament del senyal::Processament de la imatge i del senyal vídeo |
dc.subject.lcsh | Sign language |
dc.subject.lcsh | Deep learning (Machine learning) |
dc.subject.other | Llengua de Signes |
dc.subject.other | annotacions de glosses |
dc.subject.other | videos de signes |
dc.subject.other | Traducció de la Llengua de Signes |
dc.subject.other | Reconeixement de la Llengua de Signes |
dc.subject.other | Traducció Automàtica |
dc.subject.other | Aprenentatge Profund |
dc.subject.other | model Transformer |
dc.subject.other | model Encoder-Decoder |
dc.subject.other | Sign2Text |
dc.subject.other | Sign2(Gloss+Text) |
dc.subject.other | Phoenix2014T |
dc.subject.other | How2Sign |
dc.subject.other | Fairseq. |
dc.subject.other | Sign Language |
dc.subject.other | gloss annotations |
dc.subject.other | sign videos |
dc.subject.other | Sign Language Translation |
dc.subject.other | Continous Sign Language Recognition |
dc.subject.other | Machine Translation |
dc.subject.other | Deep Learning |
dc.title | Sign language translation with pseudo-glosses |
dc.type | Bachelor thesis |
dc.subject.lemac | Llenguatge de signes |
dc.subject.lemac | Aprenentatge profund |
dc.identifier.slug | 170395 |
dc.rights.access | Open Access |
dc.date.updated | 2022-07-06T09:47:04Z |
dc.audience.educationlevel | Grau |
dc.audience.mediator | Facultat d'Informàtica de Barcelona |
dc.audience.degree | GRAU EN CIÈNCIA I ENGINYERIA DE DADES (Pla 2017) |