Mostra el registre d'ítem simple

dc.contributorGiró Nieto, Xavier
dc.contributorMcguinness, Kevin
dc.contributor.authorPerez Granero, Pol
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2020-11-12T09:49:55Z
dc.date.available2020-11-12T09:49:55Z
dc.date.issued2020-06
dc.identifier.urihttp://hdl.handle.net/2117/331960
dc.description.abstractThis project aims at leveraging the challenge of using 3D poses for Sign Language translation or animation by transforming 2D pose datasets into 3D ones. The goal is, using a 3D dataset of American Sign Language, to train a deep neural network that will predict the depth coordinates of the skeleton keypoints from 2D coordinates. Specifically, it will be explored a Long Short-Term Memory network, an architecture broadly used for sequence to sequence tasks. The conclusions extracted on this report are that despite some of the results being good enough to be used for actual 3D SL annotation, the majority of them lack the precision to do so, and they are too variant with respect to the dataset split. It is also concluded that the solutions approached here could be improved by adding some regularization methods, more powerful hardware to run better experiments, and new input features such as keypoint visibility.
dc.description.abstractEste proyecto tiene como meta contribuir en el desafío de usar poses 3D para la traducción o animación del lenguaje de señas mediante la transformación de conjuntos de datos de poses 2D a poses 3D. El objetivo es, utilizando un conjunto de datos en 3D del lenguaje de señas americano, entrenar una red neuronal profunda que prediga las coordenadas de profundidad de los "keypoint" del esqueleto a partir de sus coordenadas 2D. Específicamente, se explorará una red "Long Short-Term Memory", una arquitectura ampliamente utilizada para tareas de secuencia-a-secuencia. Las conclusiones extraídas en este informe son que, a pesar de que algunos de los resultados son lo suficientemente buenos como para ser utilizados para la anotación 3D de lenguajes de signos real, la mayoría de ellos carecen de la precisión para hacerlo, y son demasiado variantes con respecto a la división del conjunto de datos. También se concluye que las soluciones abordadas aquí podrían mejorarse agregando algunos métodos de regularización, hardware más potente para ejecutar mejores experimentos y nuevas características de entrada como la visibilidad de los "keypoints".
dc.description.abstractAquest projecte té com a finalitat ajudar en el repte d?utilitzar postures en 3D per a la traducció o animació de llenguatges de signes transformant conjunts de dades de postures 2D a postures 3D. L?objectiu és, mitjançant un conjunt de dades 3D de llenguatge de signes americà, formar una xarxa neuronal profunda que predigui les coordenades de profunditat dels "keypoint" de l?esquelet a partir de les seves coordenades 2D. Concretament, s?explorarà una xarxa "Long Short-Term Memory", una arquitectura àmpliament usada per a tasques de seqüència-a-seqüència. Les conclusions extretes en aquest informe són que, malgrat que alguns dels resultats són prou bons com per ser utilitzats per a l?anotació 3D de llenguatges de signes real, la majoria no tenen la precisió per fer-ho, i són massa variants respecte a la divisió del conjunt de dades. També es conclou que es podrien millorar les solucions que aquí s'aborden afegint alguns mètodes de regularització, un maquinari més potent per executar millors experiments i noves funcions d?"input", com ara la visibilitat dels "keypoints".
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshEstimation theory
dc.subject.lcshNeural networks (Computer science)
dc.subject.lcshMachine learning
dc.subject.lcshNatural language processing (Computer science)
dc.subject.otherDeep Learning
dc.subject.otherMachine Learning
dc.subject.otherNeural Networks
dc.subject.othersign language
dc.subject.otherpose
dc.subject.other3d prediction
dc.subject.otherkeypoints
dc.subject.otherLSTM
dc.subject.otherRNN
dc.subject.otherMachine Learning
dc.subject.otheraprendizaje profundo
dc.subject.otherredes neuronales
dc.subject.otherpose
dc.subject.otherpredicción 3D
dc.title2D to 3D body pose estimation for sign language with Deep Learning
dc.title.alternativePredicción de posturas corporales de 2D a 3D para lenguaje de signos por Deep Learning
dc.title.alternativePredicció de postures corporals de 2D a 3D per llenguatge de signes amb Deep Learning
dc.typeBachelor thesis
dc.subject.lemacEstimació, Teoria de l'
dc.subject.lemacXarxes neuronals (Informàtica)
dc.subject.lemacAprenentatge automàtic
dc.subject.lemacTractament del llenguatge natural (Informàtica)
dc.identifier.slugETSETB-230.154419
dc.rights.accessOpen Access
dc.date.updated2020-08-03T05:51:08Z
dc.audience.educationlevelGrau
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degreeGRAU EN ENGINYERIA DE TECNOLOGIES I SERVEIS DE TELECOMUNICACIÓ (Pla 2015)


Fitxers d'aquest items

Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple