2D to 3D body pose estimation for sign language with Deep Learning

Perez Granero, Pol

dc.contributor	Giró Nieto, Xavier
dc.contributor	Mcguinness, Kevin
dc.contributor.author	Perez Granero, Pol
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned	2020-11-12T09:49:55Z
dc.date.available	2020-11-12T09:49:55Z
dc.date.issued	2020-06
dc.identifier.uri	http://hdl.handle.net/2117/331960
dc.description.abstract	This project aims at leveraging the challenge of using 3D poses for Sign Language translation or animation by transforming 2D pose datasets into 3D ones. The goal is, using a 3D dataset of American Sign Language, to train a deep neural network that will predict the depth coordinates of the skeleton keypoints from 2D coordinates. Specifically, it will be explored a Long Short-Term Memory network, an architecture broadly used for sequence to sequence tasks. The conclusions extracted on this report are that despite some of the results being good enough to be used for actual 3D SL annotation, the majority of them lack the precision to do so, and they are too variant with respect to the dataset split. It is also concluded that the solutions approached here could be improved by adding some regularization methods, more powerful hardware to run better experiments, and new input features such as keypoint visibility.
dc.description.abstract	Este proyecto tiene como meta contribuir en el desafío de usar poses 3D para la traducción o animación del lenguaje de señas mediante la transformación de conjuntos de datos de poses 2D a poses 3D. El objetivo es, utilizando un conjunto de datos en 3D del lenguaje de señas americano, entrenar una red neuronal profunda que prediga las coordenadas de profundidad de los "keypoint" del esqueleto a partir de sus coordenadas 2D. Específicamente, se explorará una red "Long Short-Term Memory", una arquitectura ampliamente utilizada para tareas de secuencia-a-secuencia. Las conclusiones extraídas en este informe son que, a pesar de que algunos de los resultados son lo suficientemente buenos como para ser utilizados para la anotación 3D de lenguajes de signos real, la mayoría de ellos carecen de la precisión para hacerlo, y son demasiado variantes con respecto a la división del conjunto de datos. También se concluye que las soluciones abordadas aquí podrían mejorarse agregando algunos métodos de regularización, hardware más potente para ejecutar mejores experimentos y nuevas características de entrada como la visibilidad de los "keypoints".
dc.description.abstract	Aquest projecte té com a finalitat ajudar en el repte d?utilitzar postures en 3D per a la traducció o animació de llenguatges de signes transformant conjunts de dades de postures 2D a postures 3D. L?objectiu és, mitjançant un conjunt de dades 3D de llenguatge de signes americà, formar una xarxa neuronal profunda que predigui les coordenades de profunditat dels "keypoint" de l?esquelet a partir de les seves coordenades 2D. Concretament, s?explorarà una xarxa "Long Short-Term Memory", una arquitectura àmpliament usada per a tasques de seqüència-a-seqüència. Les conclusions extretes en aquest informe són que, malgrat que alguns dels resultats són prou bons com per ser utilitzats per a l?anotació 3D de llenguatges de signes real, la majoria no tenen la precisió per fer-ho, i són massa variants respecte a la divisió del conjunt de dades. També es conclou que es podrien millorar les solucions que aquí s'aborden afegint alguns mètodes de regularització, un maquinari més potent per executar millors experiments i noves funcions d?"input", com ara la visibilitat dels "keypoints".
dc.language.iso	eng
dc.publisher	Universitat Politècnica de Catalunya
dc.rights	S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.subject	Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcsh	Estimation theory
dc.subject.lcsh	Neural networks (Computer science)
dc.subject.lcsh	Machine learning
dc.subject.lcsh	Natural language processing (Computer science)
dc.subject.other	Deep Learning
dc.subject.other	Machine Learning
dc.subject.other	Neural Networks
dc.subject.other	sign language
dc.subject.other	pose
dc.subject.other	3d prediction
dc.subject.other	keypoints
dc.subject.other	LSTM
dc.subject.other	RNN
dc.subject.other	Machine Learning
dc.subject.other	aprendizaje profundo
dc.subject.other	redes neuronales
dc.subject.other	pose
dc.subject.other	predicción 3D
dc.title	2D to 3D body pose estimation for sign language with Deep Learning
dc.title.alternative	Predicción de posturas corporales de 2D a 3D para lenguaje de signos por Deep Learning
dc.title.alternative	Predicció de postures corporals de 2D a 3D per llenguatge de signes amb Deep Learning
dc.type	Bachelor thesis
dc.subject.lemac	Estimació, Teoria de l'
dc.subject.lemac	Xarxes neuronals (Informàtica)
dc.subject.lemac	Aprenentatge automàtic
dc.subject.lemac	Tractament del llenguatge natural (Informàtica)
dc.identifier.slug	ETSETB-230.154419
dc.rights.access	Open Access
dc.date.updated	2020-08-03T05:51:08Z
dc.audience.educationlevel	Grau
dc.audience.mediator	Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degree	GRAU EN ENGINYERIA DE TECNOLOGIES I SERVEIS DE TELECOMUNICACIÓ (Pla 2015)

Fitxers d'aquest items

Nom:: degree_thesis.pdf
Mida:: 2,971Mb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Grau en Enginyeria de Tecnologies i Serveis de Telecomunicació (Pla 2015) [851]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

2D to 3D body pose estimation for sign language with Deep Learning

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora