2D to 3D body pose estimation for sign language with Deep Learning
View/Open
Cita com:
hdl:2117/331960
Document typeBachelor thesis
Date2020-06
Rights accessOpen Access
All rights reserved. This work is protected by the corresponding intellectual and industrial
property rights. Without prejudice to any existing legal exemptions, reproduction, distribution, public
communication or transformation of this work are prohibited without permission of the copyright holder
Abstract
This project aims at leveraging the challenge of using 3D poses for Sign Language translation or animation by transforming 2D pose datasets into 3D ones. The goal is, using a 3D dataset of American Sign Language, to train a deep neural network that will predict the depth coordinates of the skeleton keypoints from 2D coordinates. Specifically, it will be explored a Long Short-Term Memory network, an architecture broadly used for sequence to sequence tasks. The conclusions extracted on this report are that despite some of the results being good enough to be used for actual 3D SL annotation, the majority of them lack the precision to do so, and they are too variant with respect to the dataset split. It is also concluded that the solutions approached here could be improved by adding some regularization methods, more powerful hardware to run better experiments, and new input features such as keypoint visibility. Este proyecto tiene como meta contribuir en el desafío de usar poses 3D para la traducción o animación del lenguaje de señas mediante la transformación de conjuntos de datos de poses 2D a poses 3D. El objetivo es, utilizando un conjunto de datos en 3D del lenguaje de señas americano, entrenar una red neuronal profunda que prediga las coordenadas de profundidad de los "keypoint" del esqueleto a partir de sus coordenadas 2D. Específicamente, se explorará una red "Long Short-Term Memory", una arquitectura ampliamente utilizada para tareas de secuencia-a-secuencia. Las conclusiones extraídas en este informe son que, a pesar de que algunos de los resultados son lo suficientemente buenos como para ser utilizados para la anotación 3D de lenguajes de signos real, la mayoría de ellos carecen de la precisión para hacerlo, y son demasiado variantes con respecto a la división del conjunto de datos. También se concluye que las soluciones abordadas aquí podrían mejorarse agregando algunos métodos de regularización, hardware más potente para ejecutar mejores experimentos y nuevas características de entrada como la visibilidad de los "keypoints". Aquest projecte té com a finalitat ajudar en el repte d?utilitzar postures en 3D per a la traducció o animació de llenguatges de signes transformant conjunts de dades de postures 2D a postures 3D. L?objectiu és, mitjançant un conjunt de dades 3D de llenguatge de signes americà, formar una xarxa neuronal profunda que predigui les coordenades de profunditat dels "keypoint" de l?esquelet a partir de les seves coordenades 2D. Concretament, s?explorarà una xarxa "Long Short-Term Memory", una arquitectura àmpliament usada per a tasques de seqüència-a-seqüència. Les conclusions extretes en aquest informe són que, malgrat que alguns dels resultats són prou bons com per ser utilitzats per a l?anotació 3D de llenguatges de signes real, la majoria no tenen la precisió per fer-ho, i són massa variants respecte a la divisió del conjunt de dades. També es conclou que es podrien millorar les solucions que aquí s'aborden afegint alguns mètodes de regularització, un maquinari més potent per executar millors experiments i noves funcions d?"input", com ara la visibilitat dels "keypoints".
SubjectsEstimation theory, Neural networks (Computer science), Machine learning, Natural language processing (Computer science), Estimació, Teoria de l', Xarxes neuronals (Informàtica), Aprenentatge automàtic, Tractament del llenguatge natural (Informàtica)
DegreeGRAU EN ENGINYERIA DE TECNOLOGIES I SERVEIS DE TELECOMUNICACIÓ (Pla 2015)
Files | Description | Size | Format | View |
---|---|---|---|---|
degree_thesis.pdf | 2,971Mb | View/Open |