Towards video alignment across cameras with sign language 2D poses
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/363294
Tipus de documentTreball Final de Grau
Data2021-10-27
Condicions d'accésAccés obert
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
Abstract
Aquesta tesi de final de grau forma part d'un projecte del Grup de Processament d'Imatge de la UPC enfocat a la detecció de llenguatge de signes utilitzant tecnologies relacionades amb deep learning. Aquest projecte ja consta amb una base de dades anomenada How2sign, que conté més de 83 hores de vídeos de traducció de llenguatge de signes. Aquesta base de dades conté anotacions textuals alineades a una càmera RGB frontal. Les mateixes escenes també són capturades per una RGB lateral i una RGB-D frontal. Aquestes tres càmeres no estan sincronitzades, amb la qual cosa és necessari alinear els segments anotats de la RGB frontal amb les altres. En aquesta tesi s'explora una primera solució basada en la correlació creuada. El nostre treball consisteix a processar els punts de les coordenades de les articulacions de l'subjecte que apareix en els vídeos, no des del punt de vista de processament d'imatge o vídeo basat en píxels. La primera part d'aquesta tesi és investigar les propietats de la funció de correlació creuada mitjançant la localització de segments curts de vídeo d'una gravació llarga basada en l'extracció automàtica de les poses en 2D. Els experiments també estudien l'impacte d'afegir soroll. La segona aplica la correlació creuada per intentar alinear dos videos amb el mateix contingut, però gravats amb diferents càmeres des de diferents punts de vista. Esta tesis de final de grado forma parte de un proyecto del Grupo de Procesado de Imagen de la UPC enfocado a la detección de lenguaje de signos utilizando tecnologías relacionadas con deep learning. Este proyecto ya consta con una base de datos llamada How2sign, que contiene más de 83 horas de videos de traducción de lenguaje de signos. Esta base de datos contiene anotaciones textuales alineadas a una cámara RGB frontal. Las mismas escenas también son capturadas por una RGB lateral y una RGB-D frontal. Estas tres cámaras no están sincronizadas, con lo cual es necesario alinear los segmentos anotados de la RGB frontal con las demás. En esta tesis se explora una primera solucion basada en la correlación cruzada. Nuestro trabajo consiste en procesar los puntos de las coordenadas de las articulaciones del sujeto que aparece en los videos, no desde el punto de vista de procesado de imagen o video basado en píxeles. La primera parte de esta tesis es investigar las propiedades de la función de correlación cruzada mediante la localización de segmentos cortos de vídeo de una grabación larga basada en la extracción automática de las poses en 2D. Los experimentos también estudian el impacto de añadir ruido. La segunda aplica la correlación cruzada para intentar alinear dos videos con el mismo contenido, pero grabados con distintas cámaras desde distintos puntos de vista. This thesis degree is part of a project from the Image Group at UPC that is focused on
sign language translation using deep learning technologies. This thesis builds on top of
an existing database called How2Sign, that contains more than 83 hours of sign language
translation videos.
This database has some textual annotations aligned to a front RGB camera. The same
scenes are also captured by a side RGB and a front RGB-D cameras. These three cameras
are not synchronized, so it is necessary to align the segments annotated on the RGB front
camera to the other cameras. This thesis explores a solution based on the cross correlation
operator.
Our work is to process the coordinates of the joints of the subject that appears in the
videos, not from the point of view of image or video processing based on pixels.
The first part if this thesis is to investigate the properties of the cross-correlation function
by locating short video segments of a long recording based on automatically extracted 2D
human poses. The experiments studied the impact of adding noise.
The second part applied the cross-correlation to try to align two videos with the same
scene, but recorded with different cameras from different points of view.
MatèriesImage processing, Digital video, Correlation (Statistics), Imatges -- Processament, Vídeo digital, Correlació (Estadística)
TitulacióGRAU EN ENGINYERIA DE TECNOLOGIES I SERVEIS DE TELECOMUNICACIÓ (Pla 2015)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
TFG_Andrea_Iturralde (6).pdf | 3,452Mb | Visualitza/Obre |