Towards video alignment across cameras with sign language 2D poses

Iturralde Amigó, Andrea

Visualitza/Obre

TFG_Andrea_Iturralde (6).pdf (3,452Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Iturralde Amigó, Andrea

Tutor / directorGiró Nieto, Xavier

; Tarrés Benet, Laia

Tipus de documentTreball Final de Grau

Data2021-10-27

Condicions d'accésAccés obert

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets

Abstract

Aquesta tesi de final de grau forma part d'un projecte del Grup de Processament d'Imatge de la UPC enfocat a la detecció de llenguatge de signes utilitzant tecnologies relacionades amb deep learning. Aquest projecte ja consta amb una base de dades anomenada How2sign, que conté més de 83 hores de vídeos de traducció de llenguatge de signes. Aquesta base de dades conté anotacions textuals alineades a una càmera RGB frontal. Les mateixes escenes també són capturades per una RGB lateral i una RGB-D frontal. Aquestes tres càmeres no estan sincronitzades, amb la qual cosa és necessari alinear els segments anotats de la RGB frontal amb les altres. En aquesta tesi s'explora una primera solució basada en la correlació creuada. El nostre treball consisteix a processar els punts de les coordenades de les articulacions de l'subjecte que apareix en els vídeos, no des del punt de vista de processament d'imatge o vídeo basat en píxels. La primera part d'aquesta tesi és investigar les propietats de la funció de correlació creuada mitjançant la localització de segments curts de vídeo d'una gravació llarga basada en l'extracció automàtica de les poses en 2D. Els experiments també estudien l'impacte d'afegir soroll. La segona aplica la correlació creuada per intentar alinear dos videos amb el mateix contingut, però gravats amb diferents càmeres des de diferents punts de vista.

Esta tesis de final de grado forma parte de un proyecto del Grupo de Procesado de Imagen de la UPC enfocado a la detección de lenguaje de signos utilizando tecnologías relacionadas con deep learning. Este proyecto ya consta con una base de datos llamada How2sign, que contiene más de 83 horas de videos de traducción de lenguaje de signos. Esta base de datos contiene anotaciones textuales alineadas a una cámara RGB frontal. Las mismas escenas también son capturadas por una RGB lateral y una RGB-D frontal. Estas tres cámaras no están sincronizadas, con lo cual es necesario alinear los segmentos anotados de la RGB frontal con las demás. En esta tesis se explora una primera solucion basada en la correlación cruzada. Nuestro trabajo consiste en procesar los puntos de las coordenadas de las articulaciones del sujeto que aparece en los videos, no desde el punto de vista de procesado de imagen o video basado en píxeles. La primera parte de esta tesis es investigar las propiedades de la función de correlación cruzada mediante la localización de segmentos cortos de vídeo de una grabación larga basada en la extracción automática de las poses en 2D. Los experimentos también estudian el impacto de añadir ruido. La segunda aplica la correlación cruzada para intentar alinear dos videos con el mismo contenido, pero grabados con distintas cámaras desde distintos puntos de vista.

This thesis degree is part of a project from the Image Group at UPC that is focused on sign language translation using deep learning technologies. This thesis builds on top of an existing database called How2Sign, that contains more than 83 hours of sign language translation videos. This database has some textual annotations aligned to a front RGB camera. The same scenes are also captured by a side RGB and a front RGB-D cameras. These three cameras are not synchronized, so it is necessary to align the segments annotated on the RGB front camera to the other cameras. This thesis explores a solution based on the cross correlation operator. Our work is to process the coordinates of the joints of the subject that appears in the videos, not from the point of view of image or video processing based on pixels. The first part if this thesis is to investigate the properties of the cross-correlation function by locating short video segments of a long recording based on automatically extracted 2D human poses. The experiments studied the impact of adding noise. The second part applied the cross-correlation to try to align two videos with the same scene, but recorded with different cameras from different points of view.

MatèriesImage processing, Digital video, Correlation (Statistics), Imatges -- Processament, Vídeo digital, Correlació (Estadística)

TitulacióGRAU EN ENGINYERIA DE TECNOLOGIES I SERVEIS DE TELECOMUNICACIÓ (Pla 2015)

URIhttp://hdl.handle.net/2117/363294

Col·leccions

Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona - Grau en Enginyeria de Tecnologies i Serveis de Telecomunicació (Pla 2015) [852]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
TFG_Andrea_Iturralde (6).pdf		3,452Mb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Towards video alignment across cameras with sign language 2D poses

Visualitza/Obre

Explora