Multimodal Deep Learning methods for person annotation in video sequences

Rodríguez Navarro, David

Visualitza/Obre

Multimodal DeepLearning methods for person annotation in video sequences.pdf (2,000Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Rodríguez Navarro, David

Tutor / directorMorros Rubió, Josep Ramon

; Sayrol Clols, Elisa

Tipus de documentTreball Final de Grau

Data2017-06

Condicions d'accésAccés obert

Attribution-NonCommercial-NoDerivs 3.0 Spain

Llevat que s'hi indiqui el contrari, els continguts d'aquesta obra estan subjectes a la llicència de Creative Commons : Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya

Abstract

In unsupervised identity recognition in video sequences systems, which is a very active field of research in computer vision, the use of convolutional neural networks (CNN's) is currently gaining a lot of interest due to the great results that this techniques have been shown in face recognition and verification problems in recent years. In this thesis, the improvement of a CNN applied for face verification will be made in the context of an unsupervised identity annotation system developed for the MediaEval 2016 task. This improvement will be achieved by training the 2016 CNN architecture with images from the task database, which is now possible since we can use the last version outputs, along with a data augmentation method applied to the previously extracted samples. In addition, a new multimodal verification system is implemented merging both visual and audio feature vectors. An evaluation of the margin of improvement that these techniques introduce in the whole system will be made, comparing against the State-of-the-Art. Finally some conclusions will be exposed based on the obtained results will be drawn along with some possible future lines of work.

En los sistemas de reconocimiento de identidad no supervisados, el cual es un campo de investigación muy activo en la visión por computador, el uso de redes neuronales convolucionales (CNN's) está recibiendo mucho interés actualmente, debido a los grandes resultados que estas técnicas están consiguiendo en tareas de reconocimiento i verificación facial en los últimos años. En esta tesis se realizará una mejora de una CNN aplicada a verificación facial en el contexto de un sistema de anotación de identidad no supervisado, el cual fue realizado para la tarea MediaEval 2016. Esta mejora será llevada a cabo re-entrenando la arquitectura neuronal de 2016 con imágenes de la base de datos de la tarea, lo cual ahora es posible ya que podemos usar los resultados del sistema del 2016, además de un método de data augmentation el cual se aplicará sobre estas imágenes obtenidas anteriormente. Además, se implementará un nuevo sistema multimodal de verificación fusionando los vectores de características obtenidos por los sistemas de video y audio. También se evaluaran los margenes de mejora que introducen estas técnicas, en comparación con el estado del arte. Por último, se exponen algunas conclusiones basadas en los resultados obtenidos junto con posibles líneas de trabajo futuras.

En els sistemes de reconeixement d'identitat no supervisats, el qual és un camp d'investigació molt actiu en la visió per computador, l'ús de xarxes neuronals convolucionals (CNN's) està rebent molt interès actualment degut als grans resultats que aquestes tècniques están conseguint en tasques de reconeixement i verificació facial els últims anys. En aquesta tesi es realitzarà una millora d'una CNN aplicada a verificació facial en el context d'un sistema d'anotació d'identitat no supervisat, el qual ve ser realitzar per la tasca MediaEval 2016. Aquesta millora serà duta a terme re-entrenant l'arquitectura neuronal del 2016 amb imatges de la base de dades de la tasca, ara possible degut a que podem utilitzar els resultats del sistema del 2016, a més d'un mètode de data augmentation el qual és aplicat sobre aquestes imatges obtingudes anteriorment. A mes, s'implementarà un nou sistema multimodal de verificació fusionant els vectors de característiques obtinguts per els sistemes de video i audio. També s'avaluaran els marges de millora que introdueixen aquestes tècniques, en comparació amb l'estat de l'art. Per últim, s'exposen algunes conclusions basades en els resultats obtinguts junt amb posibles noves línies de treball.

MatèriesImage processing, Artificial intelligence, Neural networks (Computer science), Imatges -- Processament, Intel·ligència artificial, Xarxes neuronals (Informàtica)

TitulacióGRAU EN ENGINYERIA DE SISTEMES AUDIOVISUALS (Pla 2009)

URIhttp://hdl.handle.net/2117/109804

Col·leccions

Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona - Grau en Enginyeria de Sistemes Audioviduals (Pla 2009) [160]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
Multimodal Deep ... ion in video sequences.pdf		2,000Mb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Multimodal Deep Learning methods for person annotation in video sequences

Visualitza/Obre

Explora