Multimodal Deep Learning methods for person annotation in video sequences

Rodríguez Navarro, David

dc.contributor	Morros Rubió, Josep Ramon
dc.contributor	Sayrol Clols, Elisa
dc.contributor.author	Rodríguez Navarro, David
dc.date.accessioned	2017-11-05T17:17:22Z
dc.date.available	2017-11-05T17:17:22Z
dc.date.issued	2017-06
dc.identifier.uri	http://hdl.handle.net/2117/109804
dc.description.abstract	In unsupervised identity recognition in video sequences systems, which is a very active field of research in computer vision, the use of convolutional neural networks (CNN's) is currently gaining a lot of interest due to the great results that this techniques have been shown in face recognition and verification problems in recent years. In this thesis, the improvement of a CNN applied for face verification will be made in the context of an unsupervised identity annotation system developed for the MediaEval 2016 task. This improvement will be achieved by training the 2016 CNN architecture with images from the task database, which is now possible since we can use the last version outputs, along with a data augmentation method applied to the previously extracted samples. In addition, a new multimodal verification system is implemented merging both visual and audio feature vectors. An evaluation of the margin of improvement that these techniques introduce in the whole system will be made, comparing against the State-of-the-Art. Finally some conclusions will be exposed based on the obtained results will be drawn along with some possible future lines of work.
dc.description.abstract	En los sistemas de reconocimiento de identidad no supervisados, el cual es un campo de investigación muy activo en la visión por computador, el uso de redes neuronales convolucionales (CNN's) está recibiendo mucho interés actualmente, debido a los grandes resultados que estas técnicas están consiguiendo en tareas de reconocimiento i verificación facial en los últimos años. En esta tesis se realizará una mejora de una CNN aplicada a verificación facial en el contexto de un sistema de anotación de identidad no supervisado, el cual fue realizado para la tarea MediaEval 2016. Esta mejora será llevada a cabo re-entrenando la arquitectura neuronal de 2016 con imágenes de la base de datos de la tarea, lo cual ahora es posible ya que podemos usar los resultados del sistema del 2016, además de un método de data augmentation el cual se aplicará sobre estas imágenes obtenidas anteriormente. Además, se implementará un nuevo sistema multimodal de verificación fusionando los vectores de características obtenidos por los sistemas de video y audio. También se evaluaran los margenes de mejora que introducen estas técnicas, en comparación con el estado del arte. Por último, se exponen algunas conclusiones basadas en los resultados obtenidos junto con posibles líneas de trabajo futuras.
dc.description.abstract	En els sistemes de reconeixement d'identitat no supervisats, el qual és un camp d'investigació molt actiu en la visió per computador, l'ús de xarxes neuronals convolucionals (CNN's) està rebent molt interès actualment degut als grans resultats que aquestes tècniques están conseguint en tasques de reconeixement i verificació facial els últims anys. En aquesta tesi es realitzarà una millora d'una CNN aplicada a verificació facial en el context d'un sistema d'anotació d'identitat no supervisat, el qual ve ser realitzar per la tasca MediaEval 2016. Aquesta millora serà duta a terme re-entrenant l'arquitectura neuronal del 2016 amb imatges de la base de dades de la tasca, ara possible degut a que podem utilitzar els resultats del sistema del 2016, a més d'un mètode de data augmentation el qual és aplicat sobre aquestes imatges obtingudes anteriorment. A mes, s'implementarà un nou sistema multimodal de verificació fusionant els vectors de característiques obtinguts per els sistemes de video i audio. També s'avaluaran els marges de millora que introdueixen aquestes tècniques, en comparació amb l'estat de l'art. Per últim, s'exposen algunes conclusions basades en els resultats obtinguts junt amb posibles noves línies de treball.
dc.language.iso	eng
dc.publisher	Universitat Politècnica de Catalunya
dc.rights	S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject	Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcsh	Image processing
dc.subject.lcsh	Artificial intelligence
dc.subject.lcsh	Neural networks (Computer science)
dc.subject.other	Deep learning
dc.subject.other	convolutional neural networks
dc.subject.other	video annotation
dc.subject.other	triplet neural network
dc.subject.other	face identification
dc.subject.other	face verification
dc.subject.other	redes neuronals convolucionales
dc.subject.other	anotación de video
dc.subject.other	redes neuronales triplet
dc.subject.other	identificación facial
dc.subject.other	verificación facial
dc.subject.other	Visió per ordinador
dc.title	Multimodal Deep Learning methods for person annotation in video sequences
dc.type	Bachelor thesis
dc.subject.lemac	Imatges -- Processament
dc.subject.lemac	Intel·ligència artificial
dc.subject.lemac	Xarxes neuronals (Informàtica)
dc.identifier.slug	ETSETB-230.128461
dc.rights.access	Open Access
dc.date.updated	2017-07-17T05:51:03Z
dc.audience.educationlevel	Grau
dc.audience.mediator	Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degree	GRAU EN ENGINYERIA DE SISTEMES AUDIOVISUALS (Pla 2009)

Fitxers d'aquest items

Nom:: Multimodal DeepLearning methods ...
Mida:: 2,000Mb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Grau en Enginyeria de Sistemes Audioviduals (Pla 2009) [160]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Multimodal Deep Learning methods for person annotation in video sequences

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora