Mostra el registre d'ítem simple

dc.contributorMorros Rubió, Josep Ramon
dc.contributorSayrol Clols, Elisa
dc.contributor.authorRodríguez Navarro, David
dc.date.accessioned2017-11-05T17:17:22Z
dc.date.available2017-11-05T17:17:22Z
dc.date.issued2017-06
dc.identifier.urihttp://hdl.handle.net/2117/109804
dc.description.abstractIn unsupervised identity recognition in video sequences systems, which is a very active field of research in computer vision, the use of convolutional neural networks (CNN's) is currently gaining a lot of interest due to the great results that this techniques have been shown in face recognition and verification problems in recent years. In this thesis, the improvement of a CNN applied for face verification will be made in the context of an unsupervised identity annotation system developed for the MediaEval 2016 task. This improvement will be achieved by training the 2016 CNN architecture with images from the task database, which is now possible since we can use the last version outputs, along with a data augmentation method applied to the previously extracted samples. In addition, a new multimodal verification system is implemented merging both visual and audio feature vectors. An evaluation of the margin of improvement that these techniques introduce in the whole system will be made, comparing against the State-of-the-Art. Finally some conclusions will be exposed based on the obtained results will be drawn along with some possible future lines of work.
dc.description.abstractEn los sistemas de reconocimiento de identidad no supervisados, el cual es un campo de investigación muy activo en la visión por computador, el uso de redes neuronales convolucionales (CNN's) está recibiendo mucho interés actualmente, debido a los grandes resultados que estas técnicas están consiguiendo en tareas de reconocimiento i verificación facial en los últimos años. En esta tesis se realizará una mejora de una CNN aplicada a verificación facial en el contexto de un sistema de anotación de identidad no supervisado, el cual fue realizado para la tarea MediaEval 2016. Esta mejora será llevada a cabo re-entrenando la arquitectura neuronal de 2016 con imágenes de la base de datos de la tarea, lo cual ahora es posible ya que podemos usar los resultados del sistema del 2016, además de un método de data augmentation el cual se aplicará sobre estas imágenes obtenidas anteriormente. Además, se implementará un nuevo sistema multimodal de verificación fusionando los vectores de características obtenidos por los sistemas de video y audio. También se evaluaran los margenes de mejora que introducen estas técnicas, en comparación con el estado del arte. Por último, se exponen algunas conclusiones basadas en los resultados obtenidos junto con posibles líneas de trabajo futuras.
dc.description.abstractEn els sistemes de reconeixement d'identitat no supervisats, el qual és un camp d'investigació molt actiu en la visió per computador, l'ús de xarxes neuronals convolucionals (CNN's) està rebent molt interès actualment degut als grans resultats que aquestes tècniques están conseguint en tasques de reconeixement i verificació facial els últims anys. En aquesta tesi es realitzarà una millora d'una CNN aplicada a verificació facial en el context d'un sistema d'anotació d'identitat no supervisat, el qual ve ser realitzar per la tasca MediaEval 2016. Aquesta millora serà duta a terme re-entrenant l'arquitectura neuronal del 2016 amb imatges de la base de dades de la tasca, ara possible degut a que podem utilitzar els resultats del sistema del 2016, a més d'un mètode de data augmentation el qual és aplicat sobre aquestes imatges obtingudes anteriorment. A mes, s'implementarà un nou sistema multimodal de verificació fusionant els vectors de característiques obtinguts per els sistemes de video i audio. També s'avaluaran els marges de millora que introdueixen aquestes tècniques, en comparació amb l'estat de l'art. Per últim, s'exposen algunes conclusions basades en els resultats obtinguts junt amb posibles noves línies de treball.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshImage processing
dc.subject.lcshArtificial intelligence
dc.subject.lcshNeural networks (Computer science)
dc.subject.otherDeep learning
dc.subject.otherconvolutional neural networks
dc.subject.othervideo annotation
dc.subject.othertriplet neural network
dc.subject.otherface identification
dc.subject.otherface verification
dc.subject.otherredes neuronals convolucionales
dc.subject.otheranotación de video
dc.subject.otherredes neuronales triplet
dc.subject.otheridentificación facial
dc.subject.otherverificación facial
dc.subject.otherVisió per ordinador
dc.titleMultimodal Deep Learning methods for person annotation in video sequences
dc.typeBachelor thesis
dc.subject.lemacImatges -- Processament
dc.subject.lemacIntel·ligència artificial
dc.subject.lemacXarxes neuronals (Informàtica)
dc.identifier.slugETSETB-230.128461
dc.rights.accessOpen Access
dc.date.updated2017-07-17T05:51:03Z
dc.audience.educationlevelGrau
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degreeGRAU EN ENGINYERIA DE SISTEMES AUDIOVISUALS (Pla 2009)


Fitxers d'aquest items

Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple