Show simple item record

dc.contributorZaharieva, Maia
dc.contributorGiró Nieto, Xavier
dc.contributor.authorBernal Poch, Oriol
dc.date.accessioned2017-12-15T12:05:59Z
dc.date.available2017-12-15T12:05:59Z
dc.date.issued2017
dc.identifier.urihttp://hdl.handle.net/2117/112152
dc.description.abstractThis Thesis explores different approaches using deep learning techniques to predict emotions in videos. Working with videos implies a huge amount of data including visual frames and acoustic samples. The first step of the project is basically to extract features to represent the videos in small sets of arrays. This procedure is done using pre-trained models based on Convolutional Networks, the state of the art in visual recognition. Firstly, visual features are extracted using 3D convolutions and acoustic features are extracted using VGG19, a pre-trained convolutional model for images fine-tuned to accept the audio inputs. Later, these features are fed into a Recurrent model capable of exploiting the temporal information. Emotions are measured in terms of valence and arousal, values between [-1, 1]. Additionally, the same techniques are also used to attempt to predict fear scenes. In consequence, this thesis deals with both regression and classification problems. Several architectures and different parameters have been tested in order to achieve the best performance. Finally, the results will be published in the MediaEval 2017 Challenge and compared to the state-of-the-art solutions.
dc.description.abstractEsta tesis explora diferentes enfoques usando técnicas de aprendizaje profundo (deep learning) con el fin de predecir emociones en videos. Trabajar con videos implica grandes cantidades de datos incluyendo tanto los frames de los videos como las muestras de audio. El primer paso del proyecto es, básicamente, extraer características para representar dichos videos en pequeños grupos de vectores. Este procedimiento se lleva a cabo usando modelos pre-entrenados basados en Redes Convolucionales, modelos de vanguardia en el reconocimiento visual. Primero las características visuales se extraen usando convoluciones 3D y las características acústicas usando VGG19, un modelo convolucional pre-entrenado para imágenes y tuneado para soportar como entrada los audios. Después, estas características alimentarán un modelo recurrente que será capaz de explotar la información temporal. Las emociones son medidas en términos de valence y arousal, valores comprendidos entre [-1, 1]. Además, de forma adicional, también se usarán las mismas técnicas para intentar predecir escenas de miedo. Por esta razón, la presente tesis trata con problemas de regresión y clasificación. Varias arquitecturas y diferentes parámetros han sido probados con el fin de conseguir el mejor modelo. Finalmente, los resultados se publicarán en el reto de MediaEval 2017 y serán comparados con las soluciones de los últimos modelos de hoy en día.
dc.description.abstractAquesta tesi explora diferents tècniques d'aprenentatge profund (deep learning) amb la finalitat de predir emocions en vídeos. Treballar amb vídeos implica grans quantitats de dades incloent tant els frames dels vídeos com les mostres dels àudios. El primer pas del projecte és, bàsicament, extreure característiques per representar els vídeos en petits grups de vectors. Aquest procediment es duu a terme mitjançant models pre-entrenats basats en Xarxes Convolucionals, models punters en la detecció i reconeixement d'objectes. Primer les característiques visuals s'extreuen utilitzant convolucions 3D i les característiques acústiques utilitzant VGG19, un model convolucional pre-entrenat per imatges i tunejat per suportar entrades d'àudio. Després, aquestes característiques alimentaran un model recurrent que serà capaç d'explotar la informació temporal. Les emocions són mesurades en termes de valence i arousal, valors compresos entre [-1, 1]. A més a més, de forma addicional, també s'utilitzaran les mateixes tècniques per intentar predir escenes de por. Per aquesta raó, el present treball tracta amb problemes de regressió i classificació. Diverses arquitectures i diferents paràmetres han sigut provats amb la finalitat d'aconseguir el millor model. Finalment, els resultats seran publicats al repte de MediaEval 2017 i seran comparats amb les solucions dels últims models amb millor rendiment.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshMachine learning
dc.subject.lcshThree-dimensional display systems
dc.subject.otherdeep learning
dc.subject.otheraprendizaje profundo
dc.titlePredicting emotion in movies: Recurrent and convolutional models applied to videos
dc.title.alternativePrediciendo emociones en películas: modelos recurrentes y convolucionales aplicados a vídeos
dc.title.alternativePredir emocions a pel·lícules: models recurrents i convolucionals aplicats a vídeos
dc.typeBachelor thesis
dc.subject.lemacAprenentatge automàtic
dc.subject.lemacVisualització tridimensional (Informàtica)
dc.identifier.slugETSETB-230.126913
dc.rights.accessOpen Access
dc.date.updated2017-07-19T05:51:25Z
dc.audience.educationlevelGrau
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degreeGRAU EN ENGINYERIA DE SISTEMES AUDIOVISUALS (Pla 2009)
dc.contributor.covenanteeTechnische Universität Wien


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Spain
Except where otherwise noted, content on this work is licensed under a Creative Commons license : Attribution-NonCommercial-NoDerivs 3.0 Spain