Predicting emotion in movies: Recurrent and convolutional models applied to videos
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/112152
Realitzat a/ambTechnische Universität Wien
Tipus de documentTreball Final de Grau
Data2017
Condicions d'accésAccés obert
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya
Abstract
This Thesis explores different approaches using deep learning techniques to predict emotions in videos. Working with videos implies a huge amount of data including visual frames and acoustic samples. The first step of the project is basically to extract features to represent the videos in small sets of arrays. This procedure is done using pre-trained models based on Convolutional Networks, the state of the art in visual recognition. Firstly, visual features are extracted using 3D convolutions and acoustic features are extracted using VGG19, a pre-trained convolutional model for images fine-tuned to accept the audio inputs. Later, these features are fed into a Recurrent model capable of exploiting the temporal information. Emotions are measured in terms of valence and arousal, values between [-1, 1]. Additionally, the same techniques are also used to attempt to predict fear scenes. In consequence, this thesis deals with both regression and classification problems. Several architectures and different parameters have been tested in order to achieve the best performance. Finally, the results will be published in the MediaEval 2017 Challenge and compared to the state-of-the-art solutions. Esta tesis explora diferentes enfoques usando técnicas de aprendizaje profundo (deep learning) con el fin de predecir emociones en videos. Trabajar con videos implica grandes cantidades de datos incluyendo tanto los frames de los videos como las muestras de audio. El primer paso del proyecto es, básicamente, extraer características para representar dichos videos en pequeños grupos de vectores. Este procedimiento se lleva a cabo usando modelos pre-entrenados basados en Redes Convolucionales, modelos de vanguardia en el reconocimiento visual. Primero las características visuales se extraen usando convoluciones 3D y las características acústicas usando VGG19, un modelo convolucional pre-entrenado para imágenes y tuneado para soportar como entrada los audios. Después, estas características alimentarán un modelo recurrente que será capaz de explotar la información temporal. Las emociones son medidas en términos de valence y arousal, valores comprendidos entre [-1, 1]. Además, de forma adicional, también se usarán las mismas técnicas para intentar predecir escenas de miedo. Por esta razón, la presente tesis trata con problemas de regresión y clasificación. Varias arquitecturas y diferentes parámetros han sido probados con el fin de conseguir el mejor modelo. Finalmente, los resultados se publicarán en el reto de MediaEval 2017 y serán comparados con las soluciones de los últimos modelos de hoy en día. Aquesta tesi explora diferents tècniques d'aprenentatge profund (deep learning) amb la finalitat de predir emocions en vídeos. Treballar amb vídeos implica grans quantitats de dades incloent tant els frames dels vídeos com les mostres dels àudios. El primer pas del projecte és, bàsicament, extreure característiques per representar els vídeos en petits grups de vectors. Aquest procediment es duu a terme mitjançant models pre-entrenats basats en Xarxes Convolucionals, models punters en la detecció i reconeixement d'objectes. Primer les característiques visuals s'extreuen utilitzant convolucions 3D i les característiques acústiques utilitzant VGG19, un model convolucional pre-entrenat per imatges i tunejat per suportar entrades d'àudio. Després, aquestes característiques alimentaran un model recurrent que serà capaç d'explotar la informació temporal. Les emocions són mesurades en termes de valence i arousal, valors compresos entre [-1, 1]. A més a més, de forma addicional, també s'utilitzaran les mateixes tècniques per intentar predir escenes de por. Per aquesta raó, el present treball tracta amb problemes de regressió i classificació. Diverses arquitectures i diferents paràmetres han sigut provats amb la finalitat d'aconseguir el millor model. Finalment, els resultats seran publicats al repte de MediaEval 2017 i seran comparats amb les solucions dels últims models amb millor rendiment.
MatèriesMachine learning, Three-dimensional display systems, Aprenentatge automàtic, Visualització tridimensional (Informàtica)
TitulacióGRAU EN ENGINYERIA DE SISTEMES AUDIOVISUALS (Pla 2009)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
Report_OriolBernal.pdf | 3,046Mb | Visualitza/Obre |