Multimodal expression analysis

Aguilera Martínez, Carlos

Visualitza/Obre

Degree_Thesis_CAM.pdf (1,393Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Aguilera Martínez, Carlos

Tutor / directorMorros Rubió, Josep Ramon

Tipus de documentTreball Final de Grau

Data2017-01

Condicions d'accésAccés obert

Attribution-NonCommercial-NoDerivs 3.0 Spain

Llevat que s'hi indiqui el contrari, els continguts d'aquesta obra estan subjectes a la llicència de Creative Commons : Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya

Abstract

El uso del reconocimiento de emociones ha ido en aumento en los últimos años, desde las redes sociales y los videojuegos a la investigación sobre la experiencia del cliente. Este hecho ha creado un interés en la comunidad para su investigación y desarrollo. Este trabajo se ha centrado en el estudio del uso de dos modalidades, habla y video, para entrenar una CNN para determinar una emoción de una secuencia de vídeo. Se ha tomado un enfoque de deep learning para las características de video y clasificadores clásicos para audio. El sistema ha sido entrenado principalmente con la base de datos AFEW lo que hace que adopte un enfoque adaptado al entorno real en lugar de un entorno de laboratorio. Esto hace que la detección de emociones sea más difícil debido a la cantidad de ruido en ambas modalidades. Se presentan tres sistemas con fusión multimodal a nivel de decisión, y dos sistemas a nivel de fusión de características.

L'ús del reconeixement d'emocions ha anat en augment en els últims anys, des de les xarxes socials i els videojocs a la investigació sobre l'experiència del client. Aquest fet ha creat un interès en la comunitat per a la seva investigació i desenvolupament. Aquest treball s'ha centrat en l'estudi de l'ús de dues modalitats, parla i vídeo, per entrenar una CNN per determinar una emoció d'una seqüència de vídeo. S'ha pres un enfocament de deep learning per les característiques de i classificadors clàssics per àudio. El sistema ha estat entrenat principalment amb la base de dades AFEW el que fa que adopti un enfocament adaptat a l'entorn real en lloc d'un entorn de laboratori. Això fa que la detecció d'emocions sigui més difícil a causa de la quantitat de soroll en els dos modes. Es presenten tres sistemes amb fusió multimodal a nivell de decisió, i dos sistemes a nivell de fusió de característiques.

The use for emotion recognition has been on the rise on the last few years, from social media and video games to the research on customer's experience. This fact has created an interest on the community for its research and development. This work has focused on the study of the use of two modalities, speech and video, to train a CNN to determine an emotion out of a video sequence. A deep learning approach has been used for video features and classical classifiers for audio. The system has been trained mainly with the AFEW database which makes it take an approach adapted to the real environment instead of a lab environment. This makes the emotion detection more challenging due to the amount of noise in both the modalities. Three systems are presented with multimodal fusion at decision level, and two systems at feature fusion level.

MatèriesNeural networks (Computer science), Machine Learning, Xarxes neuronals (Informàtica), Aprenentatge automàtic

TitulacióGRAU EN CIÈNCIES I TECNOLOGIES DE TELECOMUNICACIÓ (Pla 2010)

URIhttp://hdl.handle.net/2117/100633

Col·leccions

Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona - Grau en Ciències i Tecnologies de la Telecomunicació (Pla 2010) [186]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
Degree_Thesis_CAM.pdf		1,393Mb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Multimodal expression analysis

Visualitza/Obre

Explora