Multimodal expression analysis
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/100633
Tipus de documentTreball Final de Grau
Data2017-01
Condicions d'accésAccés obert
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya
Abstract
El uso del reconocimiento de emociones ha ido en aumento en los últimos años, desde las redes sociales y los videojuegos a la investigación sobre la experiencia del cliente. Este hecho ha creado un interés en la comunidad para su investigación y desarrollo. Este trabajo se ha centrado en el estudio del uso de dos modalidades, habla y video, para entrenar una CNN para determinar una emoción de una secuencia de vídeo. Se ha tomado un enfoque de deep learning para las características de video y clasificadores clásicos para audio. El sistema ha sido entrenado principalmente con la base de datos AFEW lo que hace que adopte un enfoque adaptado al entorno real en lugar de un entorno de laboratorio. Esto hace que la detección de emociones sea más difícil debido a la cantidad de ruido en ambas modalidades. Se presentan tres sistemas con fusión multimodal a nivel de decisión, y dos sistemas a nivel de fusión de características. L'ús del reconeixement d'emocions ha anat en augment en els últims anys, des de les xarxes socials i els videojocs a la investigació sobre l'experiència del client. Aquest fet ha creat un interès en la comunitat per a la seva investigació i desenvolupament. Aquest treball s'ha centrat en l'estudi de l'ús de dues modalitats, parla i vídeo, per entrenar una CNN per determinar una emoció d'una seqüència de vídeo. S'ha pres un enfocament de deep learning per les característiques de i classificadors clàssics per àudio. El sistema ha estat entrenat principalment amb la base de dades AFEW el que fa que adopti un enfocament adaptat a l'entorn real en lloc d'un entorn de laboratori. Això fa que la detecció d'emocions sigui més difícil a causa de la quantitat de soroll en els dos modes. Es presenten tres sistemes amb fusió multimodal a nivell de decisió, i dos sistemes a nivell de fusió de característiques. The use for emotion recognition has been on the rise on the last few years, from social media and video games to the research on customer's experience. This fact has created an interest on the community for its research and development. This work has focused on the study of the use of two modalities, speech and video, to train a CNN to determine an emotion out of a video sequence. A deep learning approach has been used for video features and classical classifiers for audio. The system has been trained mainly with the AFEW database which makes it take an approach adapted to the real environment instead of a lab environment. This makes the emotion detection more challenging due to the amount of noise in both the modalities. Three systems are presented with multimodal fusion at decision level, and two systems at feature fusion level.
MatèriesNeural networks (Computer science), Machine Learning, Xarxes neuronals (Informàtica), Aprenentatge automàtic
TitulacióGRAU EN CIÈNCIES I TECNOLOGIES DE TELECOMUNICACIÓ (Pla 2010)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
Degree_Thesis_CAM.pdf | 1,393Mb | Visualitza/Obre |