Show simple item record

dc.contributorMorros Rubió, Josep Ramon
dc.contributor.authorAguilera Martínez, Carlos
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2017-02-07T13:05:00Z
dc.date.available2017-02-07T13:05:00Z
dc.date.issued2017-01
dc.identifier.urihttp://hdl.handle.net/2117/100633
dc.description.abstractEl uso del reconocimiento de emociones ha ido en aumento en los últimos años, desde las redes sociales y los videojuegos a la investigación sobre la experiencia del cliente. Este hecho ha creado un interés en la comunidad para su investigación y desarrollo. Este trabajo se ha centrado en el estudio del uso de dos modalidades, habla y video, para entrenar una CNN para determinar una emoción de una secuencia de vídeo. Se ha tomado un enfoque de deep learning para las características de video y clasificadores clásicos para audio. El sistema ha sido entrenado principalmente con la base de datos AFEW lo que hace que adopte un enfoque adaptado al entorno real en lugar de un entorno de laboratorio. Esto hace que la detección de emociones sea más difícil debido a la cantidad de ruido en ambas modalidades. Se presentan tres sistemas con fusión multimodal a nivel de decisión, y dos sistemas a nivel de fusión de características.
dc.description.abstractL'ús del reconeixement d'emocions ha anat en augment en els últims anys, des de les xarxes socials i els videojocs a la investigació sobre l'experiència del client. Aquest fet ha creat un interès en la comunitat per a la seva investigació i desenvolupament. Aquest treball s'ha centrat en l'estudi de l'ús de dues modalitats, parla i vídeo, per entrenar una CNN per determinar una emoció d'una seqüència de vídeo. S'ha pres un enfocament de deep learning per les característiques de i classificadors clàssics per àudio. El sistema ha estat entrenat principalment amb la base de dades AFEW el que fa que adopti un enfocament adaptat a l'entorn real en lloc d'un entorn de laboratori. Això fa que la detecció d'emocions sigui més difícil a causa de la quantitat de soroll en els dos modes. Es presenten tres sistemes amb fusió multimodal a nivell de decisió, i dos sistemes a nivell de fusió de característiques.
dc.description.abstractThe use for emotion recognition has been on the rise on the last few years, from social media and video games to the research on customer's experience. This fact has created an interest on the community for its research and development. This work has focused on the study of the use of two modalities, speech and video, to train a CNN to determine an emotion out of a video sequence. A deep learning approach has been used for video features and classical classifiers for audio. The system has been trained mainly with the AFEW database which makes it take an approach adapted to the real environment instead of a lab environment. This makes the emotion detection more challenging due to the amount of noise in both the modalities. Three systems are presented with multimodal fusion at decision level, and two systems at feature fusion level.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshNeural networks (Computer science)
dc.subject.lcshMachine Learning
dc.subject.otherEmotion recognition
dc.subject.otherDeep learning
dc.subject.otherCNN
dc.subject.otherReconociemiento de emociones
dc.subject.otherRedes convolucionales
dc.titleMultimodal expression analysis
dc.title.alternativeAnálisis multimodal de expresiones
dc.title.alternativeAnàlisi multimodal d'expressions
dc.typeBachelor thesis
dc.subject.lemacXarxes neuronals (Informàtica)
dc.subject.lemacAprenentatge automàtic
dc.identifier.slugETSETB-230.123371
dc.rights.accessOpen Access
dc.date.updated2017-02-01T06:50:49Z
dc.audience.educationlevelGrau
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Spain
Except where otherwise noted, content on this work is licensed under a Creative Commons license : Attribution-NonCommercial-NoDerivs 3.0 Spain