Mostra el registre d'ítem simple

dc.contributorHernando Pericás, Francisco Javier
dc.contributorde Marsico, Maria
dc.contributor.authorGriera i Jiménez, Oriol
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2022-10-05T17:02:14Z
dc.date.available2022-10-05T17:02:14Z
dc.date.issued2022-07-14
dc.identifier.urihttp://hdl.handle.net/2117/374046
dc.description.abstractRecent advances in technology have allowed humans to interact with computers in ways previously unimaginable. Despite significant progress, a necessary element for natural interaction is still lacking: emotions. Emotions play an important role in human communication and interaction, allowing people to express themselves beyond the language domain. The purpose of this project is to develop a multimodal system to classify emotions using facial expressions and the voice taken from videos. For face emotion recognition, face images and optical flow frames are used to exploit spatial and temporal information of the videos. Regarding the voice, the model uses speech features extracted from the chunked audio signals to predict the emotion. The combination of the two biometrics with a score-level fusion achieves excellent performance on the RAVDESS and the BAUM-1 datasets. However, the results remark the importance of further investigating the preprocessing techniques applied in this work to "normalize" the datasets to a unified format to improve the cross-dataset performance.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació::Processament del senyal::Processament de la imatge i del senyal vídeo
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic
dc.subject.lcshComputer vision
dc.subject.lcshDeep learning
dc.subject.otherComputer Vision
dc.subject.otherDeep Learning
dc.subject.otherEmotion recognition
dc.titleMultimodal emotion recognition via face and voice
dc.title.alternativeMultimodal emotion recognition via face and voice
dc.typeMaster thesis
dc.subject.lemacVisió per ordinador
dc.subject.lemacAprenentatge profund
dc.identifier.slugETSETB-230.170960
dc.rights.accessOpen Access
dc.date.updated2022-10-05T05:50:57Z
dc.audience.educationlevelMàster
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degreeMÀSTER UNIVERSITARI EN ENGINYERIA DE TELECOMUNICACIÓ (Pla 2013)


Fitxers d'aquest items

Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple