Layer-wise CNN surgery for visual sentiment prediction

Campos Camúñez, Víctor

Visualitza/Obre

Victor_Campos-Final_report.pdf (1,508Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Campos Camúñez, Víctor

Tutor / directorGiró Nieto, Xavier

Tipus de documentTreball Final de Grau

Data2015-07

Condicions d'accésAccés obert

Attribution-NonCommercial-NoDerivs 3.0 Spain

Llevat que s'hi indiqui el contrari, els continguts d'aquesta obra estan subjectes a la llicència de Creative Commons : Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya

Abstract

Visual media are powerful means of expressing emotions and sentiments. The constant generation of new content in social networks highlights the need of automated visual sentiment analysis tools. While Convolutional Neural Networks (CNNs) have established a new state-of-the-art in several vision problems, their application to the task of sentiment analysis is mostly unexplored and there are few studies regarding how to design CNNs for this purpose. In this work, we study the suitability of fine-tuning a CNN for visual sentiment prediction as well as explore performance boosting techniques within this deep learning setting. Finally, we provide a deep-dive analysis into a benchmark, state-of-the-art network architecture to gain insight about how to design patterns for CNNs on the task of visual sentiment prediction.

Los contenidos audiovisuales son un medio muy poderoso para expresar emociones y sentimientos. La constante generación de nuevos contenidos en las redes sociales destaca la necesidad de disponer de herramientas capaces de realizar un análisis automático de sentimientos visuales. Mientras las Redes Neuronales Convolucionales (del inglés, CNNs) han establecido el estado del arte en numerosos problemas de visión, su aplicación a la anterior tarea permanece prácticamente inexplorada y se dispone de muy poco conocimiento sobre cómo diseñar CNNs para tal propósito. En este trabajo estudiamos la viabilidad de hacer fine-tuning sobre una CNN para la tarea de predicción de sentimientos visuales y exploramos técnicas de mejora de rendimiento de deep learning (aprendizaje profundo). Finalmente, desarrollamos un profundo análisis de la anterior arquitectura con el objetivo de entender mejor el diseño de CNNs para la tarea de predicción de sentimientos visuales.

Els continguts audiovisuals són un mitjà molt poderós per tal d’expressar emocions i sentiments. La contínua generació de nou contingut en les xarxes socials destaca la necessitat de disposar d’eines d’anàlisi automàtic de sentiments visuals. Mentre que les Xarxes Neuronal Convolucionals (de l’anglès, CNNs) han establert l’estat de l’art en nombrosos problemes de visió, la seva aplicació a l’anterior tasca roman pràcticament inexplorada i disposem de molt poc coneixement sobre com dissenyar CNNs per aquest propòsit. En aquest treball estudiem la viabilitat de fer fine-tuning sobre una CNN per predicció de sentiments visuals i explorem l’ús de tècniques de millora de rendiment deep learning (aprenentatge profund). Finalment, desenvolupem un profund anàlisi d’aquesta arquitectura per tal d’entendre millor el disseny de CNNs per la tasca de predicció de sentiments visuals.

Descripció

Investigate the potential of deep learning techniques in the field of computer vision applied to affective computing.

MatèriesComputer vision, Visió per ordinador

TitulacióGRAU EN CIÈNCIES I TECNOLOGIES DE TELECOMUNICACIÓ (Pla 2010)

URIhttp://hdl.handle.net/2117/78383

Col·leccions