Visual Question Answering 2.0

Roldán Sánchez, Francisco

Visualitza/Obre

VQA.pdf (2,593Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Roldán Sánchez, Francisco

Tutor / directorGiró Nieto, Xavier

Tipus de documentTreball Final de Grau

Data2017

Condicions d'accésAccés obert

Attribution-NonCommercial-NoDerivs 3.0 Spain

Llevat que s'hi indiqui el contrari, els continguts d'aquesta obra estan subjectes a la llicència de Creative Commons : Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya

Abstract

This bachelor's thesis explores different deep learning techniques to solve the Visual Question-Answering (VQA) task, whose aim is to answer questions about images. We study different Convolutional Neural Networks (CNN) to extract the visual representation from images: Kernelized-CNN (KCNN), VGG-16 and Residual Networks (ResNet). We also analyze the impact of using pre-computed word embeddings trained in large datasets (GloVe embeddings). Moreover, we examine different techniques of joining representations from different modalities. This work has been submitted to the second edition Visual Question Answering Challenge, and obtained a 43.48\% of accuracy.

Esta tesis explora diferentes técnicas de aprendizaje profundo (deep learning) para solucionar la tarea de Respuestas a Preguntas Visuales , que tiene como finalidad responder preguntas sobre imágenes. Estudiamos diferentes redes convolucionales (CNN - \textit{Convolutional Neural Networks}) para extraer la representación visual de las imágenes: Kernelized-CNN (KCNN), VGG-16 y Residual Networks (ResNet). También analizamos el impacto de utilizar \textit{embeddings} precomputados que han sido entrenados en bases de datos más grandes (GloVe \textit{embeddings}). Asimismo, examinamos diferentes técnicas para combinar vectores de datos de diferentes modalidades. Este trabajo ha sido presentado a la segunda edición del Visual Question Answering Challenge y ha obtenido un 43.48\% de exactitud.

Aquest treball de fi de grau explora diferents tècniques d'aprenentatge profund (deep learning) per a solucionar la tasca de Respostes a Preguntes Visual (Visual Question-Answering), que té com a finalitat respondre preguntes sobre imatges. Estudiem differents xarxes convolucionals (CNN - \textit{Convolutional Neural Networks}) per extreure la representació visual de les images: Kernelized-CNN (KCNN), VGG-16 i Residual Networks (ResNet). També analitzem l'impacte d'utilitzar \textit{embeddings} pre-calculats que han estat entrenats amb bases de dades més grans (GloVe \textit{embeddings}). També examinem diferents tècniques per a combinar vectors de dades de diferents modalitats. Aquesta feina ha estat presentada a la segona edició del Visual Question Answering Challenge i ha obtingut un 43.48\% d'exactitud.

MatèriesImage processing, Natural language processing (Computer science), Artificial intelligence, Imatges -- Processament, Tractament del llenguatge natural (Informàtica), Intel·ligència artificial

TitulacióGRAU EN ENGINYERIA DE SISTEMES AUDIOVISUALS (Pla 2009)

URIhttp://hdl.handle.net/2117/109752

Col·leccions

Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona - Grau en Enginyeria de Sistemes Audioviduals (Pla 2009) [160]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
VQA.pdf		2,593Mb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Visual Question Answering 2.0

Visualitza/Obre

Explora