Visual Question Answering 2.0
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/109752
Tipus de documentTreball Final de Grau
Data2017
Condicions d'accésAccés obert
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya
Abstract
This bachelor's thesis explores different deep learning techniques to solve the Visual Question-Answering (VQA) task, whose aim is to answer questions about images. We study different Convolutional Neural Networks (CNN) to extract the visual representation from images: Kernelized-CNN (KCNN), VGG-16 and Residual Networks (ResNet). We also analyze the impact of using pre-computed word embeddings trained in large datasets (GloVe embeddings). Moreover, we examine different techniques of joining representations from different modalities. This work has been submitted to the second edition Visual Question Answering Challenge, and obtained a 43.48\% of accuracy. Esta tesis explora diferentes técnicas de aprendizaje profundo (deep learning) para solucionar la tarea de Respuestas a Preguntas Visuales , que tiene como finalidad responder preguntas sobre imágenes. Estudiamos diferentes redes convolucionales (CNN - \textit{Convolutional Neural Networks}) para extraer la representación visual de las imágenes: Kernelized-CNN (KCNN), VGG-16 y Residual Networks (ResNet). También analizamos el impacto de utilizar \textit{embeddings} precomputados que han sido entrenados en bases de datos más grandes (GloVe \textit{embeddings}). Asimismo, examinamos diferentes técnicas para combinar vectores de datos de diferentes modalidades. Este trabajo ha sido presentado a la segunda edición del Visual Question Answering Challenge y ha obtenido un 43.48\% de exactitud. Aquest treball de fi de grau explora diferents tècniques d'aprenentatge profund (deep learning) per a solucionar la tasca de Respostes a Preguntes Visual (Visual Question-Answering), que té com a finalitat respondre preguntes sobre imatges. Estudiem differents xarxes convolucionals (CNN - \textit{Convolutional Neural Networks}) per extreure la representació visual de les images: Kernelized-CNN (KCNN), VGG-16 i Residual Networks (ResNet). També analitzem l'impacte d'utilitzar \textit{embeddings} pre-calculats que han estat entrenats amb bases de dades més grans (GloVe \textit{embeddings}). També examinem diferents tècniques per a combinar vectors de dades de diferents modalitats. Aquesta feina ha estat presentada a la segona edició del Visual Question Answering Challenge i ha obtingut un 43.48\% d'exactitud.
MatèriesImage processing, Natural language processing (Computer science), Artificial intelligence, Imatges -- Processament, Tractament del llenguatge natural (Informàtica), Intel·ligència artificial
TitulacióGRAU EN ENGINYERIA DE SISTEMES AUDIOVISUALS (Pla 2009)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
VQA.pdf | 2,593Mb | Visualitza/Obre |