Ir al contenido (pulsa Retorno)

Universitat Politècnica de Catalunya

    • Català
    • Castellano
    • English
    • LoginRegisterLog in (no UPC users)
  • mailContact Us
  • world English 
    • Català
    • Castellano
    • English
  • userLogin   
      LoginRegisterLog in (no UPC users)

UPCommons. Global access to UPC knowledge

63.180 UPC academic works
You are here:
View Item 
  •   DSpace Home
  • Treballs acadèmics
  • Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
  • Enginyeria de Telecomunicació (Pla 1992)
  • View Item
  •   DSpace Home
  • Treballs acadèmics
  • Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
  • Enginyeria de Telecomunicació (Pla 1992)
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Vision and language: from visual question answering to domain-invariant representations

Thumbnail
View/Open
memoria.pdf (1,002Mb) (Restricted access)
Share:
 
  View Usage Statistics
Cita com:
hdl:2099.1/26249

Show full item record
Castrejón Subira, Lluis Enric
Tutor / directorTorralba, Antonio; Alarcón Cot, Eduardo JoséMés informacióMés informacióMés informació
CovenanteeMassachusetts Institute of Technology
Document typeMaster thesis (pre-Bologna period)
Date2015-05-18
Rights accessRestricted access - author's decision
All rights reserved. This work is protected by the corresponding intellectual and industrial property rights. Without prejudice to any existing legal exemptions, reproduction, distribution, public communication or transformation of this work are prohibited without permission of the copyright holder
Abstract
[ANGLÈS] The field of computer vision has radically evolved in the last few years due to the success of deep artificial neural networks. Current models have achieved remarkable performance in hallmark vision tasks such as object and scene recognition, and scientists have begun to approach new high-level problems with promising initial results. This project focuses on tasks at the intersection of vision and language, traditionally very distinct Artificial Intelligence fields. In first place, we present an overview of the most widely employed machine learning techniques in computer vision and natural language processing, including Support Vector Machines, Convolutional Neural Networks and Recurrent Neural Networks. A general understanding of these algorithms is needed to comprehend the rest of the project. Secondly, we focus on answering natural language questions about images. A successful solution to this task would allow search engines to retrieve images more effectively, as they would understand which pictures are relevant to complex natural language queries. Chapter \ref{chapter:question_answering} describes the problem in more detail and analyzes the strengths and weaknesses of our proposed solution. We then approach the problem of learning a common representation for language and images that preserves semantic meaning. In such feature space, sentences and pictures depicting similar concepts and scenes would have close encodings. From a practical point of view, it is a useful problem as we could train machine learning models for a given task using language and subsequently use them for vision and vice versa. However, it is also interesting from a theoretical view since it can give insights on how people mix concepts from different domains. Finally, we wrap up our project by summing up its key points while pointing out the future research directions in which the presented ideas, currently at an early stage of development, could be expanded.
 
[CASTELLÀ] El campo de la visión por ordenador ha evolucionado radicalmente en los últimos años debido al éxito de las redes neuronales artificiales. Los modelos acutales han conseguido un rendimiento extraordinario en tareas clásicas de visión como reconocimiento de objetos y escenas, y la comunidad científica ha empezado a tratar nuevos problemas de alto nivel con resultados iniciales esperanzadores. Este proyecto se centra en tareas a la intersección de la visión y el lenguaje, tradicionalmente dos campos muy distintos de la Inteligencia Artificial. En primer lugar presentamos un resumen de las técnicas de aprendizaje autónomo más utilizadas en visión por ordenador y procesado del lenguaje natural, incluyendo Support Vector Machines, Convolutional Neural Networks y Recurrent Neural Networks. En segundo lugar, nos centramos en la tarea de contestar preguntas en lenguaje natural sobre imágenes. Una solución exitosa a este problema permitiría a los buscadores de imágenes funcionar más efectivamente, pues serían capaces de filtrar imágenes según criterios de búsqueda complejos expresados en lenguaje natural. El capítulo 3 describe el problema con más detalle y analiza las fortalezas e inconvenientes de la solución propuesta. Después tratamos el problema de aprender una representación comuna para imágenes y lenguaje que preserve el significado semántico. En un espacio así, frases e imágenes referidas a conceptos similares tendrían representaciones parecidas. Desde un punto de vista práctico es un problema útil, pues permitiría entrenar modelos a partir de lenguaje y usarlos con imágenes, y a la inversa. También es interesante desde el punto de vista de la ciencia cognitiva, pues daría ideas sobre cómo las persones son capaces de asociar conceptos de distintos dominios. Finalmente hacemos un resumen de las contribuciones más importantes de este proyecto a la vez que presentamos futuras direcciones de investigación para expandir las ideas presentadas.
 
[CATALÀ] El camp de visió per ordinador ha evolucionat radicalment en els últims anys degut a l’èxit de les xarxes neuronals artificials. Els models actuals han obtingut un gran rendiment en tasques clàssiques de visió com reconeixement d’objectes o escenes, i la comunitat científica ha començat a tractar nous problemes d’alt nivell amb esperançadors resultats inicials. Aquest projecte se centra en tasques a la intersecció entre visió i llenguatge, dos camps tradicionalment molt diferents d’Intel·ligència Artificial. En primer lloc, presentem un resum de les tècniques d’aprenentatge autònom més utilitzades en visió per computador i processament del llenguatge natural, incloent Support Vector Machines, Convolutional Neural Networks i Recurrent Neural Networks. En segon lloc ens centrem en la tasca de contestar preguntes en llenguatge natural sobre imatges. Una solució exitosa a aquest problema permetria als cercadors d’imatges oferir resultats més adequats, ja que serien capaços de filtrar les imatges que es corresponen a un criteri de cerca expressat en llenguatge natural. El capítol 3 descriu el problema amb més detall i analitza les fortaleses i inconvenients de la solució que en proposem. Després tractem el problema de trobar una representació comuna per llenguatge i visió que preservi el significat semàntic. En aquest espai, frases i imatges referides a conceptes similars tindrien una representació molt propera. Des d’un punt de vista pràctic és un problema amb utilitat ja que podríem entrenar models a partir de llenguatge que funcionessin per imatges i a l’inrevés. També és interessant, però, des del punt de vista de la ciència cognitiva, doncs pot donar idees sobre com els humans som capaços d’associar conceptes que provenen de diferents dominis. Finalment, resumim el projecte i les seves principals contribucions a la vegada que indiquem futures direccions de recerca per expandir les idees tractades.
SubjectsComputer vision, Visió per ordinador
DegreeENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)
URIhttp://hdl.handle.net/2099.1/26249
Collections
  • Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona - Enginyeria de Telecomunicació (Pla 1992) [1.590]
Share:
 
  View Usage Statistics

Show full item record

FilesDescriptionSizeFormatView
memoria.pdfBlocked1,002MbPDFRestricted access

Browse

This CollectionBy Issue DateAuthorsOther contributionsTitlesSubjectsThis repositoryCommunities & CollectionsBy Issue DateAuthorsOther contributionsTitlesSubjects

© UPC Obrir en finestra nova . Servei de Biblioteques, Publicacions i Arxius

info.biblioteques@upc.edu

  • About This Repository
  • Contact Us
  • Send Feedback
  • Inici de la pàgina