Frames in places: visual common sense knowledge in context

Puig Fernández, Xavier

Visualitza/Obre

memoria_final.pdf (14,15Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Puig Fernández, Xavier

Tutor / directorMarqués Acosta, Fernando

; Torralba, Antonio

Realitzat a/ambMassachusetts Institute of Technology

Tipus de documentTreball Final de Grau

Data2016-05-26

Condicions d'accésAccés obert

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets

Abstract

One of the goals of Computer Vision is to be able to understand real-world situations at the level humans can do. In order to adapt to a constantly changing world, we use common sense to comprehend and react to events even if we have never experienced them before. Despite progress made in many Computer Vision tasks, a deeper level of visual understanding still needs to be addressed in order to reach these capabilities. In this work, we propose Frames in Places, a dataset inspired by Minsky's Frame Theory which is aimed at harvesting visual common sense knowledge by containing descriptors of situations that are prototypical for a context. We further introduce a system designed to identify the situation happening in a given image and show how it is able to recognize events even when it has not seen them before.

Uno de los objetivos de la Visión por Computador es poder entender situaciones reales al nivel de los humanos. Para poder adaptarnos a un mundo en constante cambio, usamos el sentido común para a entender y reaccionar a eventos incluso cuando nunca antes los hemos experimentado. A pesar del progreso que se ha dado en muchos problemas en Visión por Computador, aún es necesario trabajar en un nivel de comprensión más profundo para poder llegar a estas capacidades. En este trabajo proponemos Frames in Places, una base de datos inspirada en la Teoría de Frames de Minsky cuyo objetivo es almacenar sentido común visual mediante descriptores sobre situaciones que son prototípicas en un contexto dado. Posteriormente, introducimos un sistema diseñado para reconocer estas situaciones en una imagen dada y demostramos como el sistema es capaz de identificar situaciones incluso cuando no han sido vistas anteriormente.

Un dels objectius de la Visió per Computador es poder entendre situacions reals al nivell dels humans. Per tal d’adaptar-nos a un m ́on en constant canvi, utilitzem el sentit comú per a entendre i reaccionar a esdeveniments fins i tot quan no els hem experimentat abans. Malgrat el progrés que s’ha donat en moltes tasques en Visió per Computador, encara és necessari adreçar un nivell de comprensió més profund per tal d’arribar a aquestes capacitats. En aquest treball, proposem Frames in Places, una base de dades inspirada en la Teoria de Frames de Minsky que té com a objectiu emmagatzemar sentit comú visual mitjançant de- scriptors sobre situacions que son prototípiques en un context donat. Posteriorment, introduim un sistema dissenyat per a identificar la situaci ́o que es dona en una imatge donada i demostrem com el sistema es capaç d’identificar situacions fins i tot quan no han sigut vistes abans.

MatèriesComputer vision, Visió per ordinador

TitulacióGRAU EN CIÈNCIES I TECNOLOGIES DE TELECOMUNICACIÓ (Pla 2010)

URIhttp://hdl.handle.net/2117/87825

Col·leccions

Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona - Grau en Ciències i Tecnologies de la Telecomunicació (Pla 2010) [186]

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
memoria_final.pdf		14,15Mb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Frames in places: visual common sense knowledge in context

Visualitza/Obre

Explora