Frames in places: visual common sense knowledge in context
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/87825
Realitzat a/ambMassachusetts Institute of Technology
Tipus de documentTreball Final de Grau
Data2016-05-26
Condicions d'accésAccés obert
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
Abstract
One of the goals of Computer Vision is to be able to understand real-world situations at the level humans can do. In order to adapt to a constantly changing world, we use common sense to comprehend and react to events even if we have never experienced them before. Despite progress made in many Computer Vision tasks, a deeper level of visual understanding still needs to be addressed in order to reach these capabilities. In this work, we propose Frames in Places, a dataset inspired by Minsky's Frame Theory which is aimed at harvesting visual common sense knowledge by containing descriptors of situations that are prototypical for a context. We further introduce a system designed to identify the situation happening in a given image and show how it is able to recognize events even when it has not seen them before. Uno de los objetivos de la Visión por Computador es poder entender situaciones reales al nivel de los humanos. Para poder adaptarnos a un mundo en constante cambio, usamos el sentido común para a entender y reaccionar a eventos incluso cuando nunca antes los hemos experimentado. A pesar del progreso que se ha dado en muchos problemas en Visión por Computador, aún es necesario trabajar en un nivel de comprensión más profundo para poder llegar a estas capacidades. En este trabajo proponemos Frames in Places, una base de datos inspirada en la Teoría de Frames de Minsky cuyo objetivo es almacenar sentido común visual mediante descriptores sobre situaciones que son prototípicas en un contexto dado. Posteriormente, introducimos un sistema diseñado para reconocer estas situaciones en una imagen dada y demostramos como el sistema es capaz de identificar situaciones incluso cuando no han sido vistas anteriormente. Un dels objectius de la Visió per Computador es poder entendre situacions reals al nivell dels humans. Per tal d’adaptar-nos a un m ́on en constant canvi, utilitzem el sentit comú per a entendre i reaccionar a esdeveniments fins i tot quan no els hem experimentat abans. Malgrat el progrés que s’ha donat en moltes tasques en Visió per Computador, encara és necessari adreçar un nivell de comprensió més profund per tal d’arribar a aquestes capacitats. En aquest treball, proposem Frames in Places, una base de dades inspirada en la Teoria de Frames de Minsky que té com a objectiu emmagatzemar sentit comú visual mitjançant de- scriptors sobre situacions que son prototípiques en un context donat. Posteriorment, introduim un sistema dissenyat per a identificar la situaci ́o que es dona en una imatge donada i demostrem com el sistema es capaç d’identificar situacions fins i tot quan no han sigut vistes abans.
TitulacióGRAU EN CIÈNCIES I TECNOLOGIES DE TELECOMUNICACIÓ (Pla 2010)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
memoria_final.pdf | 14,15Mb | Visualitza/Obre |