Mostra el registre d'ítem simple

dc.contributorGiró Nieto, Xavier
dc.contributor.authorPan, Junting
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2015-10-28T13:17:43Z
dc.date.available2015-10-28T13:17:43Z
dc.date.issued2015-07
dc.identifier.urihttp://hdl.handle.net/2117/78419
dc.descriptionThe goal of this thesis is the exploration of interactive object segmentation by applying convolutional neural networks to noisy human traces.
dc.description.abstractA saliency map is a model that predicts eye fixations on a visual scene. In other words, it is the prediction of saliency areas in images has been traditionally addressed with hand crafted features inspired on neuroscience principles. This work however addresses the problem with a completely data-driven approach by training a convolutional network. The recent publication of large datasets of saliency prediction has provided enough data to train a not very deep network architecture which is both fast and accurate. In our system, named JuntingNet, the learning process is formulated as a minimization of a loss function that measures the Euclidean distance of the predicted saliency map with the provided ground truth. The convolutional network developed in this work, named JuntingNet, won the CVPR Large-scale Scene UNderstanding (LSUN) 2015 challenge on saliency prediction with a superior performance in all considered metrics.
dc.description.abstractUn mapa de prominencia es un modelo que explica los puntos de fijación de los ojos en una escena visual. Tradicionalmente este problema se ha resuelto con descriptores visuales diseñados manualmente inspirados principios de la neurociencia. Este trabajo, en cambio, se plantea el problema desde un punto de vista puramente basado en datos, que entrenan una red convolucional. La reciente publicación de gran volumen de mapas de prominencia ha hecho posible el entrenamiento de una red convolucional no muy profunda. En la red diseñada, el proceso de aprendizaje se formula como la minimización de una función de coste que mide la distancia euclidiana entre el mapa de prominencia y su verdad terreno. La red covolucional desarrollado en este trabajo, llamada JuntingNet, se impuso en la categoría de predicción de prominencia en el concurso CVPR Large-scale Scene UNderstanding (LSUN) 2015, con unos resultados claramente superiores en todas las métricas consideradas.
dc.description.abstractUn mapa de prominència és un model que prediu els punts de fixació dels ulls en una escena visual. Tradicionalment, aquest problema s'ha resolt amb descriptors visuals dissenyats manualment inspirats en principis de la neurociència. Aquest treball, en canvi, es planteja el problema desde d'un punt de vista purament basat en dades, que entrenen una xarxa convolucional. La recent publicació d'un gran volum de mapes de prominència ha fet possible l'entrenament d'una xarxa convolucional no gaire profunda. A la xarxa dissenyada, el procés d'aprenentatge es formula com la minimització d'una funció de cost que mesura la distància euclidiana entre el mapa predit i la seva veritat terreny. La xarxa convolucional desenvolupada en aquest treball, anomenada JuntingNet, es va imposar en la categoria de predicció de prominència en el concurs CVPR Large-scale Scene UNderstanding (LSUN) 2015, amb uns resultats clarament superiors en totes les mètriques considereades.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshComputer vision
dc.subject.lcshNeural networks (Computer science)
dc.subject.otherDeep learning
dc.subject.otherCNN
dc.subject.otherSliency
dc.titleVisual saliency prediction using deep learning techniques
dc.typeBachelor thesis
dc.subject.lemacVisió per ordinador
dc.subject.lemacXarxes neuronals (Informàtica)
dc.identifier.slugETSETB-230.109588
dc.rights.accessOpen Access
dc.date.updated2015-09-21T12:26:56Z
dc.audience.educationlevelGrau
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degreeGRAU EN CIÈNCIES I TECNOLOGIES DE TELECOMUNICACIÓ (Pla 2010)


Fitxers d'aquest items

Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple