Mostra el registre d'ítem simple
Visual saliency prediction using deep learning techniques
dc.contributor | Giró Nieto, Xavier |
dc.contributor.author | Pan, Junting |
dc.contributor.other | Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions |
dc.date.accessioned | 2015-10-28T13:17:43Z |
dc.date.available | 2015-10-28T13:17:43Z |
dc.date.issued | 2015-07 |
dc.identifier.uri | http://hdl.handle.net/2117/78419 |
dc.description | The goal of this thesis is the exploration of interactive object segmentation by applying convolutional neural networks to noisy human traces. |
dc.description.abstract | A saliency map is a model that predicts eye fixations on a visual scene. In other words, it is the prediction of saliency areas in images has been traditionally addressed with hand crafted features inspired on neuroscience principles. This work however addresses the problem with a completely data-driven approach by training a convolutional network. The recent publication of large datasets of saliency prediction has provided enough data to train a not very deep network architecture which is both fast and accurate. In our system, named JuntingNet, the learning process is formulated as a minimization of a loss function that measures the Euclidean distance of the predicted saliency map with the provided ground truth. The convolutional network developed in this work, named JuntingNet, won the CVPR Large-scale Scene UNderstanding (LSUN) 2015 challenge on saliency prediction with a superior performance in all considered metrics. |
dc.description.abstract | Un mapa de prominencia es un modelo que explica los puntos de fijación de los ojos en una escena visual. Tradicionalmente este problema se ha resuelto con descriptores visuales diseñados manualmente inspirados principios de la neurociencia. Este trabajo, en cambio, se plantea el problema desde un punto de vista puramente basado en datos, que entrenan una red convolucional. La reciente publicación de gran volumen de mapas de prominencia ha hecho posible el entrenamiento de una red convolucional no muy profunda. En la red diseñada, el proceso de aprendizaje se formula como la minimización de una función de coste que mide la distancia euclidiana entre el mapa de prominencia y su verdad terreno. La red covolucional desarrollado en este trabajo, llamada JuntingNet, se impuso en la categoría de predicción de prominencia en el concurso CVPR Large-scale Scene UNderstanding (LSUN) 2015, con unos resultados claramente superiores en todas las métricas consideradas. |
dc.description.abstract | Un mapa de prominència és un model que prediu els punts de fixació dels ulls en una escena visual. Tradicionalment, aquest problema s'ha resolt amb descriptors visuals dissenyats manualment inspirats en principis de la neurociència. Aquest treball, en canvi, es planteja el problema desde d'un punt de vista purament basat en dades, que entrenen una xarxa convolucional. La recent publicació d'un gran volum de mapes de prominència ha fet possible l'entrenament d'una xarxa convolucional no gaire profunda. A la xarxa dissenyada, el procés d'aprenentatge es formula com la minimització d'una funció de cost que mesura la distància euclidiana entre el mapa predit i la seva veritat terreny. La xarxa convolucional desenvolupada en aquest treball, anomenada JuntingNet, es va imposar en la categoria de predicció de prominència en el concurs CVPR Large-scale Scene UNderstanding (LSUN) 2015, amb uns resultats clarament superiors en totes les mètriques considereades. |
dc.language.iso | eng |
dc.publisher | Universitat Politècnica de Catalunya |
dc.rights | S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada' |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
dc.subject | Àrees temàtiques de la UPC::Enginyeria de la telecomunicació |
dc.subject.lcsh | Computer vision |
dc.subject.lcsh | Neural networks (Computer science) |
dc.subject.other | Deep learning |
dc.subject.other | CNN |
dc.subject.other | Sliency |
dc.title | Visual saliency prediction using deep learning techniques |
dc.type | Bachelor thesis |
dc.subject.lemac | Visió per ordinador |
dc.subject.lemac | Xarxes neuronals (Informàtica) |
dc.identifier.slug | ETSETB-230.109588 |
dc.rights.access | Open Access |
dc.date.updated | 2015-09-21T12:26:56Z |
dc.audience.educationlevel | Grau |
dc.audience.mediator | Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona |
dc.audience.degree | GRAU EN CIÈNCIES I TECNOLOGIES DE TELECOMUNICACIÓ (Pla 2010) |