Class-Weighted convolutional features for image retrieval

Jiménez Sanfiz, Albert

dc.contributor	Giró Nieto, Xavier
dc.contributor.author	Jiménez Sanfiz, Albert
dc.date.accessioned	2017-09-16T06:41:45Z
dc.date.available	2017-09-16T06:41:45Z
dc.date.issued	2017-07
dc.identifier.uri	http://hdl.handle.net/2117/107693
dc.description	The details of the work will be defined once the student reaches the destination institution.
dc.description.abstract	Image retrieval in realistic scenarios targets large dynamic datasets of unlabeled images. In these cases, training or fine-tuning a model every time new images are added to the database is neither efficient nor scalable. Convolutional Neural Networks trained for image classification over large datasets have been proven effective feature extractors when transferred to the task of image retrieval. The most successful approaches are based in encoding the activations of convolutional layers as they convey the image spatial information. Our proposal goes beyond and aims at a local-aware encoding of these features depending on the predicted image semantics, with the advantage of using only of the knowledge contained inside the network. In particular, we employ Class Activation Maps (CAMs) to obtain the most discriminative regions of the image from a semantic perspective. Additionally, CAMs are also used to generate object proposals during an unsupervised re-ranking stage after a first fast search. Our experiments on two public available datasets for instance retrieval, Oxford5k and Paris6k, demonstrate that our system is competitive and even outperforms the current state-of-the-art when using off-the-shelf models trained on the object classes of ImageNet.
dc.description.abstract	La búsqueda de imágenes en escenarios realistas, se realiza sobre bases de datos dinámicas, dónde las imágenes no están etiquetadas. En estos casos, entrenar o tunear un modelo cada vez que se añaden nuevas imágenes, no es ni eficiente ni escalable. Las redes neuronales convolucionales entrenadas con un gran volumen de imágenes para la tarea de clasificación han demostrado ser buenas extractoras de características cuando se transfieren a la tarea de búsqueda de imágenes similares. Las técnicas más exitosas están basadas en codificar las activaciones de capas convolucionales, porqué en ellas está contenida la información espacial de la imagen. Nuestra propuesta va más allá, y tiene la intención de codificar estas activaciones dependiendo del contenido semántico (clases) predecidas por la red. Todo esto utilizando sólo el conocimiento incluido dentro de la red. En particular, hacemos uso de Class Activation Maps (CAMs) para obtener las regiones más discriminativas de la imagen según una perspectiva semántica. Adicionalmente, las CAMs son utilizadas para generar propuestas de objetos durante una etapa de re-ranking no supervisado que tiene lugar después de una primera búsqueda rápida. Nuestros experimentos realizados en dos bases de datos públicamente disponibles, Oxford5k y Paris6k, demuestran que el sistema es competitivo y que incluso supera el estado del arte cuando se utilizan modelos pre-entrenados con ImageNet.
dc.description.abstract	La cerca d’imatges en escenaris realistes, es realitza sobre bases de dades dinàmiques on les imatges no estan etiquetades. En aquests casos, entrenar o tunejar un model cada vegada que noves imatges són afegides a la base de dades, no és ni eficient ni escalable. Les xarxes neuronals convolucionals entrenades amb un gran volum d’imatges per la tasca de classificació han demostrat ser bones extractores de característiques quan es transfereixen a la tasca de cercar imatges similars. Les tècniques proposades amb més èxit, estan basades en codificar les activacions de capes convolucionals, perquè en elles està continguda la informació espacial de la imatge. La nostra proposta va més enllà, i té la intenció de codificar aquestes activacions depenent del contingut semàntic (classes) predites per la xarxa. Tot això, utilitzant només el coneixement inclòs a la xarxa. En particular, fem servir Class Activation Maps (CAMs) per obtenir les regions més discriminatives de la imatge segons una perspectiva semàntica. Addicionalment, les CAMs són utilitzades per generar propostes d’objectes durant una etapa de re-ranking no supervisat que té lloc després d’una primera cerca ràpida. Els nostres experiments realitzats en dos bases de dades públicament disponibles, Oxford5k i Paris6k, demostren que el nostre sistema és competitiu i que inclús supera l’estat de l’art quan s’utilitzen models pre-entrenats amb ImageNet.
dc.language.iso	eng
dc.publisher	Universitat Politècnica de Catalunya
dc.rights	S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject	Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcsh	Neural networks (Computer science)
dc.subject.lcsh	Machine Learning
dc.subject.other	Image Retrieval
dc.subject.other	Visual Instance Search
dc.subject.other	Deep Learning
dc.subject.other	Convolutional Neural Networks
dc.subject.other	Transfer Learning.
dc.subject.other	Búsqueda de Imágenes
dc.subject.other	Recuperación de Imágenes Similares
dc.subject.other	Aprendizaje Profundo
dc.subject.other	Redes Neuronales Convolucionales
dc.subject.other	Transferencia de Conocimiento.
dc.title	Class-Weighted convolutional features for image retrieval
dc.type	Master thesis
dc.subject.lemac	Xarxes neuronals (Informàtica)
dc.subject.lemac	Aprenentatge automàtic
dc.identifier.slug	ETSETB-230.127225
dc.rights.access	Open Access
dc.date.updated	2017-07-31T05:51:24Z
dc.audience.educationlevel	Estudis de primer/segon cicle
dc.audience.mediator	Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degree	MÀSTER UNIVERSITARI EN ENGINYERIA DE TELECOMUNICACIÓ (Pla 2013)
dc.contributor.covenantee	NICTA

Fitxers d'aquest items

Nom:: tfm.pdf
Mida:: 11,83Mb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Master's degree in Telecommunications Engineering (MET) [393]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Class-Weighted convolutional features for image retrieval

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora