Class-Weighted convolutional features for image retrieval

Jiménez Sanfiz, Albert

Visualitza/Obre

tfm.pdf (11,83Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Jiménez Sanfiz, Albert

Tutor / directorGiró Nieto, Xavier

Realitzat a/ambNICTA

Tipus de documentProjecte Final de Màster Oficial

Data2017-07

Condicions d'accésAccés obert

Attribution-NonCommercial-NoDerivs 3.0 Spain

Llevat que s'hi indiqui el contrari, els continguts d'aquesta obra estan subjectes a la llicència de Creative Commons : Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya

Abstract

Image retrieval in realistic scenarios targets large dynamic datasets of unlabeled images. In these cases, training or fine-tuning a model every time new images are added to the database is neither efficient nor scalable. Convolutional Neural Networks trained for image classification over large datasets have been proven effective feature extractors when transferred to the task of image retrieval. The most successful approaches are based in encoding the activations of convolutional layers as they convey the image spatial information. Our proposal goes beyond and aims at a local-aware encoding of these features depending on the predicted image semantics, with the advantage of using only of the knowledge contained inside the network. In particular, we employ Class Activation Maps (CAMs) to obtain the most discriminative regions of the image from a semantic perspective. Additionally, CAMs are also used to generate object proposals during an unsupervised re-ranking stage after a first fast search. Our experiments on two public available datasets for instance retrieval, Oxford5k and Paris6k, demonstrate that our system is competitive and even outperforms the current state-of-the-art when using off-the-shelf models trained on the object classes of ImageNet.

La búsqueda de imágenes en escenarios realistas, se realiza sobre bases de datos dinámicas, dónde las imágenes no están etiquetadas. En estos casos, entrenar o tunear un modelo cada vez que se añaden nuevas imágenes, no es ni eficiente ni escalable. Las redes neuronales convolucionales entrenadas con un gran volumen de imágenes para la tarea de clasificación han demostrado ser buenas extractoras de características cuando se transfieren a la tarea de búsqueda de imágenes similares. Las técnicas más exitosas están basadas en codificar las activaciones de capas convolucionales, porqué en ellas está contenida la información espacial de la imagen. Nuestra propuesta va más allá, y tiene la intención de codificar estas activaciones dependiendo del contenido semántico (clases) predecidas por la red. Todo esto utilizando sólo el conocimiento incluido dentro de la red. En particular, hacemos uso de Class Activation Maps (CAMs) para obtener las regiones más discriminativas de la imagen según una perspectiva semántica. Adicionalmente, las CAMs son utilizadas para generar propuestas de objetos durante una etapa de re-ranking no supervisado que tiene lugar después de una primera búsqueda rápida. Nuestros experimentos realizados en dos bases de datos públicamente disponibles, Oxford5k y Paris6k, demuestran que el sistema es competitivo y que incluso supera el estado del arte cuando se utilizan modelos pre-entrenados con ImageNet.

La cerca d’imatges en escenaris realistes, es realitza sobre bases de dades dinàmiques on les imatges no estan etiquetades. En aquests casos, entrenar o tunejar un model cada vegada que noves imatges són afegides a la base de dades, no és ni eficient ni escalable. Les xarxes neuronals convolucionals entrenades amb un gran volum d’imatges per la tasca de classificació han demostrat ser bones extractores de característiques quan es transfereixen a la tasca de cercar imatges similars. Les tècniques proposades amb més èxit, estan basades en codificar les activacions de capes convolucionals, perquè en elles està continguda la informació espacial de la imatge. La nostra proposta va més enllà, i té la intenció de codificar aquestes activacions depenent del contingut semàntic (classes) predites per la xarxa. Tot això, utilitzant només el coneixement inclòs a la xarxa. En particular, fem servir Class Activation Maps (CAMs) per obtenir les regions més discriminatives de la imatge segons una perspectiva semàntica. Addicionalment, les CAMs són utilitzades per generar propostes d’objectes durant una etapa de re-ranking no supervisat que té lloc després d’una primera cerca ràpida. Els nostres experiments realitzats en dos bases de dades públicament disponibles, Oxford5k i Paris6k, demostren que el nostre sistema és competitiu i que inclús supera l’estat de l’art quan s’utilitzen models pre-entrenats amb ImageNet.

Descripció

The details of the work will be defined once the student reaches the destination institution.

MatèriesNeural networks (Computer science), Machine Learning, Xarxes neuronals (Informàtica), Aprenentatge automàtic

TitulacióMÀSTER UNIVERSITARI EN ENGINYERIA DE TELECOMUNICACIÓ (Pla 2013)

URIhttp://hdl.handle.net/2117/107693

Col·leccions