Show simple item record

dc.contributorGiró Nieto, Xavier
dc.contributor.authorJiménez Sanfiz, Albert
dc.date.accessioned2017-09-16T06:41:45Z
dc.date.available2017-09-16T06:41:45Z
dc.date.issued2017-07
dc.identifier.urihttp://hdl.handle.net/2117/107693
dc.descriptionThe details of the work will be defined once the student reaches the destination institution.
dc.description.abstractImage retrieval in realistic scenarios targets large dynamic datasets of unlabeled images. In these cases, training or fine-tuning a model every time new images are added to the database is neither efficient nor scalable. Convolutional Neural Networks trained for image classification over large datasets have been proven effective feature extractors when transferred to the task of image retrieval. The most successful approaches are based in encoding the activations of convolutional layers as they convey the image spatial information. Our proposal goes beyond and aims at a local-aware encoding of these features depending on the predicted image semantics, with the advantage of using only of the knowledge contained inside the network. In particular, we employ Class Activation Maps (CAMs) to obtain the most discriminative regions of the image from a semantic perspective. Additionally, CAMs are also used to generate object proposals during an unsupervised re-ranking stage after a first fast search. Our experiments on two public available datasets for instance retrieval, Oxford5k and Paris6k, demonstrate that our system is competitive and even outperforms the current state-of-the-art when using off-the-shelf models trained on the object classes of ImageNet.
dc.description.abstractLa búsqueda de imágenes en escenarios realistas, se realiza sobre bases de datos dinámicas, dónde las imágenes no están etiquetadas. En estos casos, entrenar o tunear un modelo cada vez que se añaden nuevas imágenes, no es ni eficiente ni escalable. Las redes neuronales convolucionales entrenadas con un gran volumen de imágenes para la tarea de clasificación han demostrado ser buenas extractoras de características cuando se transfieren a la tarea de búsqueda de imágenes similares. Las técnicas más exitosas están basadas en codificar las activaciones de capas convolucionales, porqué en ellas está contenida la información espacial de la imagen. Nuestra propuesta va más allá, y tiene la intención de codificar estas activaciones dependiendo del contenido semántico (clases) predecidas por la red. Todo esto utilizando sólo el conocimiento incluido dentro de la red. En particular, hacemos uso de Class Activation Maps (CAMs) para obtener las regiones más discriminativas de la imagen según una perspectiva semántica. Adicionalmente, las CAMs son utilizadas para generar propuestas de objetos durante una etapa de re-ranking no supervisado que tiene lugar después de una primera búsqueda rápida. Nuestros experimentos realizados en dos bases de datos públicamente disponibles, Oxford5k y Paris6k, demuestran que el sistema es competitivo y que incluso supera el estado del arte cuando se utilizan modelos pre-entrenados con ImageNet.
dc.description.abstractLa cerca d’imatges en escenaris realistes, es realitza sobre bases de dades dinàmiques on les imatges no estan etiquetades. En aquests casos, entrenar o tunejar un model cada vegada que noves imatges són afegides a la base de dades, no és ni eficient ni escalable. Les xarxes neuronals convolucionals entrenades amb un gran volum d’imatges per la tasca de classificació han demostrat ser bones extractores de característiques quan es transfereixen a la tasca de cercar imatges similars. Les tècniques proposades amb més èxit, estan basades en codificar les activacions de capes convolucionals, perquè en elles està continguda la informació espacial de la imatge. La nostra proposta va més enllà, i té la intenció de codificar aquestes activacions depenent del contingut semàntic (classes) predites per la xarxa. Tot això, utilitzant només el coneixement inclòs a la xarxa. En particular, fem servir Class Activation Maps (CAMs) per obtenir les regions més discriminatives de la imatge segons una perspectiva semàntica. Addicionalment, les CAMs són utilitzades per generar propostes d’objectes durant una etapa de re-ranking no supervisat que té lloc després d’una primera cerca ràpida. Els nostres experiments realitzats en dos bases de dades públicament disponibles, Oxford5k i Paris6k, demostren que el nostre sistema és competitiu i que inclús supera l’estat de l’art quan s’utilitzen models pre-entrenats amb ImageNet.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshNeural networks (Computer science)
dc.subject.lcshMachine Learning
dc.subject.otherImage Retrieval
dc.subject.otherVisual Instance Search
dc.subject.otherDeep Learning
dc.subject.otherConvolutional Neural Networks
dc.subject.otherTransfer Learning.
dc.subject.otherBúsqueda de Imágenes
dc.subject.otherRecuperación de Imágenes Similares
dc.subject.otherAprendizaje Profundo
dc.subject.otherRedes Neuronales Convolucionales
dc.subject.otherTransferencia de Conocimiento.
dc.titleClass-Weighted convolutional features for image retrieval
dc.typeMaster thesis
dc.subject.lemacXarxes neuronals (Informàtica)
dc.subject.lemacAprenentatge automàtic
dc.identifier.slugETSETB-230.127225
dc.rights.accessOpen Access
dc.date.updated2017-07-31T05:51:24Z
dc.audience.educationlevelEstudis de primer/segon cicle
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.contributor.covenanteeNICTA


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Except where otherwise noted, content on this work is licensed under a Creative Commons license: Attribution-NonCommercial-NoDerivs 3.0 Spain