Ir al contenido (pulsa Retorno)

Universitat Politècnica de Catalunya

    • Català
    • Castellano
    • English
    • LoginRegisterLog in (no UPC users)
  • mailContact Us
  • world English 
    • Català
    • Castellano
    • English
  • userLogin   
      LoginRegisterLog in (no UPC users)

UPCommons. Global access to UPC knowledge

Banner header
64.039 UPC academic works
You are here:
View Item 
  •   DSpace Home
  • Treballs acadèmics
  • Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
  • Grau en Enginyeria de Sistemes Audioviduals (Pla 2009)
  • View Item
  •   DSpace Home
  • Treballs acadèmics
  • Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
  • Grau en Enginyeria de Sistemes Audioviduals (Pla 2009)
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Fine-tuning a Convolutional Network for Cultural Even Recognition

Thumbnail
View/Open
Thesis_TFG_Andrea_Calafell.pdf (11,13Mb)
Share:
 
  View Usage Statistics
Cita com:
hdl:2117/78391

Show full item record
Calafell Orós, Andrea
Tutor / directorGiró Nieto, XavierMés informacióMés informació
Document typeBachelor thesis
Date2015
Rights accessOpen Access
Attribution-NonCommercial-NoDerivs 3.0 Spain
Except where otherwise noted, content on this work is licensed under a Creative Commons license : Attribution-NonCommercial-NoDerivs 3.0 Spain
Abstract
This thesis explores good practices for improving the performance of an existing convnet trained with a dataset of clean data when an additional dataset of noisy data is available. We develop techniques to clean the noisy data with the help of the clean one, a family of solutions that we will refer to as denoising, and then we explore the best sorting of the clean and noisy datasets during the fine-tuning of a convnet. Then we study strategies to select the subset of images of the clean data that will improve the classification performance, a practice we will efer to as fracking. Next, we determine how many layers are actually better to fine-tune in our convnet, given our amount of data. And finally, we compare the classic convnet architecture where a single network is fine-tuned to solve a multi-class problem with the case of fine-tuning a convnet for binary classification for each considered class.
 
Esta tesis explora varias prácticas para mejorar el rendimiento de una convnet entrenada con un dataset que contiene datos limpios, cuando tenemos disponible un dataset adicional con datos ruidosos. Desarrollamos técnicas para limpiar los datos ruidosos con ayuda de los limpios, una familia de soluciones a las que nos referiremos como denoising, y después exploramos la mejor manera de ordenar el dataset limpio y el ruidoso durante la afinación de una convnet. Después, estudiamos estrategias para seleccionar un conjunto de imágenes del dataset limpio con tal de mejorar el rendimiento de la convnet, una práctica a la que nos referiremos como fracking. A continuación, determinamos cuantas capas es mejor modificar durante la afinación en nuestra red, dada nuestra cantidad de imágenes. Finalmente, comparamos la estructura clásica de una convnet, donde una red es afinada para resolver un problema de varias clases, con el caso donde afinamos una red para hacer una clasificación binaria para cada clase.
 
Aquesta tesis explora diverses pràctiques per millorar el rendiment d'una convnet entrenada amb un dataset que conté dades netes, quan tenim disponible un dataset addicional amb dades sorolloses. Desenvolupem tècniques per netejar les dades sorolloses amb l'ajuda de les netes, una família de solucions a les que ens referirem com denoising, i desprès explorem la millor manera d'ordenar el dataset net i el sorollós durant l'afinació d'una convnet. Desprès, estudiem estratègies per seleccionar un conjunt d'imatges del dataset net per tal de millorar el rendiment de la convnet, una pràctica a la que ens referirem com a fracking. A continuació, determinem quantes capes és millor modificar durant l'afinació en la nostre xarxa, donada la nostre quantitat d'imatges. I finalment, comparem l'estructura clàssica d'una convnet, on una xarxa es afinada per a resoldre un problema de varies classes, amb el cas on afinem una xarxa per fer una classificació binaria per cada classe.
Description
Participation in the challenge "Cultural event classification" from ChaLearn. Teh description of teh challenge is the following: More than 10,000 images corresponding to 50 different cultural event categories will be considered. In all the categories, garments, human poses, objects and context will be possible cues to be exploited for recognizing the events, while preserving the inherent inter- and intra-class variability of this type of images. Examples of cultural events will be Carnival, Oktoberfest, San Fermin, Maha-Kumbh-Mela and Aoi-Matsuri, among others. More
SubjectsNeural networks (Computer science), Computer vision, Image processing, Xarxes neuronals (Informàtica), Visió per ordinador, Imatges -- Processament
DegreeGRAU EN ENGINYERIA DE SISTEMES AUDIOVISUALS (Pla 2009)
URIhttp://hdl.handle.net/2117/78391
Collections
  • Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona - Grau en Enginyeria de Sistemes Audioviduals (Pla 2009) [160]
Share:
 
  View Usage Statistics

Show full item record

FilesDescriptionSizeFormatView
Thesis_TFG_Andrea_Calafell.pdf11,13MbPDFView/Open

Browse

This CollectionBy Issue DateAuthorsOther contributionsTitlesSubjectsThis repositoryCommunities & CollectionsBy Issue DateAuthorsOther contributionsTitlesSubjects

© UPC Obrir en finestra nova . Servei de Biblioteques, Publicacions i Arxius

info.biblioteques@upc.edu

  • About This Repository
  • Contact Us
  • Send Feedback
  • Privacy Settings
  • Inici de la pàgina