Fine-tuning a Convolutional Network for Cultural Even Recognition

Calafell Orós, Andrea

dc.contributor	Giró Nieto, Xavier
dc.contributor.author	Calafell Orós, Andrea
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned	2015-10-28T08:49:06Z
dc.date.available	2015-10-28T08:49:06Z
dc.date.issued	2015
dc.identifier.uri	http://hdl.handle.net/2117/78391
dc.description	Participation in the challenge "Cultural event classification" from ChaLearn. Teh description of teh challenge is the following: More than 10,000 images corresponding to 50 different cultural event categories will be considered. In all the categories, garments, human poses, objects and context will be possible cues to be exploited for recognizing the events, while preserving the inherent inter- and intra-class variability of this type of images. Examples of cultural events will be Carnival, Oktoberfest, San Fermin, Maha-Kumbh-Mela and Aoi-Matsuri, among others. More
dc.description.abstract	This thesis explores good practices for improving the performance of an existing convnet trained with a dataset of clean data when an additional dataset of noisy data is available. We develop techniques to clean the noisy data with the help of the clean one, a family of solutions that we will refer to as denoising, and then we explore the best sorting of the clean and noisy datasets during the fine-tuning of a convnet. Then we study strategies to select the subset of images of the clean data that will improve the classification performance, a practice we will efer to as fracking. Next, we determine how many layers are actually better to fine-tune in our convnet, given our amount of data. And finally, we compare the classic convnet architecture where a single network is fine-tuned to solve a multi-class problem with the case of fine-tuning a convnet for binary classification for each considered class.
dc.description.abstract	Esta tesis explora varias prácticas para mejorar el rendimiento de una convnet entrenada con un dataset que contiene datos limpios, cuando tenemos disponible un dataset adicional con datos ruidosos. Desarrollamos técnicas para limpiar los datos ruidosos con ayuda de los limpios, una familia de soluciones a las que nos referiremos como denoising, y después exploramos la mejor manera de ordenar el dataset limpio y el ruidoso durante la afinación de una convnet. Después, estudiamos estrategias para seleccionar un conjunto de imágenes del dataset limpio con tal de mejorar el rendimiento de la convnet, una práctica a la que nos referiremos como fracking. A continuación, determinamos cuantas capas es mejor modificar durante la afinación en nuestra red, dada nuestra cantidad de imágenes. Finalmente, comparamos la estructura clásica de una convnet, donde una red es afinada para resolver un problema de varias clases, con el caso donde afinamos una red para hacer una clasificación binaria para cada clase.
dc.description.abstract	Aquesta tesis explora diverses pràctiques per millorar el rendiment d'una convnet entrenada amb un dataset que conté dades netes, quan tenim disponible un dataset addicional amb dades sorolloses. Desenvolupem tècniques per netejar les dades sorolloses amb l'ajuda de les netes, una família de solucions a les que ens referirem com denoising, i desprès explorem la millor manera d'ordenar el dataset net i el sorollós durant l'afinació d'una convnet. Desprès, estudiem estratègies per seleccionar un conjunt d'imatges del dataset net per tal de millorar el rendiment de la convnet, una pràctica a la que ens referirem com a fracking. A continuació, determinem quantes capes és millor modificar durant l'afinació en la nostre xarxa, donada la nostre quantitat d'imatges. I finalment, comparem l'estructura clàssica d'una convnet, on una xarxa es afinada per a resoldre un problema de varies classes, amb el cas on afinem una xarxa per fer una classificació binaria per cada classe.
dc.language.iso	eng
dc.publisher	Universitat Politècnica de Catalunya
dc.rights	S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject	Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial
dc.subject.lcsh	Neural networks (Computer science)
dc.subject.lcsh	Computer vision
dc.subject.lcsh	Image processing
dc.subject.other	procesamiento imagen
dc.subject.other	redes neuronales
dc.subject.other	vision por ordenador
dc.title	Fine-tuning a Convolutional Network for Cultural Even Recognition
dc.title.alternative	Afinación de una red convolucional para reconocer eventos culturales
dc.title.alternative	Afinació d'una xarxa convolucional per a reconeixer esdeveniments culturals
dc.type	Bachelor thesis
dc.subject.lemac	Xarxes neuronals (Informàtica)
dc.subject.lemac	Visió per ordinador
dc.subject.lemac	Imatges -- Processament
dc.identifier.slug	ETSETB-230.108633
dc.rights.access	Open Access
dc.date.updated	2015-08-05T05:53:10Z
dc.audience.educationlevel	Grau
dc.audience.mediator	Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degree	GRAU EN ENGINYERIA DE SISTEMES AUDIOVISUALS (Pla 2009)

Fitxers d'aquest items

Nom:: Thesis_TFG_Andrea_Calafell.pdf
Mida:: 11,13Mb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Grau en Enginyeria de Sistemes Audioviduals (Pla 2009) [160]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Fine-tuning a Convolutional Network for Cultural Even Recognition

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora