Show simple item record

dc.contributorGiró Nieto, Xavier
dc.contributorSalvador Aguilera, Amaia
dc.contributor.authorMontes Gómez, Alberto
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2017-01-10T13:52:45Z
dc.date.available2017-01-10T13:52:45Z
dc.date.issued2016
dc.identifier.urihttp://hdl.handle.net/2117/98953
dc.descriptionThe student will solve in the ImageNet Object Detection from Video. There are 32 basic-level categories for this task, which is a subset of the 200 basic-level categories of the object detection task. The categories were carefully chosen considering different factors such as movement type, level of video clutterness, average number of object instance, and several others.
dc.description.abstractThis thesis explore different approaches using Convolutional and Recurrent Neural Networks to classify and temporally localize activities on videos, furthermore an implementation to achieve it has been proposed. As the first step, features have been extracted from video frames using an state of the art 3D Convolutional Neural Network. This features are fed in a recurrent neural network that solves the activity classification and temporally location tasks in a simple and flexible way. Different architectures and configurations have been tested in order to achieve the best performance and learning of the video dataset provided. In addition it has been studied different kind of post processing over the trained network's output to achieve a better results on the temporally localization of activities on the videos. The results provided by the neural network developed in this thesis have been submitted to the ActivityNet Challenge 2016 of the CVPR, achieving competitive results using a simple and flexible architecture.
dc.description.abstractEsta tesis explora diferentes enfoques usando Redes Neuronales Convolucionales y Redes Neuronales Recurrentes para clasificar y localizar temporalmente actividades en videos y propone una implementación propia. Como primer paso, se han extraido descriptores de videos usando Redes Neuronales Convolucionales 3D del estado del arte. Estos descriptores se introducen en una Red Neuronal Recurrente que resuelve la clasificación de actvidades y su localización temporal de una manera simple y flexible. Diferentes arquitecturas y configuraciones se han testeado con el objetivo de conseguir el mejor resultado y aprendizaje del conjunto de vídeos subministrado. Además, se han estudiado diferentes tipos de post procesado sobre la salida de la red entrenada para conseguir mejores resultados en la localización de actividades en los vídeos. Los resultados obtenidos por la red neuronal desarrollada en esta tesis han sido publicados en la ActivityNet Challenge 2016 del CVPR consiguiendo resultados competitivos con una simple y flexible arquitectura.
dc.description.abstractAquesta tesis explora diferents enfocaments utilitzant Xarxes Neuronals Convolucionals i Xarxes Neuronals Recurrents per classificar i localitzar temporalment activitats en videos i proposa una implementació pròpia. Com a primer pas, s'han extret descriptors de videos utilitzant Xarxes Neuronals Convolutionals 3D de l'estat de l'art. Aquests descriptors s'han introduït en una Xarxa Neuronal Recurren que resol la classificació d'activitats i la seva localització temporal d'una manera simple i flexible. Diferents arquitectures i configuracions han estat testejades amb l'objectiu d'aconseguir el millor resultat i aprenentatge del conjunt de videos subministrats. A més, s'ha estudiat diferents tipus de post processat sobre la sortida de la xarxa entrenada per aconseguir els millors resultats en la localització d'activitats en els videos. Els resultats obtinguts per la xarxa neuronal desenvolupada en aquesta tesis han estat publicats a la ActivityNet Challenge 2016 del CVPR aconseguint resultats competitius amb una simple i flexible arquitectura.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshNeural networks (Computer science)
dc.subject.lcshVideo recording
dc.subject.otherneural networks
dc.subject.otherdeep learning
dc.subject.otherredes neuronales
dc.subject.otherProcessadors neurals -- PFC
dc.subject.otherVídeo -- PFC
dc.subject.otherProcessadors neurals
dc.titleTemporal activity detection in untrimmed videos with recurrent neural networks
dc.title.alternativeDetección temporal de actividades en vídeos utilizando redes neuronales recurrentes
dc.title.alternativeDetecció temporal d'activitats en vídeos utilitzant xarxes neuronals recurrents
dc.typeBachelor thesis
dc.subject.lemacXarxes neuronals (Informàtica)
dc.subject.lemacVídeo
dc.identifier.slugETSETB-230.115707
dc.rights.accessOpen Access
dc.date.updated2016-07-20T05:54:33Z
dc.audience.educationlevelGrau
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Except where otherwise noted, content on this work is licensed under a Creative Commons license: Attribution-NonCommercial-NoDerivs 3.0 Spain