Mostra el registre d'ítem simple
Temporal activity detection in untrimmed videos with recurrent neural networks
dc.contributor | Giró Nieto, Xavier |
dc.contributor | Salvador Aguilera, Amaia |
dc.contributor.author | Montes Gómez, Alberto |
dc.contributor.other | Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions |
dc.date.accessioned | 2017-01-10T13:52:45Z |
dc.date.available | 2017-01-10T13:52:45Z |
dc.date.issued | 2016 |
dc.identifier.uri | http://hdl.handle.net/2117/98953 |
dc.description | The student will solve in the ImageNet Object Detection from Video. There are 32 basic-level categories for this task, which is a subset of the 200 basic-level categories of the object detection task. The categories were carefully chosen considering different factors such as movement type, level of video clutterness, average number of object instance, and several others. |
dc.description.abstract | This thesis explore different approaches using Convolutional and Recurrent Neural Networks to classify and temporally localize activities on videos, furthermore an implementation to achieve it has been proposed. As the first step, features have been extracted from video frames using an state of the art 3D Convolutional Neural Network. This features are fed in a recurrent neural network that solves the activity classification and temporally location tasks in a simple and flexible way. Different architectures and configurations have been tested in order to achieve the best performance and learning of the video dataset provided. In addition it has been studied different kind of post processing over the trained network's output to achieve a better results on the temporally localization of activities on the videos. The results provided by the neural network developed in this thesis have been submitted to the ActivityNet Challenge 2016 of the CVPR, achieving competitive results using a simple and flexible architecture. |
dc.description.abstract | Esta tesis explora diferentes enfoques usando Redes Neuronales Convolucionales y Redes Neuronales Recurrentes para clasificar y localizar temporalmente actividades en videos y propone una implementación propia. Como primer paso, se han extraido descriptores de videos usando Redes Neuronales Convolucionales 3D del estado del arte. Estos descriptores se introducen en una Red Neuronal Recurrente que resuelve la clasificación de actvidades y su localización temporal de una manera simple y flexible. Diferentes arquitecturas y configuraciones se han testeado con el objetivo de conseguir el mejor resultado y aprendizaje del conjunto de vídeos subministrado. Además, se han estudiado diferentes tipos de post procesado sobre la salida de la red entrenada para conseguir mejores resultados en la localización de actividades en los vídeos. Los resultados obtenidos por la red neuronal desarrollada en esta tesis han sido publicados en la ActivityNet Challenge 2016 del CVPR consiguiendo resultados competitivos con una simple y flexible arquitectura. |
dc.description.abstract | Aquesta tesis explora diferents enfocaments utilitzant Xarxes Neuronals Convolucionals i Xarxes Neuronals Recurrents per classificar i localitzar temporalment activitats en videos i proposa una implementació pròpia. Com a primer pas, s'han extret descriptors de videos utilitzant Xarxes Neuronals Convolutionals 3D de l'estat de l'art. Aquests descriptors s'han introduït en una Xarxa Neuronal Recurren que resol la classificació d'activitats i la seva localització temporal d'una manera simple i flexible. Diferents arquitectures i configuracions han estat testejades amb l'objectiu d'aconseguir el millor resultat i aprenentatge del conjunt de videos subministrats. A més, s'ha estudiat diferents tipus de post processat sobre la sortida de la xarxa entrenada per aconseguir els millors resultats en la localització d'activitats en els videos. Els resultats obtinguts per la xarxa neuronal desenvolupada en aquesta tesis han estat publicats a la ActivityNet Challenge 2016 del CVPR aconseguint resultats competitius amb una simple i flexible arquitectura. |
dc.language.iso | eng |
dc.publisher | Universitat Politècnica de Catalunya |
dc.rights | S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada' |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/es/ |
dc.subject | Àrees temàtiques de la UPC::Enginyeria de la telecomunicació |
dc.subject.lcsh | Neural networks (Computer science) |
dc.subject.lcsh | Video recording |
dc.subject.other | neural networks |
dc.subject.other | deep learning |
dc.subject.other | redes neuronales |
dc.subject.other | Processadors neurals -- PFC |
dc.subject.other | Vídeo -- PFC |
dc.subject.other | Processadors neurals |
dc.title | Temporal activity detection in untrimmed videos with recurrent neural networks |
dc.title.alternative | Detección temporal de actividades en vídeos utilizando redes neuronales recurrentes |
dc.title.alternative | Detecció temporal d'activitats en vídeos utilitzant xarxes neuronals recurrents |
dc.type | Bachelor thesis |
dc.subject.lemac | Xarxes neuronals (Informàtica) |
dc.subject.lemac | Vídeo |
dc.identifier.slug | ETSETB-230.115707 |
dc.rights.access | Open Access |
dc.date.updated | 2016-07-20T05:54:33Z |
dc.audience.educationlevel | Grau |
dc.audience.mediator | Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona |
dc.audience.degree | GRAU EN CIÈNCIES I TECNOLOGIES DE TELECOMUNICACIÓ (Pla 2010) |