Mètodes Deep learning per a l'anotació de persones en seqüències de vídeo
Tipus de documentTreball Final de Grau
Data2016-06
Condicions d'accésAccés obert
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya
Abstract
In the recent years, the demand for unsupervised annotation tools to annotate and classify large audiovisual datasets has grown considerably. One of these tasks is concretely addressed on TV broadcast videos, to determine who and when appears in a video sequence. This work is aimed on exploring deep learning methods for face feature extraction and the implementation of a verification system in order to boost the performance of person recognition tasks. A comparison between different identification methods that have been developed during this project is made, with the aim of evaluating their performance and to conclude which ones are the best. Finally, a comparison between the results obtained with this system and the one proposed by the 2015 UPC System Mediaeval Multimodal Person in Discovery TV Broadcast is done. Achieving a performance boost up to 5.8% in terms of Mean Average Precision. En los últimos años ha aparecido la necesidad de disponer de herramientas de anotación no supervisada para clasificar y anotar grandes conjuntos de datos audiovisuales. Una de estas tareas recae en anotar secuencias de video de TV para determinar quién y cuando aparece en un vídeo. Este trabajo se centra en explorar sistemas de extracción de características basados en técnicas de deep learning i la implementación de un sistema de verificación para mejorar estas tareas de anotación. En el transcurso del proyecto se realiza una comparativa de las diferentes metodologías de anotación que se han desarrollado con el objetivo de evaluar su rendimiento y acabar seleccionando las mejores Finalmente se termina comparando los resultados del sistema final con la propuesta de UPC System for the 2015 Mediaeval Multimodal Person Discovery in Broadcast TV task obteniendo una mejora superior al 5,8% en términos de Mean Average Precision. En els darrers anys ha aparegut la necessitat de disposar d’eines d’anotació no
supervisada per tal de classificar i anotar grans conjunts de dades audiovisuals. Una
d’aquestes tasques recau en anotar seqüencies de vídeo de TV per tal de determinar qui
i quan apareix en un vídeo.
Aquest treball es centra en explorar sistemes d’extracció de característiques basats en
tècniques de deep learning i la implementació d’un sistema de verificació per tal de
millorar aquestes tasques d’anotació.
En el transcurs del projecte es realitza una comparativa de les diferents metodologies
d’anotació que s’han desenvolupat amb l’objectiu d’avaluar-ne el rendiment i acabar
seleccionant-ne les millors
Finalment s’acaba comparant els resultats del sistema final amb la proposta de UPC
System for the 2015 MediaEval Multimodal Person Discovery in Broadcast TV task,
obtenint una millora superior al 5,8% en termes de Mean Average Precision.
MatèriesNeural networks (Computer science), Computer vision, Video recording, Xarxes neuronals (Informàtica), Visió per ordinador, Vídeo
TitulacióGRAU EN CIÈNCIES I TECNOLOGIES DE TELECOMUNICACIÓ (Pla 2010)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
Codi TFG.zip | 50,83Kb | application/zip | Visualitza/Obre | |
TFG.pdf | 1,672Mb | Visualitza/Obre | ||
TFG.pdf | 1,672Mb | Visualitza/Obre |