Content-based Video Summarization in Object Maps
Cita com:
hdl:2099.1/19359
CovenanteeTechnische Universität Wien
Document typeMaster thesis (pre-Bologna period)
Date2013-09-10
Rights accessOpen Access
Except where otherwise noted, content on this work
is licensed under a Creative Commons license
:
Attribution-NonCommercial-NoDerivs 3.0 Spain
Abstract
[ANGLÈS] The amount of digital video content available in the web is constantly increasing. Its handling requires efficient technologies: text search on large databases provides users a great amount of videos; the content results are accessible by a description. Users need a fast and visual way to access relevant video content effectively. Quick visualisation of content using static image summarisation is a sophisticated problem. However, it is worth it because it may solve video navigation problems. Users can very rapidly get an idea of the video with no need to browse through it with a sliding bar as normally done. In this work a system for automatic video summarisation is developed. It creates an object map the segments of which are extracted from an input video. It allows enhancing video browsing and large video databases management generating a visual index so that the user can rapidly grasp the most relevant content. Finally, accessing them with a simple action requires several technologies that define a complex information processing. Firstly, shot boundary detection algorithms are required to reduce time redundancy of the video. Secondly, different relevant objects are extracted from each keyframe (faces, cars, etc.). We also describe a workflow to train detection models using multiple open source solutions. Furthermore, faces are a particular and very relevant semantic class. For this reason, we use clustering methods in order to recognise them in an unsupervised recognition process. The image composition of all selected objects and faces is the final stage of the architecture. Composition is defined as the combination of distinct parts to form a whole, therefore, objects have to be rendered in the map in a visually attractive manner. To validate our approach and assess end-user satisfaction, we conducted a user study in which we compare requirements collected by analysing related literature. We analyse redundancy and informativeness as well as pleasantness. The results show that our approach effectively creates an image representation for videos and is able to summarise customisable content in an attractive way. [CASTELLÀ] La cantidad de contenido de vídeo digital disponible en la web está incrementando constantemente. Su manipulación requiere de tecnologías eficientes: las búsquedas textuales sobre grandes bases de datos dan acceso a una gran cantidad vídeos y son accesibles mediante una descripción. Los usuarios necesitan una manera visual y rápida de acceder al contenido relevante del vídeo eficientemente. Una rápida visualización de contenido utilizando métodos de resumen basados en imágenes estáticas es un problema complicado. Además, se pueden solventar problemas de navegación temporal por el vídeo. Los usuarios pueden tener una idea del contenido del vídeo rápidamente sin tener que visualizarlo. En este proyecto se desarrolla un sistema de resumen automático de vídeos. El sistema crea un "object map" el contenido visual del cual ha sido extraído del vídeo de entrada. Permite una mejora en la navegación temporal con un simple clic así como también para la administración de grandes bases de datos generando un índice visual con el cual el usuario puede comprender el vídeo. Este proyecto requiere diversas tecnologías que definen un algoritmo de procesado de información complejo. Primero, un algoritmo de detección de escenas se utiliza para reducir la redundancia temporal del vídeo. Después, diferentes objetos relevantes son extraídos de cada imagen clave (caras, coches, etc.). También se describe el flujo de trabajo necesario para entrenar la detección de modelos de objetos usando múltiples soluciones de código abierto. Además, las caras son objetos particulares y semánticamente relevantes, por esta razón, utilizamos métodos de agrupación para reconocerlas de manera no supervisada. La composición del mapa resultante utilizando los objetos previamente extraídos es la última parte de la arquitectura. Para validar la solución propuesta y evaluar la satisfacción del usuario se ha llevado a cabo un estudio con usuarios en el que se comparan requisitos definidos analizando la literatura relacionada. Analizamos la redundancia de contenido, la cantidad de información relevante presentada y el formato de los resultados. Los resultados del estudio muestran que nuestra solución puede crear representaciones estáticas de un vídeo de manera efectiva y puede resumir contenido personalizable. [CATALÀ] La quantitat de contingut de vídeo digital disponible a la web està incrementant constantment. La seva manipulació requereix de tecnologies eficients: cerques textuals a grans bases de dades donen accés a una gran quantitat de vídeos i són accesibles mitjançant una descripció. Els usuaris necessiten una manera visual i ràpida d'accedir al contingut relevant del vídeo eficientment. Una ràpida visualització del contingut utilitzant mètodes de resum basats en imatges estàtiques és un problema complicat. A més, pot solventar, també, problemes de navegació temporal en el vídeo. Els usuaris poden, ràpidament, tenir una idea del contingut del vídeo sense haver de visualitzar-lo directament. En aquest projecte es desenvolupa un sistema de resum automàtic de vídeos. El sistema crea un "object map" el contingut visual del qual ha estat extret del vídeo. Permet una millora en la navegació temporal amb un simple clic així com també en l'administració de grans bases de dades generant un índex visual amb el qual l'usuari pot comprendre el vídeo. Aquest projecte requereix diverses tecnologies que defineixen un algorisme de processament d'informació complex. Primerament, un algorisme de detecció d'escenes és utilitzat per reduir la redundància temporal del vídeo. Després, diferents objectes relevants són extrets de cada imatge clau (cares, cotxes, etc.). També es descriu el flux de treball per entrenar la detecció de models d'objectes usant múltiples solucions de codi obert. A més, les cares són objectes particulars i semànticament relevants, per aquesta raó, utilitzem mètodes d'agrupament per reconéixer-les de manera no supervisada. La composició del mapa resultant utilitzant els objectes prèviament extrets és l'última part de l'arquitectura. Per validar la solució proposada i avaluar la satisfacció de l'usuari s'ha portat a terme un estudi amb usuaris en el que es comparen els requeriments definits analitzant la literatura relacionada. Analitzem la redundància de contingut, la quantitat d'informació relevant i el format dels resultats. Els resultats de l'estudi mostren que la nostra aproximació pot crear representacións estàtiques d'un vídeo de manera efectiva i pot resumir contingut personalitzable.
Description
Projecte realitzat en el marc d’un programa de mobilitat amb la Technische Universität Wien (TU Wien)
DegreeENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)
Files | Description | Size | Format | View |
---|---|---|---|---|
Video Summarization in Object Maps.pdf | 3,813Mb | View/Open | ||
PFC_ManelMartos.zip | 44,58Mb | application/zip | View/Open |