Visual instance mining of news videos using a graph-based approach

Almendros Gutiérrez, David

dc.contributor	Eidenberger, Horst
dc.contributor.author	Almendros Gutiérrez, David
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned	2014-09-16T13:01:02Z
dc.date.available	2014-09-16T13:01:02Z
dc.date.issued	2014-09-03
dc.identifier.uri	http://hdl.handle.net/2099.1/22362
dc.description.abstract	[ANGLÈS] The aim of this thesis is to design a tool that performs visual instance search mining for news video summarization. This means to extract the relevant content of the video in order to be able to recognize the storyline of the news. Initially, a sampling of the video is required to get the frames with a desired rate. Then, different relevant contents are detected from each frame, focusing on faces, text and several objects that the user can select. Next, we use a graph-based clustering method in order to recognize them with a high accuracy and select the most representative ones to show them in the visual summary. Furthermore, a graphical user interface in Wt was developed to create an online demo to test the application. During the development of the application we have been testing the tool with the CCMA dataset. We prepared a web-based survey based on four results from this dataset to check the opinion of the users. We also validate our visual instance mining results comparing them with the results obtained applying an algorithm developed at Columbia University for video summarization. We have run the algorithm on a dataset of a few videos on two events: 'Boston bombings' and the 'dessapearance of the Malaysian airlines flight 370'. We carried out another web-based survey in which users could compare our approach with this related work. With these surveys we analyze if our tool fulfill the requirements we set up. We can conclude that our system extract visual instances that show the most relevant content of news videos and can be used to summarize these videos effectively. Moreover, our application seems to be competitive with the state of the art.
dc.description.abstract	[CASTELLÀ] El objetivo de esta tesis es diseñar una herramienta que realice una búsqueda de instancias visuales para resumir vídeos de noticias. Esto significa extraer el contenido relevante del vídeo con el fin de ser capaz de reconocer la historia de la noticia. Inicialmente, se requiere un muestreo temporal del vídeo para obtener los fotogramas con una velocidad deseada. Entonces, se detectan diferente contenido relevante a partir de cada fotograma, centrándose en las caras, texto y varios objetos que el usuario puede seleccionar. A continuación, se utiliza un método basado en la agrupación gráfica con el fin de reconocer dicho contenido con alta precisión y seleccionar los más representativos para mostrarlos en el resumen visual. Además, se ha desarrollado una interfaz gráfica de usuario en Wt para crear una demostración en línea para poder probar la aplicación. Durante el desarrollo de la aplicación, hemos estado probando la herramienta con el dataset CCMA. Hemos preparado una encuesta en línea basada en cuatro resultados de este dataset para comprobar la opinión de los usuarios. También validamos nuestros resultados comparándolos con los obtenidos aplicando un algoritmo desarrollado en la Universidad de Columbia para realizar resúmenes de vídeos. Hemos ejecutar el algoritmo en un conjunto de vídeos que pertenecen a dos eventos: 'El atentado de Boston" y 'La desaparición del vuelo de Malaysia airlines 370'. Para ello, se realizó otra encuesta web en el que los usuarios podían comparar nuestra aplicación con el estado del arte. Con estas encuestas se analiza si nuestra herramienta cumple los requisitos que establecimos. Podemos concluir que nuestro sistema extrae instancias visuales que muestran el contenido más relevante de los vídeos de noticias y se pueden utilizar para resumir estos videos con eficacia. Además, nuestra aplicación parece ser competitiva con el estado del arte.
dc.description.abstract	[CATALÀ] L'objectiu d'aquesta tesi és dissenyar una eina que realitzi una recerca d'instàncies visual per resumir vídeos de notícies. Això significa extreure el contingut rellevant del vídeo per tal de ser capaços de reconèixer de que tracta la notícia. Inicialment, es requereix un mostreig del vídeo per obtenir els fotogrames amb una velocitat desitjada. Llavors, es detecten diferent contingut rellevant a partir de cada trama, centrant-nos en les cares, text i diversos objectes que l'usuari pot seleccionar. A continuació, s'utilitza un mètode basat en l'agrupació gràfica per tal de reconèixer aquest contingut amb una alta precisió i seleccionar els més representatius per mostrar-los en el resum visual. A més, una interfície gràfica d'usuari en Wt va ser desenvolupat per crear una demostració en línia amb la fi de provar l'aplicació. Durant el desenvolupament de l'aplicació hem estat provant l'eina amb el conjunt de dades del CCMA. Vam preparar una enquesta basat en quatre resultats obtinguts d'aquest dataset per comprovar l'opinió dels usuaris. També validem els nostres resultats comparant-los amb els obtinguts aplicant un algoritme desenvolupat a la Universitat de Columbia per resumir vídeos. Hem executat l'algorisme en un conjunt de vídeos que pertanyen a dos esdeveniments: 'L'atemptat de Boston' i 'La desaparició del vol Malaysia airlines 370'. Per això, es va fer una altra enquesta basada web en què els usuaris podien comparar la nostra aplicació amb aquest estat de l'art. Amb aquestes enquestes s'analitza si la nostra eina compleix els requisits que vam establir. Podem concloure que el nostre sistema extreure instàncies visuals que mostren el contingut més rellevant dels vídeos de notícies i es poden utilitzar per resumir aquests vídeos amb eficàcia. A més, la nostra aplicació sembla ser competitiva amb l'estat de l'art.
dc.language.iso	eng
dc.publisher	Universitat Politècnica de Catalunya
dc.rights	S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject	Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcsh	Image processing
dc.subject.other	visual instance mining
dc.subject.other	graph-based clustering
dc.subject.other	news video
dc.subject.other	instancias visuales
dc.subject.other	método gráfico
dc.subject.other	noticias
dc.title	Visual instance mining of news videos using a graph-based approach
dc.title.alternative	Minería de instancias visuales en vídeos de informativos utilitzado grafos
dc.title.alternative	Mineria d'instàncies visuals en vídeos d'informatius utilitzant grafs
dc.type	Master thesis (pre-Bologna period)
dc.subject.lemac	Imatges -- Processament
dc.identifier.slug	ETSETB-230.94528
dc.rights.access	Open Access
dc.date.updated	2014-09-16T05:51:26Z
dc.audience.educationlevel	Estudis de primer/segon cicle
dc.audience.mediator	Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degree	ENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)
dc.contributor.covenantee	Technische Universität Wien

Fitxers d'aquest items

Nom:: David_Almendros_Thesis.pdf
Mida:: 4,122Mb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Enginyeria de Telecomunicació (Pla 1992) [1.590]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Visual instance mining of news videos using a graph-based approach

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora