DSpace DSpace UPC
 Català   Castellano   English  

E-prints UPC >
Altres >
Enviament des de DRAC >

Empreu aquest identificador per citar o enllaçar aquest ítem: http://hdl.handle.net/2117/13630

Arxiu Descripció MidaFormat
485738.pdf2.25 MBAdobe PDFThumbnail
Veure/Obrir

Citació: Butko, T. [et al.]. Acoustic event detection based on feature-level fusion of audio and video modalities. "Eurasip journal on advances in signal processing", 15 Març 2011, vol. 2011, p. 1-11.
Títol: Acoustic event detection based on feature-level fusion of audio and video modalities
Autor: Butko, Taras Veure Producció científica UPC; Canton Ferrer, Cristian Veure Producció científica UPC; Segura Perales, Carlos; Giró Nieto, Xavier Veure Producció científica UPC; Nadeu Camprubí, Climent Veure Producció científica UPC; Hernando Pericás, Francisco Javier Veure Producció científica UPC; Casas Pla, Josep Ramon Veure Producció científica UPC
Editorial: HINDAWI
Data: 15-mar-2011
Tipus de document: Article
Resum: Acoustic event detection (AED) aims at determining the identity of sounds and their temporal position in audio signals. When applied to spontaneously generated acoustic events, AED based only on audio information shows a large amount of errors, which are mostly due to temporal overlaps. Actually, temporal overlaps accounted for more than 70% of errors in the realworld interactive seminar recordings used in CLEAR 2007 evaluations. In this paper, we improve the recognition rate of acoustic events using information from both audio and video modalities. First, the acoustic data are processed to obtain both a set of spectrotemporal features and the 3D localization coordinates of the sound source. Second, a number of features are extracted from video recordings by means of object detection, motion analysis, and multicamera person tracking to represent the visual counterpart of several acoustic events. A feature-level fusion strategy is used, and a parallel structure of binary HMM-based detectors is employed in our work. The experimental results show that information from both the microphone array and video cameras is useful to improve the detection rate of isolated as well as spontaneously generated acoustic events.
Descripció: Research article
ISSN: 1687-6172
URI: http://hdl.handle.net/2117/13630
DOI: 10.1155/2011/485738
Versió de l'editor: http://www.hindawi.com/journals/asp/2011/485738/
Apareix a les col·leccions:Altres. Enviament des de DRAC
VEU - Grup de Tractament de la Parla. Articles de revista
GPI - Grup de Processament d'Imatge i Vídeo. Articles de revista
Departament de Teoria del Senyal i Comunicacions. Articles de revista
Comparteix:


Stats Mostra les estadístiques d'aquest ítem

SFX Query

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets.

Per a qualsevol ús que se'n vulgui fer no previst a la llei, dirigiu-vos a: sepi.bupc@upc.edu

 

Valid XHTML 1.0! Programari DSpace Copyright © 2002-2004 MIT and Hewlett-Packard Comentaris
Universitat Politècnica de Catalunya. Servei de Biblioteques, Publicacions i Arxius