DSpace DSpace UPC
 Català   Castellano   English  

E-prints UPC >
Altres >
Enviament des de DRAC >

Empreu aquest identificador per citar o enllaçar aquest ítem: http://hdl.handle.net/2117/15864

Ítem no disponible en accés obert per política de l'editorial

Arxiu Descripció MidaFormat
Simultaneous speech detection with spatial features for speaker diarization.pdf633.02 kBAdobe PDF Accés restringit

Citació: Zelenak, M. [et al.]. Simultaneous speech detection with spatial features for speaker diarization. "IEEE transactions on audio speech and language processing", Febrer 2012, vol. 20, núm. 2, p. 436-446.
Títol: Simultaneous speech detection with spatial features for speaker diarization
Autor: Zelenak, Martin Veure Producció científica UPC; Segura Perales, Carlos; Luque, Jordi; Hernando Pericás, Francisco Javier Veure Producció científica UPC
Data: feb-2012
Tipus de document: Article
Resum: Simultaneous speech poses a challenging problem for conventional speaker diarization systems. In meeting data, a substantial amount of missed speech error is due to speaker overlaps, since usually only one speaker label per segment is assigned. Furthermore, simultaneous speech included in training data can lead to corrupt speaker models and thus worse segmentation performance. In this paper, we propose the use of three spatial cross-correlation-based features together with spectral information for speaker overlap detection on distant microphones. Different microphone-pair data are fused by means of principal component analysis. We have obtained an improvement of the speaker diarization system over the baseline by discarding overlap segments from model training and assigning two speaker labels to them according to likelihoods in Viterbi decoding. In experiments conducted on the AMI Meeting corpus, we achieve a relative DER reduction of 11.2% and 17.0% for single- and multi-site data, respectively. The improvement of clustering with techniques such as beamforming and TDOA-feature stream also leads to a higher effectiveness of the overlap labeling algorithm. Preliminary experiments with NIST RT data show DER improvement on the RT'09 meeting recordings as well.
ISSN: 1558-7916
URI: http://hdl.handle.net/2117/15864
Versió de l'editor: 10.1109/TASL.2011.2160167
Versió de l'editor: http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6136544&tag=1
Apareix a les col·leccions:Departament de Teoria del Senyal i Comunicacions. Articles de revista
VEU - Grup de Tractament de la Parla. Articles de revista
Altres. Enviament des de DRAC
Comparteix:


Stats Mostra les estadístiques d'aquest ítem

SFX Query

Queda prohibida la reproducció, transformació, distribució i comunicació pública d'aquesta obra. Es permet, en tot cas, la reproducció per a ús privat sempre i quan la còpia que se'n faci no sigui objecte d'utilització col·lectiva ni lucrativa (art. 31.2 del Reial Decret Legislatiu 1/1996, de 12 d'abril, pel qual s'aprova el Text Refós de la Llei de Propietat Intel·lectual, http://bibliotecnica.upc.es/sepi/legislacio.asp).

Per a qualsevol ús que es vulgui fer diferent al permès, dirigiu-vos a: sepi@upc.edu

 

Valid XHTML 1.0! Programari DSpace Copyright © 2002-2004 MIT and Hewlett-Packard Comentaris
Universitat Politècnica de Catalunya. Servei de Biblioteques, Publicacions i Arxius