DSpace DSpace UPC
 Català   Castellano   English  

E-prints UPC >
Altres >
Enviament des de DRAC >

Empreu aquest identificador per citar o enllaçar aquest ítem: http://hdl.handle.net/2117/15678

Ítem no disponible en accés obert per política de l'editorial

Arxiu Descripció MidaFormat
The demiphone An efficient contextual subword unit for continuous speech recognition.pdf125,28 kBAdobe PDF Accés restringit

Citació: Mariño, J. [et al.]. The demiphone: An efficient contextual subword unit for continuous speech recognition. "Speech communication", Setembre 2000, vol. 32, núm. 3, p. 187-197.
Títol: The demiphone: An efficient contextual subword unit for continuous speech recognition
Autor: Mariño Acebal, José Bernardo Veure Producció científica UPC; Nogueiras Rodríguez, Albino Veure Producció científica UPC; Pachés-Leal, Pau; Bonafonte Cávez, Antonio Veure Producció científica UPC
Data: set-2000
Tipus de document: Article
Resum: In this paper, we introduce the demiphone as a context-dependent phonetic unit for continuous speech recognition. A phoneme is divided into two parts: a left demiphone that accounts for the left coarticulation and a right demiphone that copes with the right-hand side context. This unit discards the dependence between the effects of both side contexts, but it models the transition between phonemes as the triphone does. By concatenating a left demiphone and a right demiphone a triphone can be built, although the left and the right-context coarticulations are modeled independently. The main appeal of this unit stems from its reduced number (respect to the number of triphones) and its capability to model left and right contexts unseen together in the training material. Thus, the demiphone shares in a simple way the advantages of a smoothed parameter estimation with the ability of generalization. In the present work, the demiphone is motivated and experimentally supported. Furthermore, demiphones are compared with triphones smoothed and generalized by decision-tree state-tying, accepted as the most powerful tool for coarticulation modeling at the present state of the art. The main conclusion of our work is that the demiphone simplifies the recognition system and yields a better performance than the triphone, at least for small or moderate size databases. This result may be explained by the ability of the demiphone to provide an excellent trade-off between a detailed coarticulation modeling and a proper parameter estimation.
ISSN: 0167-6393
URI: http://hdl.handle.net/2117/15678
DOI: 10.1016/S0167-6393(00)00010-8
Versió de l'editor: http://www.sciencedirect.com/science/article/pii/S0167639300000108
Apareix a les col·leccions:Altres. Enviament des de DRAC
VEU - Grup de Tractament de la Parla. Articles de revista
Departament de Teoria del Senyal i Comunicacions. Articles de revista
Comparteix:


Stats Mostra les estadístiques d'aquest ítem

SFX Query

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets.

Per a qualsevol ús que se'n vulgui fer no previst a la llei, dirigiu-vos a: sepi.bupc@upc.edu

 

Valid XHTML 1.0! Programari DSpace Copyright © 2002-2004 MIT and Hewlett-Packard Comentaris
Universitat Politècnica de Catalunya. Servei de Biblioteques, Publicacions i Arxius