The demiphone: An efficient contextual subword unit for continuous speech recognition
Visualitza/Obre
The demiphone An efficient contextual subword unit for continuous speech recognition.pdf (125,2Kb) (Accés restringit)
Sol·licita una còpia a l'autor
Què és aquest botó?
Aquest botó permet demanar una còpia d'un document restringit a l'autor. Es mostra quan:
- Disposem del correu electrònic de l'autor
- El document té una mida inferior a 20 Mb
- Es tracta d'un document d'accés restringit per decisió de l'autor o d'un document d'accés restringit per política de l'editorial
10.1016/S0167-6393(00)00010-8
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/15678
Tipus de documentArticle
Data publicació2000-09
Condicions d'accésAccés restringit per política de l'editorial
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
Abstract
In this paper, we introduce the demiphone as a context-dependent phonetic unit for continuous speech recognition. A phoneme is divided into two parts: a left demiphone that accounts for the left coarticulation and a right demiphone that copes with the right-hand side context. This unit discards the dependence between the effects of both side contexts, but it models the transition between phonemes as the triphone does. By concatenating a left demiphone and a right demiphone a triphone can be built, although the left and the right-context coarticulations are modeled independently. The main appeal of this unit stems from its reduced number (respect to the number of triphones) and its capability to model left and right contexts unseen together in the training material. Thus, the demiphone shares in a simple way the advantages of a smoothed parameter estimation with the ability of generalization. In the present work, the demiphone is motivated and experimentally supported. Furthermore, demiphones are compared with triphones smoothed and generalized by decision-tree state-tying, accepted as the most powerful tool for coarticulation modeling at the present state of the art. The main conclusion of our work is that the demiphone simplifies the recognition system and yields a better performance than the triphone, at least for small or moderate size databases. This result may be explained by the ability of the demiphone to provide an excellent trade-off between a detailed coarticulation modeling and a proper parameter estimation.
CitacióMariño, J. [et al.]. The demiphone: An efficient contextual subword unit for continuous speech recognition. "Speech communication", Setembre 2000, vol. 32, núm. 3, p. 187-197.
ISSN0167-6393
Versió de l'editorhttp://www.sciencedirect.com/science/article/pii/S0167639300000108
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
The demiphone A ... ous speech recognition.pdf | 125,2Kb | Accés restringit |