Técnicas de procesado y representación de la señal de voz para el reconocimiento del habla en ambientes ruidosos

Hernando Pericás, Francisco Javier

doi:10.5821/dissertation-2117-94222

dc.contributor	Nadeu Camprubí, Climent
dc.contributor.author	Hernando Pericás, Francisco Javier
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned	2011-04-12T15:27:17Z
dc.date.available	2008-03-27
dc.date.issued	1993-05-07
dc.date.submitted	2008-02-04
dc.identifier.citation	Hernando Pericás, F.J. Técnicas de procesado y representación de la señal de voz para el reconocimiento del habla en ambientes ruidosos. Tesi doctoral, UPC, Departament de Teoria del Senyal i Comunicacions, 1993. ISBN 9788469136911. DOI 10.5821/dissertation-2117-94222.
dc.identifier.isbn	9788469136911
dc.identifier.other	http://www.tdx.cat/TDX-0204108-115706
dc.identifier.uri	http://hdl.handle.net/2117/94222
dc.description.abstract	El comportamiento de los sistemas actuales de reconocimiento del habla se degrada rápidamente en presencia de ruido de fondo cuando las etapas de entrenamiento y de test no pueden llevarse a cabo en las mismas condiciones ambientales. El propósito de esta tesis es el estudio y la aplicación al reconocimiento automático del habla en ambientes ruidosos de nuevas representaciones de la señal de voz que sean robustas por sí mismas al ruido y reflejen exactamente las diferencias fonéticas entre espectros de voz. De forma natural, la estrecha relación existente entre el tipo de representación de la señal y la medida de distancia idónea para confrontar los vectores de parámetros ha conducido también al estudio de distancias en esta tesis.<br/><br/>Para la evaluación de las técnicas propuestas se ha utilizado un sistema de reconocimiento de palabras aisladas mediante modelos ocultos de Markov. El hecho de que el sistema sea de palabras aisladas permite prescindir de las implicaciones de los niveles de conocimiento superiores al acústico: sintáctico, semántico, pragmático,... Por otro lado, los modelos ocultos de Markov son los que en estos momentos proporcionan unas mejores prestaciones en todos los sistemas en desarrollo.<br/><br/>La aportación fundamental de esta tesis es la introducción de la predicción lineal de la parte causal de la secuencia de autocorrelación de la señal de voz como una técnica de parametrización robusta del habla en presencia de ruido. Esta técnica está estrechamente relacionada con la representación SMC y con el uso de un sistema sobredeterminado de ecuaciones de Yule-Walker. Su uso en reconocimiento de habla ruidosa es muy interesante debido a su simplicidad, su eficiencia computacional y sus altas tasas de acierto, que superan ampliamente a las técnicas mencionadas y a la clásica predicción lineal sobre la señal en condiciones severas de ruido. <br/><br/>A partir de un estudio comparativo de distintas técnicas en el caso de ruido blanco y ruido real, se han extraído las siguientes conclusiones fundamentales: es preferible el uso de un orden de predicción relativamente alto y ventanas cepstrales crecientes para desenfatizar los coeficientes de orden inferior; las representaciones instantáneas de la señal son menos robustas que a las dinámicas, por lo cual resulta de gran utilidad el uso de parámetros regresivos; el etiquetado múltiple supera ampliamente en prestaciones a la cuantificación vectorial clásica; y, finalmente, la representación cepstral basada en la predicción lineal de la parte causal de la autocorrelación alcanza excelentes resultados en condiciones severas de ruido y es menos sensible a los factores anteriores que la predicción lineal clásica.
dc.description.abstract	The performance of existing speech recognition systems degrades rapidly in the presence of background noise when training and testing cannot be done under the same ambient conditions, even in the case of isolated word recognition with small vocabularies.<br/><br/>In order to develop a speech recognizer that operates robustly and reliably in the presence of noise, a novel parameterization technique called OSALPC (One-Sided Autocorrelation Linear Predictive Coding) is proposed in this Ph.D. dissertation. This technique, closely related with the SMC (Short-Time Modified Coherence) representation and with the use of an overdetermined set of Yule-Walker equations proposed by Cadzow to seek rational models, is essentially an AR modeling of the causal part of the speech autocorrelation, that has the same poles than the speech signal itself. OSALPC performs better than standard LPC (Linear Predictive Coding) in terms of signal-to-noise ratio improvement due to the fact that the spectrum of the autocorrelation sequence, the square of the spectral envelope, strongly enhances the highest power frequency bands and attenuates the noise components lying outside those enhanced bands. Its use in noisy speech recognition is very interesting because of its simplicity, computational efficiency and high recognition accuracy. <br/><br/>The application of this technique to recognize isolated words in a multispeaker task is reported in this Ph.D. dissertation using a speech recognition system based on the HMM (Hidden Markov Models) and VQ (Vector Quantization) approaches in the presence of additive white noise and in real noisy car environment.<br/><br/>The combination of the OSALPC parameterization with several robust techniques is explored: 1) optimization of prediction order and cepstral liftering (particularly, a relatively high prediction order and a monotonically increasing lifter with the quefrency are preferable), 2) cepstral projection distance measure (only in the case of additive white noise), 3) use of energy and dynamic features and 4) independent multilabeling VQ of each feature. Regarding the latest case, a simple multilabeling method has been introduced as a deterministic version of the well known semicontinuous HMM approach using the fuzzy VQ rule, with degree of fuzziness equal to 2, to indicate the closeness of each codeword to the input vector of speech parameters.<br/><br/>Excellent results have been achieved in severe noisy conditions. Concretely, in the case of real noisy car enviroment, from a recognition accuracy of 58.2 % in the baseline recognizer, a recognition rate of 95 % has been reached by aplying those techniques.
dc.language.iso	spa
dc.publisher	Universitat Politècnica de Catalunya
dc.rights	ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source	TDX (Tesis Doctorals en Xarxa)
dc.subject	Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.other	reconocimento del habla en ambientes adversos
dc.subject.other	reconocimento del habla en presencia de ruido
dc.subject.other	parametrización de la señal de voz
dc.subject.other	analisis de la voz
dc.subject.other	reconocimento robusto del habla
dc.subject.other	reconocimento automático del habla
dc.subject.other	procesado del habla
dc.title	Técnicas de procesado y representación de la señal de voz para el reconocimiento del habla en ambientes ruidosos
dc.type	Doctoral thesis
dc.subject.lemac	Reconeixement automàtic de la parla
dc.identifier.doi	10.5821/dissertation-2117-94222
dc.identifier.dl	B.31912-2008
dc.rights.access	Open Access
dc.description.version	Postprint (published version)
dc.identifier.tdx	http://hdl.handle.net/10803/6911