Mostra el registre d'ítem simple

dc.contributorNadeu Camprubí, Climent
dc.contributor.authorHernando Pericás, Francisco Javier
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2011-04-12T15:27:17Z
dc.date.available2008-03-27
dc.date.issued1993-05-07
dc.date.submitted2008-02-04
dc.identifier.citationHernando Pericás, F.J. Técnicas de procesado y representación de la señal de voz para el reconocimiento del habla en ambientes ruidosos. Tesi doctoral, UPC, Departament de Teoria del Senyal i Comunicacions, 1993. ISBN 9788469136911. DOI 10.5821/dissertation-2117-94222.
dc.identifier.isbn9788469136911
dc.identifier.otherhttp://www.tdx.cat/TDX-0204108-115706
dc.identifier.urihttp://hdl.handle.net/2117/94222
dc.description.abstractEl comportamiento de los sistemas actuales de reconocimiento del habla se degrada rápidamente en presencia de ruido de fondo cuando las etapas de entrenamiento y de test no pueden llevarse a cabo en las mismas condiciones ambientales. El propósito de esta tesis es el estudio y la aplicación al reconocimiento automático del habla en ambientes ruidosos de nuevas representaciones de la señal de voz que sean robustas por sí mismas al ruido y reflejen exactamente las diferencias fonéticas entre espectros de voz. De forma natural, la estrecha relación existente entre el tipo de representación de la señal y la medida de distancia idónea para confrontar los vectores de parámetros ha conducido también al estudio de distancias en esta tesis.<br/><br/>Para la evaluación de las técnicas propuestas se ha utilizado un sistema de reconocimiento de palabras aisladas mediante modelos ocultos de Markov. El hecho de que el sistema sea de palabras aisladas permite prescindir de las implicaciones de los niveles de conocimiento superiores al acústico: sintáctico, semántico, pragmático,... Por otro lado, los modelos ocultos de Markov son los que en estos momentos proporcionan unas mejores prestaciones en todos los sistemas en desarrollo.<br/><br/>La aportación fundamental de esta tesis es la introducción de la predicción lineal de la parte causal de la secuencia de autocorrelación de la señal de voz como una técnica de parametrización robusta del habla en presencia de ruido. Esta técnica está estrechamente relacionada con la representación SMC y con el uso de un sistema sobredeterminado de ecuaciones de Yule-Walker. Su uso en reconocimiento de habla ruidosa es muy interesante debido a su simplicidad, su eficiencia computacional y sus altas tasas de acierto, que superan ampliamente a las técnicas mencionadas y a la clásica predicción lineal sobre la señal en condiciones severas de ruido. <br/><br/>A partir de un estudio comparativo de distintas técnicas en el caso de ruido blanco y ruido real, se han extraído las siguientes conclusiones fundamentales: es preferible el uso de un orden de predicción relativamente alto y ventanas cepstrales crecientes para desenfatizar los coeficientes de orden inferior; las representaciones instantáneas de la señal son menos robustas que a las dinámicas, por lo cual resulta de gran utilidad el uso de parámetros regresivos; el etiquetado múltiple supera ampliamente en prestaciones a la cuantificación vectorial clásica; y, finalmente, la representación cepstral basada en la predicción lineal de la parte causal de la autocorrelación alcanza excelentes resultados en condiciones severas de ruido y es menos sensible a los factores anteriores que la predicción lineal clásica.
dc.description.abstractThe performance of existing speech recognition systems degrades rapidly in the presence of background noise when training and testing cannot be done under the same ambient conditions, even in the case of isolated word recognition with small vocabularies.<br/><br/>In order to develop a speech recognizer that operates robustly and reliably in the presence of noise, a novel parameterization technique called OSALPC (One-Sided Autocorrelation Linear Predictive Coding) is proposed in this Ph.D. dissertation. This technique, closely related with the SMC (Short-Time Modified Coherence) representation and with the use of an overdetermined set of Yule-Walker equations proposed by Cadzow to seek rational models, is essentially an AR modeling of the causal part of the speech autocorrelation, that has the same poles than the speech signal itself. OSALPC performs better than standard LPC (Linear Predictive Coding) in terms of signal-to-noise ratio improvement due to the fact that the spectrum of the autocorrelation sequence, the square of the spectral envelope, strongly enhances the highest power frequency bands and attenuates the noise components lying outside those enhanced bands. Its use in noisy speech recognition is very interesting because of its simplicity, computational efficiency and high recognition accuracy. <br/><br/>The application of this technique to recognize isolated words in a multispeaker task is reported in this Ph.D. dissertation using a speech recognition system based on the HMM (Hidden Markov Models) and VQ (Vector Quantization) approaches in the presence of additive white noise and in real noisy car environment.<br/><br/>The combination of the OSALPC parameterization with several robust techniques is explored: 1) optimization of prediction order and cepstral liftering (particularly, a relatively high prediction order and a monotonically increasing lifter with the quefrency are preferable), 2) cepstral projection distance measure (only in the case of additive white noise), 3) use of energy and dynamic features and 4) independent multilabeling VQ of each feature. Regarding the latest case, a simple multilabeling method has been introduced as a deterministic version of the well known semicontinuous HMM approach using the fuzzy VQ rule, with degree of fuzziness equal to 2, to indicate the closeness of each codeword to the input vector of speech parameters.<br/><br/>Excellent results have been achieved in severe noisy conditions. Concretely, in the case of real noisy car enviroment, from a recognition accuracy of 58.2 % in the baseline recognizer, a recognition rate of 95 % has been reached by aplying those techniques.
dc.language.isospa
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.sourceTDX (Tesis Doctorals en Xarxa)
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.otherreconocimento del habla en ambientes adversos
dc.subject.otherreconocimento del habla en presencia de ruido
dc.subject.otherparametrización de la señal de voz
dc.subject.otheranalisis de la voz
dc.subject.otherreconocimento robusto del habla
dc.subject.otherreconocimento automático del habla
dc.subject.otherprocesado del habla
dc.titleTécnicas de procesado y representación de la señal de voz para el reconocimiento del habla en ambientes ruidosos
dc.typeDoctoral thesis
dc.subject.lemacReconeixement automàtic de la parla
dc.identifier.doi10.5821/dissertation-2117-94222
dc.identifier.dlB.31912-2008
dc.rights.accessOpen Access
dc.description.versionPostprint (published version)
dc.identifier.tdxhttp://hdl.handle.net/10803/6911


Fitxers d'aquest items

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple