Show simple item record

dc.contributorSchultz, Tanja
dc.contributor.authorPastrana Costa, Asunción
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2015-12-01T17:14:19Z
dc.date.available2015-12-01T17:14:19Z
dc.date.issued2015-04-30
dc.identifier.urihttp://hdl.handle.net/2117/80093
dc.descriptionResearch on algorithms and tools to rapidly adapt speech and language processing systems to new domains and languages.
dc.description.abstractThis thesis presents a research on noise reduction in order to improve automatic speech recognition (ASR) applied to the ILSE (Interdisciplinary Longitudinal Study on Adult Development and Aging) interviews. The first interviews were recorded more than 20 years ago and new ones are still recorded nowadays. This results in varying recording conditions. In the first recordings, external conditions were not taken into account since ASR was not considered. This, plus the loss of quality due to the tape’s aging, make the available data very noisy. After some investigation, it was found that the best way to approach this goal was to apply cepstral normalization. In this direction, three techniques have been implemented: noise cepstral mean normalization (NCMN), noise cepstral mean and variance normalization (NCMVN), and noise cepstral squared normalization (NCSN). The results of this methods don’t improve the word error rates (WER) from the best approach; 76.30% for the baseline, 76.41% for NCMN, 77.00% NCMVN and 83.05% for NCSN. However, the results prove that the acoustic model (AM) built NCMVN is the most accurate. Although NCSN is the approach that provides higher WER, this technique improves the number of substituted as well as inserted words. This, plus NCMVN’s acoustic model, could inspire future research.
dc.description.abstractEste proyecto final de carrera tiene por objetivo reducir el ruido para mejorar el reconocimiento automático del habla que se utiliza en las entrevistas grabadas por ILSE (Interdisciplinary Longitudinal Study on Adult Development and Aging). Las primeras de estas entrevistas fueron grabadas hace más de veinte años y las más actuales se graban en la actualidad. Éste es uno de los motivos por los que las condiciones de grabado en los datos empleados son muy variantes. Además, en las grabaciones más antiguas el reconocimiento automático del habla no se contemplaba como mecanismo para transcribir dichas entrevistas y, por este motivo, las condiciones externas que afectan a la calidad de la grabación no se tuvieron en cuenta. Como último factor relevante, cabe destacar que las cintas utilizadas se han ido deteriorando con el tiempo afectando también a los resultados. Tras la correspondiente investigación previa, la normalización del cepstrum fue considerada la mejor técnica para afrontar el objetivo. Siguiendo esta idea, se aplicaron tres formas distintas de normalizar el cepstrum: normalización en media con el cepstrum del ruido (NCMN), normalización en media y varianza con el cepstrum del ruido (NCMVN) y, finalmente, la normalización con los coeficientes del cepstrum del ruido al cuadrado (NCSN). Los resultados obtenidos por dichas técnicas no mejoran las tasas de error (word error rate, WER) de otros métodos aplicados previamente: 76.30% de error para la referencia, 76.41% para NCMN, 77.00% para NCMVN y 83.05% para NCSN. Sin embargo, los resultados prueban que el modelo acústico desarrollado para NCMVN es el más apropiado. Apesar de que NCSN es el método que resulta tener la tasa de error más elevada, esta técnica mejora tanto el número de palabras substituidas como el de añadidas erróneamente. Ésto, junto con el modelo acústico de NCMVN, puede inspirar futuras investigaciones.
dc.description.abstractAquest projecte final de carrera té per objectiu reduir el soroll per tal de millorar el reconeixement automàtic de la parla de les entrevistes gravades per ILSE (Interdisciplinary Longitudinal Study on Adult Development and Aging). Les primeres d'aquestes entrevistes foren enregistrades fa més de vint anys i les més recents encara es graven a l'actualitat. La diferència temporal en que aquestes foren enregistrades provoca que les condicions de les gravaciones siguin diferents. Més enllà de les diferències tecnològiques, cal tindre en compte que fa 20 anys la transcripció d'aquestes entrevistes de manera automàtica no es contemplava i per aquest motiu, quan s'enregistraven les entrevistes, les condicions externes que afectaven la gravació no es tenien en compte. A més a més, les cintes de gravació han perdut qualitat amb el temps, afectant el reconeixement de la parla. Després de fer la corresponent investigació, la normalització del cepstrum fou considerada la millor tècnica per afrontar l'objectiu citat. Seguint aquesta idea, tres tècniques diferents foren aplicades: normalització en mitja amb el cepstrum del soroll (NCMN), normalització en mitja i variança amb el cepstrum del soroll (NCMVN) i, finalment, normalització amb els coeficients al quadrat del cepstrum del soroll (NCSN). Els resultats obtinguts per aquestes tècniques no milloren la tassa d'error per paraula (word error rate, WER) d'altres mètodes aplicats amb anterioritat: 76.30% d'error per a la referència, 76.41% per a NCMN, 77.00% per a NCMVN i 83.05% per a NCSN. Aquests resultats proben que el model acústic que fou construit per a NCMVN és el més adequat. Tot i els resultats observats per a NCSN en quant a tassa d'error no són favorables, aquesta tècnica millora tant el número de paraules substituides com les afegides de manera errònia. Tant això, com el model acústic de NCMVN, poden inspirar futures millores.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshSpeech processing systems
dc.subject.otherASR
dc.subject.otherspeech processing
dc.subject.othernoise reduction
dc.subject.otherProcesado de voz
dc.subject.otherreducción de ruido
dc.subject.otherASR
dc.subject.otherSoroll -- PFC
dc.titleNoise Reduction for ILSE Interviews
dc.title.alternativeNoise Reduction for ILSE Interviews Noise Reduction for ILSE Interviews Noise Reduction for ILSE Interviews
dc.typeMaster thesis (pre-Bologna period)
dc.subject.lemacProcessament de la parla
dc.identifier.slugETSETB-230.105160
dc.rights.accessOpen Access
dc.date.updated2015-07-10T05:51:35Z
dc.audience.educationlevelEstudis de primer/segon cicle
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degreeENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)
dc.contributor.covenanteeKarlsruher Institut für Technologie


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

All rights reserved. This work is protected by the corresponding intellectual and industrial property rights. Without prejudice to any existing legal exemptions, reproduction, distribution, public communication or transformation of this work are prohibited without permission of the copyright holder