Mostra el registre d'ítem simple
Noise Reduction for ILSE Interviews
dc.contributor | Schultz, Tanja |
dc.contributor.author | Pastrana Costa, Asunción |
dc.contributor.other | Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions |
dc.date.accessioned | 2015-12-01T17:14:19Z |
dc.date.available | 2015-12-01T17:14:19Z |
dc.date.issued | 2015-04-30 |
dc.identifier.uri | http://hdl.handle.net/2117/80093 |
dc.description | Research on algorithms and tools to rapidly adapt speech and language processing systems to new domains and languages. |
dc.description.abstract | This thesis presents a research on noise reduction in order to improve automatic speech recognition (ASR) applied to the ILSE (Interdisciplinary Longitudinal Study on Adult Development and Aging) interviews. The first interviews were recorded more than 20 years ago and new ones are still recorded nowadays. This results in varying recording conditions. In the first recordings, external conditions were not taken into account since ASR was not considered. This, plus the loss of quality due to the tape’s aging, make the available data very noisy. After some investigation, it was found that the best way to approach this goal was to apply cepstral normalization. In this direction, three techniques have been implemented: noise cepstral mean normalization (NCMN), noise cepstral mean and variance normalization (NCMVN), and noise cepstral squared normalization (NCSN). The results of this methods don’t improve the word error rates (WER) from the best approach; 76.30% for the baseline, 76.41% for NCMN, 77.00% NCMVN and 83.05% for NCSN. However, the results prove that the acoustic model (AM) built NCMVN is the most accurate. Although NCSN is the approach that provides higher WER, this technique improves the number of substituted as well as inserted words. This, plus NCMVN’s acoustic model, could inspire future research. |
dc.description.abstract | Este proyecto final de carrera tiene por objetivo reducir el ruido para mejorar el reconocimiento automático del habla que se utiliza en las entrevistas grabadas por ILSE (Interdisciplinary Longitudinal Study on Adult Development and Aging). Las primeras de estas entrevistas fueron grabadas hace más de veinte años y las más actuales se graban en la actualidad. Éste es uno de los motivos por los que las condiciones de grabado en los datos empleados son muy variantes. Además, en las grabaciones más antiguas el reconocimiento automático del habla no se contemplaba como mecanismo para transcribir dichas entrevistas y, por este motivo, las condiciones externas que afectan a la calidad de la grabación no se tuvieron en cuenta. Como último factor relevante, cabe destacar que las cintas utilizadas se han ido deteriorando con el tiempo afectando también a los resultados. Tras la correspondiente investigación previa, la normalización del cepstrum fue considerada la mejor técnica para afrontar el objetivo. Siguiendo esta idea, se aplicaron tres formas distintas de normalizar el cepstrum: normalización en media con el cepstrum del ruido (NCMN), normalización en media y varianza con el cepstrum del ruido (NCMVN) y, finalmente, la normalización con los coeficientes del cepstrum del ruido al cuadrado (NCSN). Los resultados obtenidos por dichas técnicas no mejoran las tasas de error (word error rate, WER) de otros métodos aplicados previamente: 76.30% de error para la referencia, 76.41% para NCMN, 77.00% para NCMVN y 83.05% para NCSN. Sin embargo, los resultados prueban que el modelo acústico desarrollado para NCMVN es el más apropiado. Apesar de que NCSN es el método que resulta tener la tasa de error más elevada, esta técnica mejora tanto el número de palabras substituidas como el de añadidas erróneamente. Ésto, junto con el modelo acústico de NCMVN, puede inspirar futuras investigaciones. |
dc.description.abstract | Aquest projecte final de carrera té per objectiu reduir el soroll per tal de millorar el reconeixement automàtic de la parla de les entrevistes gravades per ILSE (Interdisciplinary Longitudinal Study on Adult Development and Aging). Les primeres d'aquestes entrevistes foren enregistrades fa més de vint anys i les més recents encara es graven a l'actualitat. La diferència temporal en que aquestes foren enregistrades provoca que les condicions de les gravaciones siguin diferents. Més enllà de les diferències tecnològiques, cal tindre en compte que fa 20 anys la transcripció d'aquestes entrevistes de manera automàtica no es contemplava i per aquest motiu, quan s'enregistraven les entrevistes, les condicions externes que afectaven la gravació no es tenien en compte. A més a més, les cintes de gravació han perdut qualitat amb el temps, afectant el reconeixement de la parla. Després de fer la corresponent investigació, la normalització del cepstrum fou considerada la millor tècnica per afrontar l'objectiu citat. Seguint aquesta idea, tres tècniques diferents foren aplicades: normalització en mitja amb el cepstrum del soroll (NCMN), normalització en mitja i variança amb el cepstrum del soroll (NCMVN) i, finalment, normalització amb els coeficients al quadrat del cepstrum del soroll (NCSN). Els resultats obtinguts per aquestes tècniques no milloren la tassa d'error per paraula (word error rate, WER) d'altres mètodes aplicats amb anterioritat: 76.30% d'error per a la referència, 76.41% per a NCMN, 77.00% per a NCMVN i 83.05% per a NCSN. Aquests resultats proben que el model acústic que fou construit per a NCMVN és el més adequat. Tot i els resultats observats per a NCSN en quant a tassa d'error no són favorables, aquesta tècnica millora tant el número de paraules substituides com les afegides de manera errònia. Tant això, com el model acústic de NCMVN, poden inspirar futures millores. |
dc.language.iso | eng |
dc.publisher | Universitat Politècnica de Catalunya |
dc.rights | S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada' |
dc.subject | Àrees temàtiques de la UPC::Enginyeria de la telecomunicació |
dc.subject.lcsh | Speech processing systems |
dc.subject.other | ASR |
dc.subject.other | speech processing |
dc.subject.other | noise reduction |
dc.subject.other | Procesado de voz |
dc.subject.other | reducción de ruido |
dc.subject.other | ASR |
dc.subject.other | Soroll -- PFC |
dc.title | Noise Reduction for ILSE Interviews |
dc.title.alternative | Noise Reduction for ILSE Interviews Noise Reduction for ILSE Interviews Noise Reduction for ILSE Interviews |
dc.type | Master thesis (pre-Bologna period) |
dc.subject.lemac | Processament de la parla |
dc.identifier.slug | ETSETB-230.105160 |
dc.rights.access | Open Access |
dc.date.updated | 2015-07-10T05:51:35Z |
dc.audience.educationlevel | Estudis de primer/segon cicle |
dc.audience.mediator | Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona |
dc.audience.degree | ENGINYERIA DE TELECOMUNICACIÓ (Pla 1992) |
dc.contributor.covenantee | Karlsruher Institut für Technologie |