Recurrent Neural Networks for Speaker Dependent Language Modeling
Tutor / directorFuhs, Mark
Tipus de documentProjecte/Treball Final de Carrera
Data2014-08
Condicions d'accésAccés obert
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya
Abstract
[ANGLÈS] This work focuses on building and testing statistical language models based on recurrent neural networks. Although both speaker independent and dependent language models will be discussed and compared, this thesis makes emphasis on the speaker dependent scenario when building complete automatic speech recognition systems. Traditional techniques for estimating language models are based on N-gram counts and they basically remained the state-of-the-art for many applications. Recently, faster CPUs and efficient techniques made it possible to apply RNN-based language models to state-of-the-art systems efficiently. In this Thesis, you will see reductions in perplexity of RNN-based speaker dependent language models up to 25\% relative. The work was carried out at the Department of Speech Technology in M*Modal, Pittsburgh, PA, during the academic year 2013/2014. [CASTELLÀ] Este trabajo se centra en el desarrollo de modelos de lenguaje estadísticos basados en redes neuronales recurrentes. Aunque los dos escenarios "speaker dependent" y "speaker independent" serán contemplados, discutidos y comparados, este proyecto de final de carrera se centra en el dependiente a la hora de desarrollar sistemas completos de reconocimiento de voz. Las técnicas tradicionales para estimar modelos de lenguaje son basadas en n-gramas, y básicamente han permanecido el estado del arte para muchas aplicaciones. Recientemente, con la mejora de rendimiento de las CPUs y con técnicas para reducir el tiempo de computación de las redes neuronales, ha sido posible aplicar modelos de lenguaje basados en RNNs a sistemas reales. En este trabajo, se verán reducciones de perplejidad de hasta el 25\% relativo cuando usamos este tipo de modelos de lenguaje. El trabajo se llevó a cabo en el departamento de tecnologías del habla en M*Modal, Pittsburgh, Pennsylvania, durante el año académico 2013/2014. [CATALÀ] Aquest treball es centra en el desenvolupament de models de llenguatge estadístics basats en xarxes neuronals recurrents. Encara que ambdós escenaris "speaker dependent" i "speaker independent" seran contemplats i comparats, aquest projecte de final de carrera es centra en el dependent a l'hora de desenvolupar sistemes complets de reconeixement de veu. Les tècniques tradicionals per estimar models de llenguatge són basades en n-grames, i bàsicament s'han mantingut com a l'estat de l'art per moltes aplicacions. Recentment, amb la millora del rendiment de les CPUs i amb tècniques per reduir el temps de computació de les xarxes neuronals, ha estat possible aplicar models de llenguatge basats en RNNs a sistemes reals. En aquest treball, es veuran reduccions de perplexitat de fins al 25\% relatiu quan utilitzem aquest tipus de models de llenguatge. El treball es va dur a terme en el departament de tecnologies de la parla a M*Modal, Pittsburgh, Pennsylvania, durant l'any acadèmic 2013/2014.
MatèriesAutomatic speech recognition, Neural networks (Computer science), Reconeixement automàtic de la parla, Xarxes neuronals (Informàtica)
TitulacióENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
Recurrent Neura ... g - David Bofill Pages.pdf | 1,163Mb | Visualitza/Obre |