Deep learning applied to speech synthesis

Pascual de la Puente, Santiago

dc.contributor	Bonafonte Cávez, Antonio
dc.contributor.author	Pascual de la Puente, Santiago
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned	2017-01-26T14:50:03Z
dc.date.available	2017-01-26T14:50:03Z
dc.date.issued	2016-06-30
dc.identifier.uri	http://hdl.handle.net/2117/100133
dc.description.abstract	Deep Learning has been applied successfully to speech processing problems. In this work we explore its capabilities, focusing concretely in recurrent neural architectures to build a state of the art Text-To-Speech system from scratch. The different steps to make the full TTS system are shown. Also, a post-filtering method to improve the generated speech naturalness is applied and evaluated. The objective results show which architecture fits better our problem, achieving low error rates in term of cepstral distortion, pitch estimation error and voiced/unvoiced classification error. Also, subjective results suggest that the model achieves a state of the art quality in the synthesis, where the post-filtering factor seems to be a key component to get a good level of naturalness. A novel architecture called Multi-Output TTS is also proposed to hold multiple speakers inside the same structure. Some hidden layers are shared by all the speakers, while there is a specific output layer for each speaker. Objective and perceptual experiments prove that this scheme produces much better results in comparison with single speaker models. Moreover, we also tackle the problem of speaker adaptation by adding a new output branch to the model and successfully training it without the need of modifying the base optimized model. This fine tuning method achieves better results than training the new speaker from scratch with its own model. Finally, we also tackle the problem of speaker interpolation by adding a new output layer (alpha-layer) on top of the Multi-Output branches. An identifying code is injected into the layer together with acoustic features of many speakers. Experiments show that the alpha-layer can effectively learn to interpolate the acoustic features between speakers.
dc.description.abstract	El Deep Learning se ha aplicado con éxito a problemas de procesado del habla. En éste trabajo exploramos las capacidades de ésta disciplina, haciendo especial énfasis en las arquitecturas recurrentes para construir un sistema de síntesis de voz desde cero. Se muestran las distintas etapas para hacer el sistema de síntesis completo. Además se aplica y se evalúa un método de post-procesado con tal de mejorar la naturalidad de la voz generada. Los resultados objetivos muestran qué arquitectura encaja más con nuestro problema, consiguiendo errores bajos en términos de distorsión cepstral, error de estimación de pitch y error de clasificación sonoro/sordo. También los resultados subjetivos indican que el modelo llega a tener una calidad de voz comparable con la de las últimas tecnologías, donde el hecho de aplicar el post-procesado parece ser una pieza clave para obtener un buen nivel de naturalidad. También se propone una arquitectura innovadora llamada Multi-Output TTS, la cual contiene diferentes hablantes dentro de la misma estructura. Algunas capas ocultas se comparten entre todos los hablantes, mientras que hay una capa de salida específica para cada uno de ellos. Los experimentos perceptuales y objetivos muestran que éste esquema produce resultados bastante mejores en comparación con los modelos de hablantes solos. También abordamos el problema de adaptación de hablantes añadiendo una nueva capa de salida al modelo y entrenándola sin necesidad de modificar el sistema base ya optimizado. Éste método de afinado del modelo en la última capa permite obtener mejores resultados que entrenando el modelo del nuevo hablante desde cero con su propio modelo. Finalmente también abordamos el problema de interpolación de hablantes añadiendo una nueva capa sobre las salidas del Multi-Output, la cual se llama capa-alfa. A la nueva capa se le introduce un código de identificación del hablante junto con las características acústicas de los distintos hablantes. Los experimentos muestran que la capa-alfa puede aprender, en efecto, a interpolar valores en un rango intermedio entre los dos hablantes modelados.
dc.description.abstract	El Deep Learning s'ha aplicat amb èxit a problemes de processament de la parla. En aquest treball explorem les capacitats d'aquesta disciplina, fent especial èmfasi en les arquitectures recurrents per a construir un sistema de síntesi de veu des de zero. Es mostren les diferents etapes per fer el sistema de síntesi complet. A més, s'aplica i s'avalua un mètode de post-processament per tal de millorar la naturalitat de la veu generada. Els resultats objectius mostren quina arquitectura encaixa més amb el nostre problema, aconseguint errors baixos en termes de distorsió cepstral, error d'estimació de pitch i error de classificació sonor/sord. També els resultats subjectius indiquen que el model arriba a tenir una qualitat de síntesi comparable amb la de les últimes tecnologíes, on el fet de fer post-processament sembla ser una peça clau per obtenir un bon nivell de naturalitat. També es proposa una arquitectura novedosa anomenada Multi-Output TTS, la qual conté diferents parlants dins la mateixa estructura. Algunes capes ocultes es comparteixen entre tots els parlants, mentres que hi ha una capa de sortida específica per a cada un d'ells. Els experiments perceptuals i objectius mostren que aquest esquema produeix força millors resultats en comparació amb els models de parlants sols. També abordem el problema d'adaptació de parlants afegint una nova capa de sortida al model i entrenant-la sense necessitat de modificar el sistema base ja optimitzat. Aquest mètode d'afinament del model a l'última capa permet obtenir millors resultats que entrenant el model del nou parlant des de zero amb el seu propi model sol. Finalment també abordem el problema d'interpolació de parlants afegint una nova capa sobre les sortides del Multi-Output, la qual es diu capa-alfa. A la nova capa se li insereix un codi d'identificació juntament amb les característiques acústiques dels diferents parlants. Els experiments mostren que la capa-alfa pot aprendre, en efecte, a interpolar valors intermitjos respecte els parlants modelats.
dc.language.iso	eng
dc.publisher	Universitat Politècnica de Catalunya
dc.rights	S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject	Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcsh	Computer Vision
dc.subject.lcsh	Machine Learning
dc.subject.other	speech synthesis
dc.subject.other	deep learning
dc.subject.other	speaker adaptation
dc.subject.other	speaker interpolation
dc.subject.other	neural networks
dc.subject.other	recurrent neural networks
dc.subject.other	TTS
dc.title	Deep learning applied to speech synthesis
dc.title.alternative	Deep Learning aplicat a síntesi de veu
dc.title.alternative	Deep Learning aplicado a síntesis de voz
dc.type	Master thesis
dc.subject.lemac	Visió per ordinador
dc.subject.lemac	Aprenentatge automàtic
dc.identifier.slug	ETSETB-230.119831
dc.rights.access	Open Access
dc.date.updated	2016-08-10T05:51:17Z
dc.audience.educationlevel	Màster
dc.audience.mediator	Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degree	MÀSTER UNIVERSITARI EN ENGINYERIA DE TELECOMUNICACIÓ (Pla 2013)

Fitxers d'aquest items

Nom:: msc-thesis-final.pdf
Mida:: 5,212Mb
Format:: PDF

Visualitza/Obre

Nom:: work plan.zip
Mida:: 244,2Kb
Format:: application/zip

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Master's degree in Telecommunications Engineering (MET) [393]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Deep learning applied to speech synthesis

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora