Expressive speech synthesis from Broadcast News

Visualitza/Obre
Tipus de documentTreball Final de Grau
Data2016-09-28
Condicions d'accésAccés obert
Abstract
Speech Synthesis is the computer process of converting text to voice. This project consists in the synthesis of voices that can tell news with an appropriate expression, since it is important to achieve expressiveness on the generated speech in order to obtain natural sounding voices. Conventional Speech Synthesis systems use as training data audios signals, specifically recorded for voice models training. Nevertheless, in this project the data was obtained from a news TV station, in order to test a different database in the speech synthesis. An important part of the work done in this TFG has been preparing data later used in synthesis. The audio and its transcriptions were labeled so as to differentiate the expressions recorded: explaining good or bad news, or talking about relevant or trivial topics. A phonetic segmentation of the database was obtained in order to create the models used in the speech synthesis. After preparing all the audio and transcriptions data, statistical-parametric models were estimated and used to synthesize test voices, in order to evaluate the previous setup work. All the project has been developed in a Linux environment, using Ogmios, AHOCoder and HTS-toolkit as main software. The results obtained after synthesizing the voices shows that the data preparation process is correct, but the voices synthesized had not the enough quality. This is due to the adaptation of the voices towards heterogeneous samples, originated by the amount of different speakers used to train the models. La síntesis de voz es el proceso informático mediante el cual se transforma texto a voz. Este proyecto consiste en la síntesis de voces que puedan explicar notícias con una expresión adecuada, ya que es importante obtener expresividad en el habla generada para poder generar voces con naturalidad expresiva. Los sistemas de síntesis del habla convencionales utilizan como datos de entrenamiento voces grabadas expresamente para el entrenamiento de los modelos. No obstante, en este proyecto se ha creado una base de datos a partir de unas grabaciones de un canal de televisión especializado en noticias, ya que se queria probar la síntesis de voz con una base de datos diferente. Una parte importante del trabajo llevado a cabo en este TFG ha sido la preparación de los datos utilizados en la grabación. Las grabaciones y sus transcripciones se etiquetaron con la intención de diferenciar las expresiones grabadas: explicando buenas o malas noticias, o hablando de temas relevantes o triviales. Se ha obtenido una segmentación de la base de datos con tal de crear los modelos utilizados en la síntesis del habla. Una vez preparados los audios y sus respectivas transcripciones, se estimaron los modelos estadístico-paramétricos y se utilizaron para sintetizar las voces de prueba, con el objetivo de evaluar el trabajo de preparación anterior. Todo el proyecto se ha realizado en un entorno Linux, utilizando \emph{Ogmios}, \emph{AHOCoder} y HTS-toolkit como software principal. Los resultados obtenidos después de la síntesis muestran que la preparación de los datos es correcta, pero las voces sintetizadas no tenian la calidad suficiente. Esto se debe a la adaptación de las voces a partir de una base de datos muy heterogénea, debido a la cantidad de hablantes diferentes contemplados en el entrenamiento de los modelos. La síntesi de veu es el procés informàtic que transforma text a veu. Aquest projecte consisteix en la sínteis de veus que poden explicar notícies amb una expressió adient, ja que és important obtenir expressivitat en la parla generada per tal d'obtenir veus amb naturalitat expressiva. Els sistemes de síntesis de la parla convencionals utilitzen com a dades d'entrenament veus gravades expressament pel entrenament dels models. No obstant, en aquest projecte s'ha creat una base de dades a partir d'unes gravacions d'un canal de televisió especialitzat en notícies, ja que es volia provar a sintetizar veu amb una base de dades diferent. Una part important del treball dut a terme en aquest TFG ha sigut preparar les dades desp?es utilitzades en l'entrenament. Les gravacions i les seves transcripcions van ser etiquetades amb la intenció de diferenciar les epxressions gravades: explicant males o bones notícies, o parlant de temes rellevants o trivials. S'ha obtingut una segmentació de la base de dades per tal de crear els models utilitzats en la síntesi de la parla. Una vegada preparat els audios i les seves transcripcions, es van estimar models estadístic-paramètrics i es van utilitzar per sintetizar les veu de prova, amb l'objectiu de evaluar el treball de preparació anterior. Tot el projecte s'ha realitzat en un entorn Linux, fent servir \emph{Ogmios}, \emph{AHOCoder} i HTS-toolkit com a software principal. Els resultats obtinguts desprès de la síntesi mostren que la preparació de les dades es correcta, però les veus sintetitzades no teníen qualitat suficient. Això es deu a l'adaptacio de les veus a partir d'una base de dades molt heterogènia, degut a la quantitat de parlants diferents contemplats en l'entrenament dels models.
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
Joaquin_Luzon_Degree_Thesis.pdf | 582,6Kb | Visualitza/Obre |
Llevat que s'hi indiqui el contrari, els continguts d'aquesta obra estan subjectes a la llicència de Creative Commons:
Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya