Mostra el registre d'ítem simple

dc.contributorBonafonte Cávez, Antonio
dc.contributorPascual de la Puente, Santiago
dc.contributor.authorGómez Sánchez, Gonzalo
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2016-11-14T14:45:14Z
dc.date.available2016-11-14T14:45:14Z
dc.date.issued2016-09-28
dc.identifier.urihttp://hdl.handle.net/2117/96624
dc.descriptionLas técnicas de aprendizaje profundo están teniendo unas excelentes prestaciones en muchas tareas relacionadas con el habla, tales como reconocimiento o síntesis. Muchos de los trabajos se apoyan en modelos de voz, o técnicas de análisis clásicas, como el espectrograma o el MFCC. En este proyecto se desea sustituir estas técnicas por redes neuronales profundas que puedan autodiseñarse para modelar la señal. Una aplicación que puede plantearse para validar esta tecnología es codificación.
dc.description.abstractVoice generation, also known as Speech Synthesis, is the artificial production of human speech. In the last decade, the Speech Synthesis research has been focused on a technique called Statistical Parametric Speech Synthesis. This technique uses a statistical model that obtains parameters (acoustic features) to define the signal out of a text. These parameters are then converted into a waveform using a vocoder. The use of the vocoder is needed but it decreases the quality of the obtained audio. In the past few years, Deep Learning techniques have shown great performance in many fields. One of them is Speech Synthesis, where Deep Learning is used as a substitute for the statistical model, obtaining the parameters that define the signal with great effectiveness. However, the quality of the synthesis is still affected by the use of the vocoder. For this reason, in this work, we investigate how to generate the audio waveform out of the parameters using Deep Neural Networks. If it results to work, it could be possible to build a DNN system that generates an audio waveform using text as input, leaving the vocoder out of the scheme. Different architectures were tested before getting to the final model. The first attempt was to directly map the frames of the signal using a Long Short-Term Memory Recurrent Neural Network. In the second one, instead of generating the signal frame by frame we did it sample by sample. We tried a different architecture in the third model, using a Clockwork RNN. Finally, in the fourth model we used again an LSTM, but this time, we generated the signal by frequency sub-bands, using Pseudo-Quadrature Mirror Filter banks. The models that showed better performance were the second and the fourth. Neverthe- less, the computational cost of the second one is too high. We solved this problem in the fourth model. Generating the signal by sub-bands allows us to parallelize the problem and decrease the computational cost significantly. Although it is a great success that the system is able to generate an intelligible audio waveform without a parametric description, the voice obtained is not natural enough to be a competitive technology. These experiments leave the door open to a Text-to-Speech system completely based on Deep Learning, avoiding the use of the vocoder. We think that with deeper research, this architecture could overcome the quality of the state of the art systems.
dc.description.abstractLa generación de voz, también conocida como Síntesis de Habla, es la producción artificial de habla humana. En la última década, la investigación de Síntesis de Habla se ha centrado en una técnica llamada Síntesis Estadística Paramétrica de Habla. Esta técnica utiliza un modelo estadístico y genera los parámetros acústicos más probables, condicionados al texto de entrada. Estos parámetros son convertidos en forma de onda utilizando un vocoder. El uso de este vocoder es necesario en la síntesis estadística, pero limita la calidad del audio que puede obtenerse. En los últimos años, las técnicas de Aprendizaje Profundo han obtenido importantes resultados en muchos campos. Uno de ellos es la Síntesis de Habla, donde el Aprendizaje Profundo es usado como sustituto de los modelos estadísticos tradicionales, basados en Modelos Ocultos de Markov, obteniendo los parámetros que definen la señal. Sin embargo, la calidad sigue afectada por el uso del vocoder. Por esta razón, en este trabajo hemos investigado como generar una forma de onda, partiendo de parámetros, mediante Redes Neuronales Profundas. Si funcionara, sería posible construir un sistema basado en Redes Neuronales Profundas que genere una forma de onda utilizando texto como entrada, sin necesitar el vocoder. Se han probado diferentes arquitecturas antes de llegar al modelo final. El primer intento fue mapear directamente las muestras de la señal de audio utilizando una Red Neuronal Recurrente con Memoria a Largo y Corto Plazo. (LSTM-RNN). En el segundo, en vez de generar la señal trama a trama, se ha generado muestra a muestra. Se ha probado también una arquitectura diferente en el tercer modelo, utilizando una Red Neuronal Recurrente 'Clockwork'. Finalmente, en el cuarto modelo, usamos de nuevo una LSTM-RNN, pero esta vez, generamos la señal por bandas frecuenciales, usando \textit{Pseudo Quadrature-Mirror Filters} (PQMF). Los modelos que han obtenido mejores resultados han sido el segundo y el cuarto. Sin embargo, el coste computacional del segundo es demasiado alto. Hemos resuelto este problema en el cuarto modelo: generando la señal por subbandas permitimos la paralelización del problema y disminuimos significativamente el coste computacional. A pesar del éxito que supone que el sistema sea capaz de generar una forma de onda continua, prescindiendo de una representación paramétrica e inteligible, la voz generada aún no es lo suficientemente natural como para que sea una tecnología competitiva. Estos experimentos dejan la puerta abierta a un sistema de conversión de texto en habla completamente basado en Aprendizaje Profundo, evitando el uso de un vocoder. Pensamos que, con una investigación más profunda, esta arquitectura podría sobrepasar la calidad de los sistemas del estado del arte.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshMachine learning
dc.subject.lcshNeural networks (Computer science)
dc.subject.otherDeep Learning
dc.subject.otherneural networks
dc.subject.othervoice synthesis
dc.subject.otherAprendizaje profundo
dc.subject.othergeneración de voz
dc.subject.othersíntesis de habla
dc.titleVoice generation using deep learning
dc.title.alternativeGeneración de Voz utilizando Aprendizaje Profundo
dc.typeBachelor thesis
dc.subject.lemacAprenentatge automàtic
dc.subject.lemacXarxes neuronals (Informàtica)
dc.identifier.slugETSETB-230.118533
dc.rights.accessOpen Access
dc.date.updated2016-11-10T06:51:52Z
dc.audience.educationlevelGrau
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degreeGRAU EN ENGINYERIA DE SISTEMES AUDIOVISUALS (Pla 2009)


Fitxers d'aquest items

Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple