Generació d'un dataset sintètic de parla artificial per entrenar un sistema de comprensió de la parla com a sistema de control d'un videojoc
Títol de la revista
ISSN de la revista
Títol del volum
Autors
Correu electrònic de l'autor
Tutor / director
Tribunal avaluador
Realitzat a/amb
Tipus de document
Data
Condicions d'accés
item.page.rightslicense
Publicacions relacionades
Datasets relacionats
Projecte CCD
Abstract
Les tecnologies de parla han avançat considerablement en els darrers anys gràcies als progressos en l'aprenentatge profund, assolint una qualitat de reconeixement i de síntesi de veu molt propera a la natural. Aquest projecte se centra en la creació de conjunts de dades sintètiques destinats a l'entrenament de models de comprensió del llenguatge parlat (SLU) aplicats a entorns de videojoc en català. Davant la manca de corpus específics per a aquest domini, s'ha proposat un mètode d'augmentació de dades (DA) basat en la síntesi de veu (TTS) mitjançant el model Matcha-TTS, capaç de generar àudios naturals, expressius i multillocutor. Les mostres generades s'han processat i adaptat per a l'entrenament d'un model SLU basat en Whisper, amb l'objectiu d'interpretar ordres de veu amb alta precisió i eficiència. L'avaluació del sistema evidencia una millora significativa tant en la qualitat acústica com en el rendiment del model, fet que confirma que l'ús de dades sintètiques és una estratègia efectiva per optimitzar els models de parla i afavorir experiències interactives més naturals en català.
Speech technologies have advanced significantly in recent years thanks to the progress made in deep learning, achieving a level of speech recognition and synthesis quality that is very close to natural. These advances have encouraged their application in various domains such as voice assistants, accessibility tools, and, especially, interactive video games. This project focuses on the creation of synthetic datasets aimed at training Spoken Language Understanding (SLU) models applied to video game environments in Catalan. Due to the lack of domain-specific corpora, a data augmentation (DA) method based on Text-to-Speech (TTS) synthesis using the Matcha-TTS model has been proposed, capable of generating natural, expressive, and multi-speaker audio samples. The generated samples were processed and adapted for training an SLU model based on Whisper, aimed at interpreting voice commands with high precision and efficiency. The system evaluation shows a significant improvement in both acoustic quality and model performance, confirming that the use of synthetic data is an effective strategy to optimize speech models and promote more natural and interactive experiences in Catalan.
Las tecnologías del habla han avanzado notablemente en los últimos años gracias a los progresos en el aprendizaje profundo, alcanzando una calidad de reconocimiento y de síntesis de voz muy cercana a la natural. Estos avances han impulsado su aplicación en múltiples ámbitos, como los asistentes de voz, las herramientas de accesibilidad y, especialmente, los videojuegos interactivos. Este proyecto se centra en la creación de conjuntos de datos sintéticos destinados al entrenamiento de modelos de comprensión del lenguaje hablado (SLU) aplicados a entornos de videojuego en catalán. Ante la falta de corpus específicos para este dominio, se ha propuesto un método de aumento de datos basado en la síntesis de voz (TTS) mediante el modelo Matcha-TTS, capaz de generar audios naturales, expresivos y multilocutor. Las muestras generadas se han procesado y adaptado para el entrenamiento de un modelo SLU basado en Whisper, con el objetivo de interpretar órdenes de voz con alta precisión y eficiencia. La evaluación del sistema evidencia una mejora significativa tanto en la calidad acústica como en el rendimiento del modelo, lo que confirma que el uso de datos sintéticos es una estrategia efectiva para optimizar los modelos de habla y favorecer experiencias interactivas más naturales en catalán.

