Generació d'un dataset sintètic de parla artificial per entrenar un sistema de comprensió de la parla com a sistema de control d'un videojoc
| dc.audience.degree | GRAU EN ENGINYERIA INFORMÀTICA (Pla 2010) |
| dc.audience.educationlevel | Grau |
| dc.audience.mediator | Facultat d'Informàtica de Barcelona |
| dc.contributor | Hernando Pericás, Francisco Javier |
| dc.contributor | Zevallos Salazar, Rodolfo Joel |
| dc.contributor.author | Lu, Xin |
| dc.contributor.covenantee | Barcelona Supercomputing Center |
| dc.contributor.other | Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions |
| dc.date.accessioned | 2025-11-04T17:36:39Z |
| dc.date.issued | 2025-10-22 |
| dc.date.updated | 2025-10-29T07:00:13Z |
| dc.description.abstract | Les tecnologies de parla han avançat considerablement en els darrers anys gràcies als progressos en l'aprenentatge profund, assolint una qualitat de reconeixement i de síntesi de veu molt propera a la natural. Aquest projecte se centra en la creació de conjunts de dades sintètiques destinats a l'entrenament de models de comprensió del llenguatge parlat (SLU) aplicats a entorns de videojoc en català. Davant la manca de corpus específics per a aquest domini, s'ha proposat un mètode d'augmentació de dades (DA) basat en la síntesi de veu (TTS) mitjançant el model Matcha-TTS, capaç de generar àudios naturals, expressius i multillocutor. Les mostres generades s'han processat i adaptat per a l'entrenament d'un model SLU basat en Whisper, amb l'objectiu d'interpretar ordres de veu amb alta precisió i eficiència. L'avaluació del sistema evidencia una millora significativa tant en la qualitat acústica com en el rendiment del model, fet que confirma que l'ús de dades sintètiques és una estratègia efectiva per optimitzar els models de parla i afavorir experiències interactives més naturals en català. |
| dc.description.abstract | Speech technologies have advanced significantly in recent years thanks to the progress made in deep learning, achieving a level of speech recognition and synthesis quality that is very close to natural. These advances have encouraged their application in various domains such as voice assistants, accessibility tools, and, especially, interactive video games. This project focuses on the creation of synthetic datasets aimed at training Spoken Language Understanding (SLU) models applied to video game environments in Catalan. Due to the lack of domain-specific corpora, a data augmentation (DA) method based on Text-to-Speech (TTS) synthesis using the Matcha-TTS model has been proposed, capable of generating natural, expressive, and multi-speaker audio samples. The generated samples were processed and adapted for training an SLU model based on Whisper, aimed at interpreting voice commands with high precision and efficiency. The system evaluation shows a significant improvement in both acoustic quality and model performance, confirming that the use of synthetic data is an effective strategy to optimize speech models and promote more natural and interactive experiences in Catalan. |
| dc.description.abstract | Las tecnologías del habla han avanzado notablemente en los últimos años gracias a los progresos en el aprendizaje profundo, alcanzando una calidad de reconocimiento y de síntesis de voz muy cercana a la natural. Estos avances han impulsado su aplicación en múltiples ámbitos, como los asistentes de voz, las herramientas de accesibilidad y, especialmente, los videojuegos interactivos. Este proyecto se centra en la creación de conjuntos de datos sintéticos destinados al entrenamiento de modelos de comprensión del lenguaje hablado (SLU) aplicados a entornos de videojuego en catalán. Ante la falta de corpus específicos para este dominio, se ha propuesto un método de aumento de datos basado en la síntesis de voz (TTS) mediante el modelo Matcha-TTS, capaz de generar audios naturales, expresivos y multilocutor. Las muestras generadas se han procesado y adaptado para el entrenamiento de un modelo SLU basado en Whisper, con el objetivo de interpretar órdenes de voz con alta precisión y eficiencia. La evaluación del sistema evidencia una mejora significativa tanto en la calidad acústica como en el rendimiento del modelo, lo que confirma que el uso de datos sintéticos es una estrategia efectiva para optimizar los modelos de habla y favorecer experiencias interactivas más naturales en catalán. |
| dc.identifier.slug | 198014 |
| dc.identifier.uri | https://hdl.handle.net/2117/445275 |
| dc.language.iso | cat |
| dc.publisher | Universitat Politècnica de Catalunya |
| dc.rights.access | Open Access |
| dc.subject | Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural |
| dc.subject.lcsh | Natural language processing (Computer science) |
| dc.subject.lcsh | Text-to-speech software |
| dc.subject.lcsh | Video games |
| dc.subject.lcsh | Catalan language |
| dc.subject.lemac | Tractament del llenguatge natural (Informàtica) |
| dc.subject.lemac | Síntesi de la parla (Programari) |
| dc.subject.lemac | Videojocs |
| dc.subject.lemac | Català |
| dc.subject.other | Augmentació de dades (DA) |
| dc.subject.other | Síntesi de veu (TTS) |
| dc.subject.other | Dades sintètiques |
| dc.subject.other | Comprensió del llenguatge parlat (SLU) |
| dc.subject.other | Xarxes neuronals profundes |
| dc.subject.other | Data augmentation (DA) |
| dc.subject.other | Text-to-Speech (TTS) |
| dc.subject.other | Synthetic data |
| dc.subject.other | Spoken language understanding (SLU) |
| dc.subject.other | Deep learning |
| dc.title | Generació d'un dataset sintètic de parla artificial per entrenar un sistema de comprensió de la parla com a sistema de control d'un videojoc |
| dc.type | Bachelor thesis |
| dspace.entity.type | Publication |
Fitxers
Paquet original
1 - 1 de 1

