Generació d'un dataset sintètic de parla artificial per entrenar un sistema de comprensió de la parla com a sistema de control d'un videojoc

dc.audience.degreeGRAU EN ENGINYERIA INFORMÀTICA (Pla 2010)
dc.audience.educationlevelGrau
dc.audience.mediatorFacultat d'Informàtica de Barcelona
dc.contributorHernando Pericás, Francisco Javier
dc.contributorZevallos Salazar, Rodolfo Joel
dc.contributor.authorLu, Xin
dc.contributor.covenanteeBarcelona Supercomputing Center
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2025-11-04T17:36:39Z
dc.date.issued2025-10-22
dc.date.updated2025-10-29T07:00:13Z
dc.description.abstractLes tecnologies de parla han avançat considerablement en els darrers anys gràcies als progressos en l'aprenentatge profund, assolint una qualitat de reconeixement i de síntesi de veu molt propera a la natural. Aquest projecte se centra en la creació de conjunts de dades sintètiques destinats a l'entrenament de models de comprensió del llenguatge parlat (SLU) aplicats a entorns de videojoc en català. Davant la manca de corpus específics per a aquest domini, s'ha proposat un mètode d'augmentació de dades (DA) basat en la síntesi de veu (TTS) mitjançant el model Matcha-TTS, capaç de generar àudios naturals, expressius i multillocutor. Les mostres generades s'han processat i adaptat per a l'entrenament d'un model SLU basat en Whisper, amb l'objectiu d'interpretar ordres de veu amb alta precisió i eficiència. L'avaluació del sistema evidencia una millora significativa tant en la qualitat acústica com en el rendiment del model, fet que confirma que l'ús de dades sintètiques és una estratègia efectiva per optimitzar els models de parla i afavorir experiències interactives més naturals en català.
dc.description.abstractSpeech technologies have advanced significantly in recent years thanks to the progress made in deep learning, achieving a level of speech recognition and synthesis quality that is very close to natural. These advances have encouraged their application in various domains such as voice assistants, accessibility tools, and, especially, interactive video games. This project focuses on the creation of synthetic datasets aimed at training Spoken Language Understanding (SLU) models applied to video game environments in Catalan. Due to the lack of domain-specific corpora, a data augmentation (DA) method based on Text-to-Speech (TTS) synthesis using the Matcha-TTS model has been proposed, capable of generating natural, expressive, and multi-speaker audio samples. The generated samples were processed and adapted for training an SLU model based on Whisper, aimed at interpreting voice commands with high precision and efficiency. The system evaluation shows a significant improvement in both acoustic quality and model performance, confirming that the use of synthetic data is an effective strategy to optimize speech models and promote more natural and interactive experiences in Catalan.
dc.description.abstractLas tecnologías del habla han avanzado notablemente en los últimos años gracias a los progresos en el aprendizaje profundo, alcanzando una calidad de reconocimiento y de síntesis de voz muy cercana a la natural. Estos avances han impulsado su aplicación en múltiples ámbitos, como los asistentes de voz, las herramientas de accesibilidad y, especialmente, los videojuegos interactivos. Este proyecto se centra en la creación de conjuntos de datos sintéticos destinados al entrenamiento de modelos de comprensión del lenguaje hablado (SLU) aplicados a entornos de videojuego en catalán. Ante la falta de corpus específicos para este dominio, se ha propuesto un método de aumento de datos basado en la síntesis de voz (TTS) mediante el modelo Matcha-TTS, capaz de generar audios naturales, expresivos y multilocutor. Las muestras generadas se han procesado y adaptado para el entrenamiento de un modelo SLU basado en Whisper, con el objetivo de interpretar órdenes de voz con alta precisión y eficiencia. La evaluación del sistema evidencia una mejora significativa tanto en la calidad acústica como en el rendimiento del modelo, lo que confirma que el uso de datos sintéticos es una estrategia efectiva para optimizar los modelos de habla y favorecer experiencias interactivas más naturales en catalán.
dc.identifier.slug198014
dc.identifier.urihttps://hdl.handle.net/2117/445275
dc.language.isocat
dc.publisherUniversitat Politècnica de Catalunya
dc.rights.accessOpen Access
dc.subjectÀrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural
dc.subject.lcshNatural language processing (Computer science)
dc.subject.lcshText-to-speech software
dc.subject.lcshVideo games
dc.subject.lcshCatalan language
dc.subject.lemacTractament del llenguatge natural (Informàtica)
dc.subject.lemacSíntesi de la parla (Programari)
dc.subject.lemacVideojocs
dc.subject.lemacCatalà
dc.subject.otherAugmentació de dades (DA)
dc.subject.otherSíntesi de veu (TTS)
dc.subject.otherDades sintètiques
dc.subject.otherComprensió del llenguatge parlat (SLU)
dc.subject.otherXarxes neuronals profundes
dc.subject.otherData augmentation (DA)
dc.subject.otherText-to-Speech (TTS)
dc.subject.otherSynthetic data
dc.subject.otherSpoken language understanding (SLU)
dc.subject.otherDeep learning
dc.titleGeneració d'un dataset sintètic de parla artificial per entrenar un sistema de comprensió de la parla com a sistema de control d'un videojoc
dc.typeBachelor thesis
dspace.entity.typePublication

Fitxers

Paquet original

Mostrant 1 - 1 de 1
Carregant...
Miniatura
Nom:
198014.pdf
Mida:
5.77 MB
Format:
Adobe Portable Document Format