Deep Neural Networks for Channel Compensated i-Vectors in Speaker Recognition
View/Open
Cita com:
hdl:2117/79971
Document typeBachelor thesis
Date2014-06
Rights accessOpen Access
Except where otherwise noted, content on this work
is licensed under a Creative Commons license
:
Attribution-NonCommercial-NoDerivs 3.0 Spain
Abstract
This thesis explores the application of channel-compensation techniques in speaker verification and the posterior combination with deep learning technologies. The idea is to reduce the degradation of the performance due to mismatched environments when training and testing the system as well as increasing the accuracy and reliability of the speaker verification systems. To achieve the goals, state-of-the-art techniques such as i-vector modeling, PLDA and DNNs will be applied. In this thesis we propose channel-compensated i-vectors that are extracted using the PLDA technique called Beta vectors. We apply deep learning using a hybrid DBN-DNN architecture with these Beta vectors as an input. At the end, with the Beta vector proposal and scoring with the cosine metric we obtain a relative improvement of 21.4% and 21% in the EER and minDCF with respect the raw i-vectors. If we change the classifier to the DNN the relative improvement increases to 32.3% and 32.1%, respectively. Our Beta-DNN outperforms the i-vector-DNN baseline system with 18.9% and 25% relative improvement in ERR and minDCF. Esta tesis explora la aplicación de técnicas de compensación de canal en el ámbito de verificación del hablante i su combinación posterior con deep learning. La idea es reducir la degradación del funcionamiento debida a que el entrenamiento y los test se realizan en diferentes ambientes y a la vez aumentar la precisión y fiabilidad de los sistemas de verificación del hablante. Para conseguir los objetivos utilizaremos técnicas punteras como por ejemplo modelado con i-vectors, PLDA o DNNs. En esta tesis proponemos unos i-vectors con compensación de canal llamados Beta vectors que son extraídos utilizando la técnica del PLDA. Aplicaremos deep learning con una arquitectura híbrida DBN-DNN que tendrá como entrada los Beta vectors propuestos. Al final, con la propuesta de los Beta vectors y utilizando la distancia de coseno como métrica obtenemos una mejora relativa de 21.4% i 21% en el EER i el minDCF con respecto a los i-vectors sin procesar. Si cambiamos el clasificador y aplicamos la DNN propuesta, la mejora relativa incrementa hasta un 32.3% y un 32.1% respectivamente. Si comparamos nuestro sistema Beta-DNN com el sistema i-vector-DNN de referencia vemos que lo superamos con una mejora de 18.9% en el EER y un 25% en el minDCF. Aquesta tesis explora l’aplicació de tècniques de compensació de canal a l’àmbit de verificació de parlant i la seva combinació posterior amb deep learning. La idea és reduir la degradació del funcionament deguda a que els entrenaments i els tests produeixen en diferents ambients i alhora incrementar la precisió i fiabilitat dels sistemes de verificació de parlant. Per aconseguir els objectius aplicarem tècniques punteres com per exemple modelat amb i-vectors, PLDA, o DNNs. A aquesta tesis proposem uns i-vectors amb compensació de canal anomenats Beta vectors que són extrets utilitzant la tècnica del PLDA. Aplicarem deep learning amb una arquitectura híbrida DBN-DNN que tindrà com a entrada els Beta vectors proposats. Al final, amb la proposta dels Beta vectors i utilitzant la distància de cosinus com a mètrica obtenim una millora relativa de 21.4% i 21% en el EER i el minDCF amb respecte de els i-vectors sense processar. Si canviem el classificador i apliquem la DNN proposada la millora relativa incrementa fins a 32.3% and 32.1% respectivament. Si comparem el nostre sistema Beta-DNN amb el sistema i-vector-DNN de referència veiem que el superem amb una millora de 18.9% en EER i un 25% en minDCF.
Description
Integration of discriminative techniques related to Deep Belief Networks to improve current generative automatic speaker recognition systems.
SubjectsAutomatic speech recognition, Neural networks (Computer science), Reconeixement automàtic de la parla, Xarxes neuronals (Informàtica)
DegreeGRAU EN CIÈNCIES I TECNOLOGIES DE TELECOMUNICACIÓ (Pla 2010)
Files | Description | Size | Format | View |
---|---|---|---|---|
thesis_f.pdf | 1,752Mb | View/Open |