Deep Neural Networks for Channel Compensated i-Vectors in Speaker Recognition

Jiménez Sanfiz, Albert

dc.contributor	Hernando Pericás, Francisco Javier
dc.contributor.author	Jiménez Sanfiz, Albert
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned	2015-11-26T13:54:06Z
dc.date.available	2015-11-26T13:54:06Z
dc.date.issued	2014-06
dc.identifier.uri	http://hdl.handle.net/2117/79971
dc.description	Integration of discriminative techniques related to Deep Belief Networks to improve current generative automatic speaker recognition systems.
dc.description.abstract	This thesis explores the application of channel-compensation techniques in speaker verification and the posterior combination with deep learning technologies. The idea is to reduce the degradation of the performance due to mismatched environments when training and testing the system as well as increasing the accuracy and reliability of the speaker verification systems. To achieve the goals, state-of-the-art techniques such as i-vector modeling, PLDA and DNNs will be applied. In this thesis we propose channel-compensated i-vectors that are extracted using the PLDA technique called Beta vectors. We apply deep learning using a hybrid DBN-DNN architecture with these Beta vectors as an input. At the end, with the Beta vector proposal and scoring with the cosine metric we obtain a relative improvement of 21.4% and 21% in the EER and minDCF with respect the raw i-vectors. If we change the classifier to the DNN the relative improvement increases to 32.3% and 32.1%, respectively. Our Beta-DNN outperforms the i-vector-DNN baseline system with 18.9% and 25% relative improvement in ERR and minDCF.
dc.description.abstract	Esta tesis explora la aplicación de técnicas de compensación de canal en el ámbito de verificación del hablante i su combinación posterior con deep learning. La idea es reducir la degradación del funcionamiento debida a que el entrenamiento y los test se realizan en diferentes ambientes y a la vez aumentar la precisión y fiabilidad de los sistemas de verificación del hablante. Para conseguir los objetivos utilizaremos técnicas punteras como por ejemplo modelado con i-vectors, PLDA o DNNs. En esta tesis proponemos unos i-vectors con compensación de canal llamados Beta vectors que son extraídos utilizando la técnica del PLDA. Aplicaremos deep learning con una arquitectura híbrida DBN-DNN que tendrá como entrada los Beta vectors propuestos. Al final, con la propuesta de los Beta vectors y utilizando la distancia de coseno como métrica obtenemos una mejora relativa de 21.4% i 21% en el EER i el minDCF con respecto a los i-vectors sin procesar. Si cambiamos el clasificador y aplicamos la DNN propuesta, la mejora relativa incrementa hasta un 32.3% y un 32.1% respectivamente. Si comparamos nuestro sistema Beta-DNN com el sistema i-vector-DNN de referencia vemos que lo superamos con una mejora de 18.9% en el EER y un 25% en el minDCF.
dc.description.abstract	Aquesta tesis explora l’aplicació de tècniques de compensació de canal a l’àmbit de verificació de parlant i la seva combinació posterior amb deep learning. La idea és reduir la degradació del funcionament deguda a que els entrenaments i els tests produeixen en diferents ambients i alhora incrementar la precisió i fiabilitat dels sistemes de verificació de parlant. Per aconseguir els objectius aplicarem tècniques punteres com per exemple modelat amb i-vectors, PLDA, o DNNs. A aquesta tesis proposem uns i-vectors amb compensació de canal anomenats Beta vectors que són extrets utilitzant la tècnica del PLDA. Aplicarem deep learning amb una arquitectura híbrida DBN-DNN que tindrà com a entrada els Beta vectors proposats. Al final, amb la proposta dels Beta vectors i utilitzant la distància de cosinus com a mètrica obtenim una millora relativa de 21.4% i 21% en el EER i el minDCF amb respecte de els i-vectors sense processar. Si canviem el classificador i apliquem la DNN proposada la millora relativa incrementa fins a 32.3% and 32.1% respectivament. Si comparem el nostre sistema Beta-DNN amb el sistema i-vector-DNN de referència veiem que el superem amb una millora de 18.9% en EER i un 25% en minDCF.
dc.language.iso	eng
dc.publisher	Universitat Politècnica de Catalunya
dc.rights	S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject	Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcsh	Automatic speech recognition
dc.subject.lcsh	Neural networks (Computer science)
dc.subject.other	speaker recognition
dc.subject.other	speaker verification
dc.subject.other	i-vectors
dc.subject.other	plda
dc.subject.other	deep neural networks
dc.subject.other	speaker recognition
dc.subject.other	speaker verification
dc.subject.other	i-vectors
dc.subject.other	plda
dc.subject.other	deep neural networks
dc.subject.other	Processament de la parla -- PFC
dc.title	Deep Neural Networks for Channel Compensated i-Vectors in Speaker Recognition
dc.type	Bachelor thesis
dc.subject.lemac	Reconeixement automàtic de la parla
dc.subject.lemac	Xarxes neuronals (Informàtica)
dc.identifier.slug	ETSETB-230.109976
dc.rights.access	Open Access
dc.date.updated	2015-08-06T05:51:03Z
dc.audience.educationlevel	Grau
dc.audience.mediator	Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degree	GRAU EN CIÈNCIES I TECNOLOGIES DE TELECOMUNICACIÓ (Pla 2010)

Fitxers d'aquest items

Nom:: thesis_f.pdf
Mida:: 1,752Mb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Grau en Ciències i Tecnologies de la Telecomunicació (Pla 2010) [186]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Deep Neural Networks for Channel Compensated i-Vectors in Speaker Recognition

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora