Show simple item record

dc.contributorHernando Pericás, Francisco Javier
dc.contributor.authorJiménez Sanfiz, Albert
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2015-11-26T13:54:06Z
dc.date.available2015-11-26T13:54:06Z
dc.date.issued2014-06
dc.identifier.urihttp://hdl.handle.net/2117/79971
dc.descriptionIntegration of discriminative techniques related to Deep Belief Networks to improve current generative automatic speaker recognition systems.
dc.description.abstractThis thesis explores the application of channel-compensation techniques in speaker verification and the posterior combination with deep learning technologies. The idea is to reduce the degradation of the performance due to mismatched environments when training and testing the system as well as increasing the accuracy and reliability of the speaker verification systems. To achieve the goals, state-of-the-art techniques such as i-vector modeling, PLDA and DNNs will be applied. In this thesis we propose channel-compensated i-vectors that are extracted using the PLDA technique called Beta vectors. We apply deep learning using a hybrid DBN-DNN architecture with these Beta vectors as an input. At the end, with the Beta vector proposal and scoring with the cosine metric we obtain a relative improvement of 21.4% and 21% in the EER and minDCF with respect the raw i-vectors. If we change the classifier to the DNN the relative improvement increases to 32.3% and 32.1%, respectively. Our Beta-DNN outperforms the i-vector-DNN baseline system with 18.9% and 25% relative improvement in ERR and minDCF.
dc.description.abstractEsta tesis explora la aplicación de técnicas de compensación de canal en el ámbito de verificación del hablante i su combinación posterior con deep learning. La idea es reducir la degradación del funcionamiento debida a que el entrenamiento y los test se realizan en diferentes ambientes y a la vez aumentar la precisión y fiabilidad de los sistemas de verificación del hablante. Para conseguir los objetivos utilizaremos técnicas punteras como por ejemplo modelado con i-vectors, PLDA o DNNs. En esta tesis proponemos unos i-vectors con compensación de canal llamados Beta vectors que son extraídos utilizando la técnica del PLDA. Aplicaremos deep learning con una arquitectura híbrida DBN-DNN que tendrá como entrada los Beta vectors propuestos. Al final, con la propuesta de los Beta vectors y utilizando la distancia de coseno como métrica obtenemos una mejora relativa de 21.4% i 21% en el EER i el minDCF con respecto a los i-vectors sin procesar. Si cambiamos el clasificador y aplicamos la DNN propuesta, la mejora relativa incrementa hasta un 32.3% y un 32.1% respectivamente. Si comparamos nuestro sistema Beta-DNN com el sistema i-vector-DNN de referencia vemos que lo superamos con una mejora de 18.9% en el EER y un 25% en el minDCF.
dc.description.abstractAquesta tesis explora l’aplicació de tècniques de compensació de canal a l’àmbit de verificació de parlant i la seva combinació posterior amb deep learning. La idea és reduir la degradació del funcionament deguda a que els entrenaments i els tests produeixen en diferents ambients i alhora incrementar la precisió i fiabilitat dels sistemes de verificació de parlant. Per aconseguir els objectius aplicarem tècniques punteres com per exemple modelat amb i-vectors, PLDA, o DNNs. A aquesta tesis proposem uns i-vectors amb compensació de canal anomenats Beta vectors que són extrets utilitzant la tècnica del PLDA. Aplicarem deep learning amb una arquitectura híbrida DBN-DNN que tindrà com a entrada els Beta vectors proposats. Al final, amb la proposta dels Beta vectors i utilitzant la distància de cosinus com a mètrica obtenim una millora relativa de 21.4% i 21% en el EER i el minDCF amb respecte de els i-vectors sense processar. Si canviem el classificador i apliquem la DNN proposada la millora relativa incrementa fins a 32.3% and 32.1% respectivament. Si comparem el nostre sistema Beta-DNN amb el sistema i-vector-DNN de referència veiem que el superem amb una millora de 18.9% en EER i un 25% en minDCF.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsS'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshAutomatic speech recognition
dc.subject.lcshNeural networks (Computer science)
dc.subject.otherspeaker recognition
dc.subject.otherspeaker verification
dc.subject.otheri-vectors
dc.subject.otherplda
dc.subject.otherdeep neural networks
dc.subject.otherspeaker recognition
dc.subject.otherspeaker verification
dc.subject.otheri-vectors
dc.subject.otherplda
dc.subject.otherdeep neural networks
dc.subject.otherProcessament de la parla -- PFC
dc.titleDeep Neural Networks for Channel Compensated i-Vectors in Speaker Recognition
dc.typeBachelor thesis
dc.subject.lemacReconeixement automàtic de la parla
dc.subject.lemacXarxes neuronals (Informàtica)
dc.identifier.slugETSETB-230.109976
dc.rights.accessOpen Access
dc.date.updated2015-08-06T05:51:03Z
dc.audience.educationlevelGrau
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Except where otherwise noted, content on this work is licensed under a Creative Commons license: Attribution-NonCommercial-NoDerivs 3.0 Spain