Semi-Supervised Suppression of Background Music in Monaural Speech Recordings

Feliu Hurtado, Jordi

dc.contributor	Weninger, Felix
dc.contributor.author	Feliu Hurtado, Jordi
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned	2011-10-18T07:50:19Z
dc.date.available	2011-10-18T07:50:19Z
dc.date.issued	2011-09-28
dc.identifier.uri	http://hdl.handle.net/2099.1/13176
dc.description	Projecte final de carrera fet en col.laboració amb TU München. Fakultät für Elektrotechnik und Informationstechnik.
dc.description.abstract	English: After a presentation of Non-Negative Matrix Factorization (NMF) and its applications in audio processing, we introduce a semi-supervised algorithm NMF based to improve separation of speech from background music in monaural signals. In this approach, fixed speech basis vectors are obtained from training data whereas music bases are estimated iteratively to cope with spectral variability. A small number of NMF components is used for decreased computation effort and most important NMF parameters are optimized, as the DFT window size used for transformation to the frequency domain. Extensive experimental validation with 168 speakers from the TIMIT database test set and four different music genres mixed at various speech-to-music ratios reveals that the semi-supervised method outperforms conventional supervised NMF for low speech-to-music ratios and low music bases, and that sparsity constraints on the music bases to enforce harmonicity can further improve separation performance depending on the music style.
dc.description.abstract	Castellano: Después de presentar la factorización de matrices no negativas (NMF) y sus aplicaciones en procesamiento de audio, introducimos un algoritmo semi-supervisado basado en NMF para mejorar la separación de la voz de la música de fondo en señales monoaurales. Con este método, los vectores base de la voz no cambian y se obtienen de datos de entrenamiento mientras que las bases de la música son estimadas iterativamente para aproximar su variabilidad espectral. Se usa un nombre pequeño de componentes de NMF para disminuir el coste computacional y los parámetros más importantes de NMF son optimizados, así como el tamaño de la ventana de la DFT usada para la transformación al dominio frecuencial. Una validación experimental extensiva con 168 hablantes de la base de datos TIMIT test set y 4 diferentes estilos musicales mezclados con diferentes relaciones voz-música revelan que el método semi-supervisado mejora el método convencional supervisado para relaciones voz-música bajas y pocas bases musicales, y que las restricciones de escasez en las bases de la música para forzar harmonicidad pueden mejorar todavía más los resultados de la separación dependiendo del estilo musical.
dc.description.abstract	Català: Després de presentar la factorització de matrius no negatives (NMF) i les seves aplicacions en processament d'àudio, introduïm un algoritme semi-supervisat basat en NMF per a millorar la separació de la veu de la música de fons en senyals monoaurals. Amb aquest mètode, els vectors base de la veu no varien i s'obtenen de dades d'entrenament mentre que les bases de la música son estimades iterativament per copsar la seva variabilitat espectral. S'usa un nombre petit de components de NMF per dismunuïr el cost computacional i els paràmetres més importants de NMF són optimitzats, així com el tamany de finestra de la DFT usat per la transformació al domini frequencial. Una validació experimental extensiva amb 168 parlants de la base de dades TIMIT test set i 4 estils musicals diferents mesclats amb diferents relacions veu-música revelen que el mètode semi-supervisat millora el mètode convencional supervisat per a relacions veu-música baixes i poques bases musicals, i que les restriccions d'escassetat a les bases de la música per forçar harmonicitat poden millorar encara més els resultats de la separació depenent de l'estil musical.
dc.language.iso	eng
dc.publisher	Universitat Politècnica de Catalunya
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Spain
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject	Àrees temàtiques de la UPC::Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic
dc.subject.lcsh	Speech processing systems
dc.subject.other	Non-negative matrix factorization
dc.subject.other	Supervised source separation
dc.subject.other	Speech enhancement
dc.subject.other	Sparse coding
dc.title	Semi-Supervised Suppression of Background Music in Monaural Speech Recordings
dc.type	Master thesis (pre-Bologna period)
dc.subject.lemac	Processament de la parla
dc.identifier.slug	ETSETB-230.73938
dc.rights.access	Open Access
dc.date.updated	2011-10-05T06:01:36Z
dc.audience.educationlevel	Estudis de primer/segon cicle
dc.audience.mediator	Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degree	ENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)
dc.contributor.covenantee	Technische Universität München

Fitxers d'aquest items

Nom:: Semi-Supervised_Suppression_of ...
Mida:: 1,795Mb
Format:: PDF

Visualitza/Obre

Nom:: thesis.zip
Mida:: 13,73Mb
Format:: application/zip

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Enginyeria de Telecomunicació (Pla 1992) [1.590]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

Semi-Supervised Suppression of Background Music in Monaural Speech Recordings

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora