Semi-Supervised Suppression of Background Music in Monaural Speech Recordings
Tutor / directorWeninger, Felix
Realitzat a/ambTechnische Universität München
Tipus de documentProjecte/Treball Final de Carrera
Data2011-09-28
Condicions d'accésAccés obert
Llevat que s'hi indiqui el contrari, els
continguts d'aquesta obra estan subjectes a la llicència de Creative Commons
:
Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya
Abstract
English: After a presentation of Non-Negative Matrix Factorization (NMF) and its applications in audio processing, we introduce a semi-supervised algorithm NMF based to improve separation of speech from background music in monaural signals. In this approach, fixed speech basis vectors are obtained from training data whereas music bases are estimated iteratively to cope with spectral variability. A small number of NMF components is used for decreased computation effort and most important NMF parameters are optimized, as the DFT window size used for transformation to the frequency domain. Extensive experimental validation with 168 speakers from the TIMIT database test set and four different music genres mixed at various speech-to-music ratios reveals that the semi-supervised method outperforms conventional supervised NMF for low speech-to-music ratios and low music bases, and that sparsity constraints on the music bases to enforce harmonicity can further improve separation performance depending on the music style. Castellano: Después de presentar la factorización de matrices no negativas (NMF) y sus aplicaciones en procesamiento de audio, introducimos un algoritmo semi-supervisado basado en NMF para mejorar la separación de la voz de la música de fondo en señales monoaurales. Con este método, los vectores base de la voz no cambian y se obtienen de datos de entrenamiento mientras que las bases de la música son estimadas iterativamente para aproximar su variabilidad espectral. Se usa un nombre pequeño de componentes de NMF para disminuir el coste computacional y los parámetros más importantes de NMF son optimizados, así como el tamaño de la ventana de la DFT usada para la transformación al dominio frecuencial. Una validación experimental extensiva con 168 hablantes de la base de datos TIMIT test set y 4 diferentes estilos musicales mezclados con diferentes relaciones voz-música revelan que el método semi-supervisado mejora el método convencional supervisado para relaciones voz-música bajas y pocas bases musicales, y que las restricciones de escasez en las bases de la música para forzar harmonicidad pueden mejorar todavía más los resultados de la separación dependiendo del estilo musical. Català: Després de presentar la factorització de matrius no negatives (NMF) i les seves aplicacions en processament d'àudio, introduïm un algoritme semi-supervisat basat en NMF per a millorar la separació de la veu de la música de fons en senyals monoaurals. Amb aquest mètode, els vectors base de la veu no varien i s'obtenen de dades d'entrenament mentre que les bases de la música son estimades iterativament per copsar la seva variabilitat espectral. S'usa un nombre petit de components de NMF per dismunuïr el cost computacional i els paràmetres més importants de NMF són optimitzats, així com el tamany de finestra de la DFT usat per la transformació al domini frequencial. Una validació experimental extensiva amb 168 parlants de la base de dades TIMIT test set i 4 estils musicals diferents mesclats amb diferents relacions veu-música revelen que el mètode semi-supervisat millora el mètode convencional supervisat per a relacions veu-música baixes i poques bases musicals, i que les restriccions d'escassetat a les bases de la música per forçar harmonicitat poden millorar encara més els resultats de la separació depenent de l'estil musical.
Descripció
Projecte final de carrera fet en col.laboració amb TU München. Fakultät für Elektrotechnik und Informationstechnik.
TitulacióENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
Semi-Supervised ... ural_Speech_Recordings.pdf | 1,795Mb | Visualitza/Obre | ||
thesis.zip | 13,73Mb | application/zip | Visualitza/Obre |