Mostra el registre d'ítem simple

dc.contributorWeninger, Felix
dc.contributor.authorFeliu Hurtado, Jordi
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2011-10-18T07:50:19Z
dc.date.available2011-10-18T07:50:19Z
dc.date.issued2011-09-28
dc.identifier.urihttp://hdl.handle.net/2099.1/13176
dc.descriptionProjecte final de carrera fet en col.laboració amb TU München. Fakultät für Elektrotechnik und Informationstechnik.
dc.description.abstractEnglish: After a presentation of Non-Negative Matrix Factorization (NMF) and its applications in audio processing, we introduce a semi-supervised algorithm NMF based to improve separation of speech from background music in monaural signals. In this approach, fixed speech basis vectors are obtained from training data whereas music bases are estimated iteratively to cope with spectral variability. A small number of NMF components is used for decreased computation effort and most important NMF parameters are optimized, as the DFT window size used for transformation to the frequency domain. Extensive experimental validation with 168 speakers from the TIMIT database test set and four different music genres mixed at various speech-to-music ratios reveals that the semi-supervised method outperforms conventional supervised NMF for low speech-to-music ratios and low music bases, and that sparsity constraints on the music bases to enforce harmonicity can further improve separation performance depending on the music style.
dc.description.abstractCastellano: Después de presentar la factorización de matrices no negativas (NMF) y sus aplicaciones en procesamiento de audio, introducimos un algoritmo semi-supervisado basado en NMF para mejorar la separación de la voz de la música de fondo en señales monoaurales. Con este método, los vectores base de la voz no cambian y se obtienen de datos de entrenamiento mientras que las bases de la música son estimadas iterativamente para aproximar su variabilidad espectral. Se usa un nombre pequeño de componentes de NMF para disminuir el coste computacional y los parámetros más importantes de NMF son optimizados, así como el tamaño de la ventana de la DFT usada para la transformación al dominio frecuencial. Una validación experimental extensiva con 168 hablantes de la base de datos TIMIT test set y 4 diferentes estilos musicales mezclados con diferentes relaciones voz-música revelan que el método semi-supervisado mejora el método convencional supervisado para relaciones voz-música bajas y pocas bases musicales, y que las restricciones de escasez en las bases de la música para forzar harmonicidad pueden mejorar todavía más los resultados de la separación dependiendo del estilo musical.
dc.description.abstractCatalà: Després de presentar la factorització de matrius no negatives (NMF) i les seves aplicacions en processament d'àudio, introduïm un algoritme semi-supervisat basat en NMF per a millorar la separació de la veu de la música de fons en senyals monoaurals. Amb aquest mètode, els vectors base de la veu no varien i s'obtenen de dades d'entrenament mentre que les bases de la música son estimades iterativament per copsar la seva variabilitat espectral. S'usa un nombre petit de components de NMF per dismunuïr el cost computacional i els paràmetres més importants de NMF són optimitzats, així com el tamany de finestra de la DFT usat per la transformació al domini frequencial. Una validació experimental extensiva amb 168 parlants de la base de dades TIMIT test set i 4 estils musicals diferents mesclats amb diferents relacions veu-música revelen que el mètode semi-supervisat millora el mètode convencional supervisat per a relacions veu-música baixes i poques bases musicals, i que les restriccions d'escassetat a les bases de la música per forçar harmonicitat poden millorar encara més els resultats de la separació depenent de l'estil musical.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Spain
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic
dc.subject.lcshSpeech processing systems
dc.subject.otherNon-negative matrix factorization
dc.subject.otherSupervised source separation
dc.subject.otherSpeech enhancement
dc.subject.otherSparse coding
dc.titleSemi-Supervised Suppression of Background Music in Monaural Speech Recordings
dc.typeMaster thesis (pre-Bologna period)
dc.subject.lemacProcessament de la parla
dc.identifier.slugETSETB-230.73938
dc.rights.accessOpen Access
dc.date.updated2011-10-05T06:01:36Z
dc.audience.educationlevelEstudis de primer/segon cicle
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degreeENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)
dc.contributor.covenanteeTechnische Universität München


Fitxers d'aquest items

Thumbnail
Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple