Mostra el registre d'ítem simple

dc.contributorMagimai Doss, Mathew
dc.contributorNadeu Camprubí, Climent
dc.contributor.authorQuer Romeo, Guillem
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned2016-10-31T16:36:13Z
dc.date.issued2016
dc.identifier.urihttp://hdl.handle.net/2117/91295
dc.description.abstractThe goal of this project is to develop an information-theoretic acoustic-phonetic approach to detect the presence of words or phrases in an utterance. Specifically, the project focuses on two types of detection tasks in spoken language systems, namely, utterance verification and keyword spotting. We first develop the methodology for utterance verification, and then we show that the methodology can be naturally extended to keyword spotting by simply adding an epsilon symbol before and after the keyword that accounts for the preceding and following non-keyword segments. The system proposed is designed in a modular way, which allows to independently improve each of the modules. These modules are implemented using state of the art ASR techniques to probabilistic modeling of the lexical and acoustic units, and two kinds of lexical units are tested during the experiments: phonemes and graphemes. This modular design of the system also allows to perform two different types of queries without the need of modifying the system\textsc{\char13}s layout: text based queries, where a string is given as input, and template based queries, where an utterance is provided as input. We also show that proposed approach computes the word confidence by aligning the input sequences, as the computation of word confidence with single normalization can be seen as a particular case of the proposed approach when one of the inputs to the system is the Kronecker delta.
dc.description.abstractL'objectiu d'aquest projecte es el desenvolupament d'una solució basada en la teoria de la informació per detectar la presencia de paraules o frases en una pronunciació. Específicament, el projecte es focalitza en dues tasques de detecció: la verificació d'una pronunciació, i el descobriment de paraules clau en la parla. En primer lloc desenvolupem la metodologia per a la verificació d'una pronunciació, i seguidament demostrem que, amb la simple inserció d'un símbol èpsilon, la metodologia pot ser estesa de manera natural a la detecció de paraules clau en la parla. El sistema proposat està dissenyat de manera modul.lar, cosa que permet millorar-lo de manera individualitzada. Cada un d'aquests mòduls ha estat implementat amb les últimes tècniques de reconeixement de veu basades en modelatge probabilístic de les unitats léxiques i acústiques. A més, investiguem el comportament de dos tipus d'unitats lèxiques diferents: els fonemes i els grafemes. D'altra banda, el disseny modular també permet realitzar dos tipus de consultes diferents al sistema sense haver de modificar-lo, ja que l'entrada pot ser o un text o una pronunciació. Finalment, també demostrem que la solució proposada permet estimar una mesura de confiança de la paraula, com a sortida normalitzada del sistema en el cas particular en què una de les entrades és una delta de Kronecker.
dc.description.abstractEl objetivo de este proyecto es el desarrollo de una solución basada en la teoría de la información para detectar la presencia de palabras o frases en una pronunciación. Específicamente, el proyecto se focaliza en dos tareas de detección: la verificación de la pronunciación, y el descubrimiento de palabras clave en el habla. En primer lugar, desarrollamos la metodología para la verificación de una pronunciación, y seguidamente demostramos que con la simple inserción de un símbolo épsilon, la metodología puede ser extendida de manera natural para realizar la detección de palabras clave en el habla. El sistema propuesto está diseñado de manera modular, lo que permite mejorar el sistema de manera individualizada. Cada uno de estos módulos ha estado implementado con las últimas técnicas de reconocimiento de voz basadas en modelado probabilístico de las unidades léxicas y acústicas. Además, se investiga el comportamiento de dos tipos diferentes de unidades léxicas; los fonemas y los grafemas. Por otro lado, el diseño modular también permite realizar dos tipos de consultas diferentes al sistema sin necesidad de modificarlo, ya que la entrada puede ser o un texto o una pronunciación. Finalmente también demostramos que la solución propuesta permite estimar una medida de confianza en la palabra detectada, como salida normalizada del sistema en el caso particular en que una de las entradas es una delta de Kronecker.
dc.language.isoeng
dc.publisherUniversitat Politècnica de Catalunya
dc.subjectÀrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcshAutomatic speech recognition
dc.subject.otherReconocimiento automático del habla
dc.titleAn information-theoretic string matching approach for spoken utterance verification and keyword spotting
dc.title.alternativePropuesta basada en la teoria de la información para la verificación de la pronunciación y el descubrimiento de palabras clave
dc.title.alternativeProposta basada en la teoria de la informació per la verificació de la pronunciació i el descobriment de paraules clau
dc.typeMaster thesis (pre-Bologna period)
dc.subject.lemacReconeixement automàtic de la parla
dc.identifier.slugETSETB-230.103597
dc.rights.accessRestricted access - author's decision
dc.date.lift10000-01-01
dc.date.updated2016-10-27T18:43:42Z
dc.audience.educationlevelEstudis de primer/segon cicle
dc.audience.mediatorEscola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degreeENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)


Fitxers d'aquest items

Imatge en miniatura

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple