An information-theoretic string matching approach for spoken utterance verification and keyword spotting

Quer Romeo, Guillem

dc.contributor	Magimai Doss, Mathew
dc.contributor	Nadeu Camprubí, Climent
dc.contributor.author	Quer Romeo, Guillem
dc.contributor.other	Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
dc.date.accessioned	2016-10-31T16:36:13Z
dc.date.issued	2016
dc.identifier.uri	http://hdl.handle.net/2117/91295
dc.description.abstract	The goal of this project is to develop an information-theoretic acoustic-phonetic approach to detect the presence of words or phrases in an utterance. Specifically, the project focuses on two types of detection tasks in spoken language systems, namely, utterance verification and keyword spotting. We first develop the methodology for utterance verification, and then we show that the methodology can be naturally extended to keyword spotting by simply adding an epsilon symbol before and after the keyword that accounts for the preceding and following non-keyword segments. The system proposed is designed in a modular way, which allows to independently improve each of the modules. These modules are implemented using state of the art ASR techniques to probabilistic modeling of the lexical and acoustic units, and two kinds of lexical units are tested during the experiments: phonemes and graphemes. This modular design of the system also allows to perform two different types of queries without the need of modifying the system\textsc{\char13}s layout: text based queries, where a string is given as input, and template based queries, where an utterance is provided as input. We also show that proposed approach computes the word confidence by aligning the input sequences, as the computation of word confidence with single normalization can be seen as a particular case of the proposed approach when one of the inputs to the system is the Kronecker delta.
dc.description.abstract	L'objectiu d'aquest projecte es el desenvolupament d'una solució basada en la teoria de la informació per detectar la presencia de paraules o frases en una pronunciació. Específicament, el projecte es focalitza en dues tasques de detecció: la verificació d'una pronunciació, i el descobriment de paraules clau en la parla. En primer lloc desenvolupem la metodologia per a la verificació d'una pronunciació, i seguidament demostrem que, amb la simple inserció d'un símbol èpsilon, la metodologia pot ser estesa de manera natural a la detecció de paraules clau en la parla. El sistema proposat està dissenyat de manera modul.lar, cosa que permet millorar-lo de manera individualitzada. Cada un d'aquests mòduls ha estat implementat amb les últimes tècniques de reconeixement de veu basades en modelatge probabilístic de les unitats léxiques i acústiques. A més, investiguem el comportament de dos tipus d'unitats lèxiques diferents: els fonemes i els grafemes. D'altra banda, el disseny modular també permet realitzar dos tipus de consultes diferents al sistema sense haver de modificar-lo, ja que l'entrada pot ser o un text o una pronunciació. Finalment, també demostrem que la solució proposada permet estimar una mesura de confiança de la paraula, com a sortida normalitzada del sistema en el cas particular en què una de les entrades és una delta de Kronecker.
dc.description.abstract	El objetivo de este proyecto es el desarrollo de una solución basada en la teoría de la información para detectar la presencia de palabras o frases en una pronunciación. Específicamente, el proyecto se focaliza en dos tareas de detección: la verificación de la pronunciación, y el descubrimiento de palabras clave en el habla. En primer lugar, desarrollamos la metodología para la verificación de una pronunciación, y seguidamente demostramos que con la simple inserción de un símbolo épsilon, la metodología puede ser extendida de manera natural para realizar la detección de palabras clave en el habla. El sistema propuesto está diseñado de manera modular, lo que permite mejorar el sistema de manera individualizada. Cada uno de estos módulos ha estado implementado con las últimas técnicas de reconocimiento de voz basadas en modelado probabilístico de las unidades léxicas y acústicas. Además, se investiga el comportamiento de dos tipos diferentes de unidades léxicas; los fonemas y los grafemas. Por otro lado, el diseño modular también permite realizar dos tipos de consultas diferentes al sistema sin necesidad de modificarlo, ya que la entrada puede ser o un texto o una pronunciación. Finalmente también demostramos que la solución propuesta permite estimar una medida de confianza en la palabra detectada, como salida normalizada del sistema en el caso particular en que una de las entradas es una delta de Kronecker.
dc.language.iso	eng
dc.publisher	Universitat Politècnica de Catalunya
dc.subject	Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
dc.subject.lcsh	Automatic speech recognition
dc.subject.other	Reconocimiento automático del habla
dc.title	An information-theoretic string matching approach for spoken utterance verification and keyword spotting
dc.title.alternative	Propuesta basada en la teoria de la información para la verificación de la pronunciación y el descubrimiento de palabras clave
dc.title.alternative	Proposta basada en la teoria de la informació per la verificació de la pronunciació i el descobriment de paraules clau
dc.type	Master thesis (pre-Bologna period)
dc.subject.lemac	Reconeixement automàtic de la parla
dc.identifier.slug	ETSETB-230.103597
dc.rights.access	Restricted access - author's decision
dc.date.lift	10000-01-01
dc.date.updated	2016-10-27T18:43:42Z
dc.audience.educationlevel	Estudis de primer/segon cicle
dc.audience.mediator	Escola Tècnica Superior d'Enginyeria de Telecomunicació de Barcelona
dc.audience.degree	ENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)

Fitxers d'aquest items

Nom:: information-theoretic-string.pdf
Mida:: 2,028Mb
Format:: PDF

Visualitza/Obre

Aquest ítem apareix a les col·leccions següents

Enginyeria de Telecomunicació (Pla 1992) [1.590]

Mostra el registre d'ítem simple

UPCommons. Portal del coneixement obert de la UPC

An information-theoretic string matching approach for spoken utterance verification and keyword spotting

Fitxers d'aquest items

Aquest ítem apareix a les col·leccions següents

Explora