Detecció i reconeixement de text mitjançant l'estimació de l'amplada del traç

View/Open
Cita com:
hdl:2099.1/15966
Document typeMaster thesis (pre-Bologna period)
Date2012-07-25
Rights accessOpen Access
Except where otherwise noted, content on this work
is licensed under a Creative Commons license
:
Attribution-NonCommercial-NoDerivs 3.0 Spain
Abstract
[ANGLÈS] This report presents a method for detecting and recognizing text in television pictures, which is based on estimating the stroke width. The method extracts the text that is present in the image, and writes it in a text file, so it can be used together with other features, for image indexing. This work on text detection and recognition for image indexing was developed in the context of the CENIT Buscamedia project. That is why, throughout the project, different versions of software were delivered to Televisió de Catalunya, which is one of the companies working with the project CENIT Buscamedia. A text detector has been developed, starting from a first implementation of the algorithm published by Microsoft Research paper, "Detecting text in natural scenes with stroke width transform". Two new stages have been included, binarization and recognition. For the recognition we have used an open source software developed by Google, the Tesseract-OCR. Previously, a binarization stage was used to binarize the output of the text detector and facilitate the task of the OCR system. The results have improved considerably compared with the first version implemented, achieving a rate of 5.67% non-detected text versus 15.5% of the initial software. The quality factor has also been improved from an initial 39.03% to a 64.56%. [CASTELLÀ] En esta memoria se presenta un método de detección y reconocimiento de texto en imágenes televisivas, el cual está basado en la estimación del ancho de los caracteres. El método consiste en obtener el texto presente en una imagen, y escribirlo en un fichero de texto, para que pueda ser utilizado, juntamente con otras características que se puedan conocer, para la indexación de la imagen o el vídeo del que ha sido extraída. El proyecto ha surgido de la necesidad presente en el proyecto CENIT Buscamedia de desarrollar un detector de texto para la indexación de imágenes. Es por ello que, durante toda la realización del proyecto, se han efectuado entregas de las diferentes versiones del software a Televisió de Catalunya, la cual es una de las empresas colaboradoras con el proyecto. Se ha desarrollado la parte de detección de texto, partiendo de una primera implementación del algoritmo propuesto en el artículo "Detecting text in natural scenes with stroke width transform" publicado por Microsoft Research. Se han incluido dos etapas posteriores para poder reconocer el texto detectado. Para la parte de reconocimiento se ha usado el software de libre distribución de Google Tesseract-OCR, siendo necesaria una etapa previa de binarización, para facilitar el reconocimiento de texto por parte del OCR. Los resultados se han conseguido mejorar considerablemente en relación a la primera versión implementada, consiguiendo un porcentaje de texto no detectado del 5,67%, frente al 15,5% del software inicial. El factor de calidad también ha mejorado siendo ahora del 64,56%, mientras que inicialmente era del 39,03%. [CATALÀ] En aquesta memòria es presenta un mètode de detecció i reconeixement de text en imatges televisives, el qual està basat en l'estimació de l'amplada dels caràcters. El mètode consisteix en obtenir el text present en una imatge, i escriure'l en un fitxer de text, per tal de poder utilitzar-lo, juntament amb les altres característiques que se'n puguin conèixer, per a la futura indexació de la imatge o el vídeo del qual ha estat extreta. El projecte ha sorgit de la necessitat present en el projecte CENIT Buscamedia de desenvolupar un detector de text per a la indexació d'imatges. És per això que, durant tota la realització del projecte, s'han efectuat entregues de les diferents versions del software a Televisió de Catalunya, la qual és una de les empreses col·laboradores amb el projecte. S'ha desenvolupat la part de detecció de text partint d'una primera implementació de l'algorisme proposat en l'article "Detecting text in natural scenes with stroke width transform" publicat per Microsoft Research. S'han inclòs dues etapes posteriors per tal de poder reconèixer el text detectat. Per a la part de reconeixement s'ha usat el software de lliure distribució de Google Tesseract-OCR, sent necessària una etapa prèvia de binarització, per tal de facilitar el reconeixement de text per part de l'OCR. Els resultats s'han aconseguit millorar considerablement en relació amb la primera versió implementada, aconseguint un percentatge de text no detectat de 5,67% enfront del 15,5% del software inicial. El factor de qualitat també ha millorat sent ara d'un 64,56% i inicialment d'un 39,03%.
Description
Consisteix en la detecció, binarització i reconeixement de text en imatges televisives.
SubjectsOptical character recognition devices, Image processing--Digital techniques, Optical pattern recognition, Images--Classification, Dispositius de reconeixement òptic de caràcters, Imatges--Processament--Tècniques digitals, Reconeixement òptic de formes, Imatges--Classificació
DegreeENGINYERIA DE TELECOMUNICACIÓ (Pla 1992)
Files | Description | Size | Format | View |
---|---|---|---|---|
pfc_AnnaGimferrer.pdf | 2,997Mb | View/Open |