DSpace DSpace UPC
 Català   Castellano   English  

E-prints UPC >
Altres >
Enviament des de DRAC >

Empreu aquest identificador per citar o enllaçar aquest ítem: http://hdl.handle.net/2117/10373

Arxiu Descripció MidaFormat
535_Paper.pdf1,07 MBAdobe PDFThumbnail
Veure/Obrir

Citació: Sánchez-Marco, C. [et al.]. Annotation and representation of a diachronic corpus of Spanish. A: International Conference on Language Resources and Evaluation. "International Conference on Language Resources and Evaluation (LREC 2010)". 2010.
Títol: Annotation and representation of a diachronic corpus of Spanish
Autor: Sánchez-Marco, Cristina; Boleda Torrent, Gemma Veure Producció científica UPC; Fontana, Josep Maria; Domingo, Judith
Data: 2010
Tipus de document: Conference report
Resum: In this article we describe two different strategies for the automatic tagging of a Spanish diachronic corpus involving the adaptation of existing NLP tools developed for modern Spanish. In the initial approach we follow a state-of-the-art strategy, which consists on standardizing the spelling and the lexicon. This approach boosts POS-tagging accuracy to 90, which represents a raw improvement of over 20% with respect to the results obtained without any pre-processing. In order to enable non-expert users in NLP to use this new resource, the corpus has been integrated into IAC (Corpora Interface Access). We discuss the shortcomings of the initial approach and propose a new one, which does not consist in adapting the source texts to the tagger, but rather in modifying the tagger for the direct treatment of the old variants.This second strategy addresses some important shortcomings in the previous approach and is likely to be useful not only in the creation of diachronic linguistic resources but also for the treatment of dialectal or non-standard variants of synchronic languages as well.
ISBN: 2-9517408-6-7
URI: http://hdl.handle.net/2117/10373
Apareix a les col·leccions:GPLN - Grup de Processament del Llenguatge Natural. Ponències/Comunicacions de congressos
Departament de Llenguatges i Sistemes Informàtics. Ponències/Comunicacions de congressos
Altres. Enviament des de DRAC
Comparteix:


Stats Mostra les estadístiques d'aquest ítem

SFX Query

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets.

Per a qualsevol ús que se'n vulgui fer no previst a la llei, dirigiu-vos a: sepi.bupc@upc.edu

 

Valid XHTML 1.0! Programari DSpace Copyright © 2002-2004 MIT and Hewlett-Packard Comentaris
Universitat Politècnica de Catalunya. Servei de Biblioteques, Publicacions i Arxius