Show simple item record

dc.contributor.authorBoldoba Trapote, Josu
dc.contributor.authorBarrón-Cedeño, Alberto
dc.contributor.authorEspaña Bonet, Cristina
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Ciències de la Computació
dc.date.accessioned2015-03-24T09:37:02Z
dc.date.available2015-03-24T09:37:02Z
dc.date.created2014-03-01
dc.date.issued2014-03-01
dc.identifier.citationBoldoba, J.; Barron-Cedeño, A.; España-Bonet, C. "Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia". 2014.
dc.identifier.urihttp://hdl.handle.net/2117/26966
dc.description.abstractUno de los objetivos del proyecto Tacardi (TIN2012-38523-C02-00) consiste en extraer oraciones paralelas de corpus comparables para enriquecer y adaptar traductores automáticos. En esta investigación usamos un subconjunto de Wikipedia como corpus comparable. En este reporte se describen nuestros avances con respecto a la extracción de fragmentos paralelos de Wikipedia. Primero, discutimos cómo hemos definido los tres dominios de interés -ciencia, informática y deporte-, en el marco de la enciclopedia y cómo hemos extraído los textos y demás datos necesarios para la caracterización de los artículos en las distintas lenguas. Después discutimos brevemente los modelos que usaremos para identificar oraciones paralelas y damos sólo una muestra de algunos resultados preliminares. Los datos obtenidos hasta ahora permiten vislumbran que será posible extraer oraciones paralelas de los dominios de interés a corto plazo, si bien aún no contamos con una estimación del volumen de éstos.
dc.format.extent10 p.
dc.language.isospa
dc.relation.ispartofseriesLSI-14-3-R
dc.subjectÀrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural
dc.subject.lcshNatural language processing (Computer science)
dc.titleWikicardi : hacia la extracción de oraciones paralelas de Wikipedia
dc.typeExternal research report
dc.subject.lemacTractament del llenguatge natural (Informàtica)
dc.contributor.groupUniversitat Politècnica de Catalunya. GPLN - Grup de Processament del Llenguatge Natural
dc.relation.publisherversionhttp://www.cs.upc.edu/~cristinae/CV/docs/R14-3.pdf
dc.rights.accessOpen Access
drac.iddocument15537156
dc.description.versionPreprint
upcommons.citation.authorBoldoba, J.; Barron-Cedeño, A.; España-Bonet, C.
upcommons.citation.publishedtrue
upcommons.citation.publicationNameWikicardi : hacia la extracción de oraciones paralelas de Wikipedia
 Find Full text

Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

All rights reserved. This work is protected by the corresponding intellectual and industrial property rights. Without prejudice to any existing legal exemptions, reproduction, distribution, public communication or transformation of this work are prohibited without permission of the copyright holder