Mostra el registre d'ítem simple

dc.contributor.authorBoldoba Trapote, Josu
dc.contributor.authorBarrón-Cedeño, Alberto
dc.contributor.authorEspaña Bonet, Cristina
dc.contributor.otherUniversitat Politècnica de Catalunya. Departament de Ciències de la Computació
dc.date.accessioned2015-03-24T09:37:02Z
dc.date.available2015-03-24T09:37:02Z
dc.date.created2014-03-01
dc.date.issued2014-03-01
dc.identifier.citationBoldoba, J.; Barron-Cedeño, A.; España-Bonet, C. "Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia". 2014.
dc.identifier.urihttp://hdl.handle.net/2117/26966
dc.description.abstractUno de los objetivos del proyecto Tacardi (TIN2012-38523-C02-00) consiste en extraer oraciones paralelas de corpus comparables para enriquecer y adaptar traductores automáticos. En esta investigación usamos un subconjunto de Wikipedia como corpus comparable. En este reporte se describen nuestros avances con respecto a la extracción de fragmentos paralelos de Wikipedia. Primero, discutimos cómo hemos definido los tres dominios de interés -ciencia, informática y deporte-, en el marco de la enciclopedia y cómo hemos extraído los textos y demás datos necesarios para la caracterización de los artículos en las distintas lenguas. Después discutimos brevemente los modelos que usaremos para identificar oraciones paralelas y damos sólo una muestra de algunos resultados preliminares. Los datos obtenidos hasta ahora permiten vislumbran que será posible extraer oraciones paralelas de los dominios de interés a corto plazo, si bien aún no contamos con una estimación del volumen de éstos.
dc.format.extent10 p.
dc.language.isospa
dc.relation.ispartofseriesLSI-14-3-R
dc.subjectÀrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural
dc.subject.lcshNatural language processing (Computer science)
dc.titleWikicardi : hacia la extracción de oraciones paralelas de Wikipedia
dc.typeExternal research report
dc.subject.lemacTractament del llenguatge natural (Informàtica)
dc.contributor.groupUniversitat Politècnica de Catalunya. GPLN - Grup de Processament del Llenguatge Natural
dc.relation.publisherversionhttp://www.cs.upc.edu/~cristinae/CV/docs/R14-3.pdf
dc.rights.accessOpen Access
drac.iddocument15537156
dc.description.versionPreprint
upcommons.citation.authorBoldoba, J.; Barron-Cedeño, A.; España-Bonet, C.
upcommons.citation.publishedtrue
upcommons.citation.publicationNameWikicardi : hacia la extracción de oraciones paralelas de Wikipedia
 Find Full text

Fitxers d'aquest items

Thumbnail

Aquest ítem apareix a les col·leccions següents

Mostra el registre d'ítem simple

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets