Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia

Boldoba Trapote, Josu; Barrón-Cedeño, Alberto; España Bonet, Cristina

Visualitza/Obre

Report Intern (150,6Kb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Boldoba Trapote, Josu

Barrón-Cedeño, Alberto

España Bonet, Cristina

Tipus de documentReport de recerca

Data publicació2014-03-01

Condicions d'accésAccés obert

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets

Abstract

Uno de los objetivos del proyecto Tacardi (TIN2012-38523-C02-00) consiste en extraer oraciones paralelas de corpus comparables para enriquecer y adaptar traductores automáticos. En esta investigación usamos un subconjunto de Wikipedia como corpus comparable. En este reporte se describen nuestros avances con respecto a la extracción de fragmentos paralelos de Wikipedia. Primero, discutimos cómo hemos definido los tres dominios de interés -ciencia, informática y deporte-, en el marco de la enciclopedia y cómo hemos extraído los textos y demás datos necesarios para la caracterización de los artículos en las distintas lenguas. Después discutimos brevemente los modelos que usaremos para identificar oraciones paralelas y damos sólo una muestra de algunos resultados preliminares. Los datos obtenidos hasta ahora permiten vislumbran que será posible extraer oraciones paralelas de los dominios de interés a corto plazo, si bien aún no contamos con una estimación del volumen de éstos.

CitacióBoldoba, J.; Barron-Cedeño, A.; España-Bonet, C. "Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia". 2014.

Forma partLSI-14-3-R

URIhttp://hdl.handle.net/2117/26966

URL repositori externhttp://www.cs.upc.edu/~cristinae/CV/docs/R14-3.pdf

Col·leccions

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
R14-3.pdf	Report Intern	150,6Kb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia

Visualitza/Obre

Explora