Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia
Visualitza/Obre
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/26966
Tipus de documentReport de recerca
Data publicació2014-03-01
Condicions d'accésAccés obert
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
Abstract
Uno de los objetivos del proyecto Tacardi (TIN2012-38523-C02-00) consiste en extraer oraciones paralelas de corpus comparables para enriquecer y adaptar traductores automáticos. En esta investigación usamos un subconjunto de Wikipedia como corpus comparable. En este reporte se describen nuestros avances con respecto a la extracción de fragmentos paralelos de Wikipedia. Primero, discutimos cómo hemos definido los tres dominios de interés -ciencia, informática y deporte-, en el marco de la enciclopedia y cómo hemos extraído los textos y demás datos necesarios para la caracterización de los artículos en las distintas lenguas. Después discutimos brevemente los modelos que usaremos para identificar oraciones paralelas y damos sólo una muestra de algunos resultados preliminares. Los datos obtenidos hasta ahora permiten vislumbran que será posible extraer oraciones paralelas de los dominios de interés a corto plazo, si bien aún no contamos con una estimación del volumen de éstos.
CitacióBoldoba, J.; Barron-Cedeño, A.; España-Bonet, C. "Wikicardi : hacia la extracción de oraciones paralelas de Wikipedia". 2014.
Forma partLSI-14-3-R
URL repositori externhttp://www.cs.upc.edu/~cristinae/CV/docs/R14-3.pdf
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
R14-3.pdf | Report Intern | 150,6Kb | Visualitza/Obre |