High frequent in-domain word segmentation and forward translation for the WMT21 Biomedical task

Carregant...
Miniatura
El pots comprar en digital a:
El pots comprar en paper a:

Projectes de recerca

Unitats organitzatives

Número de la revista

Títol de la revista

ISSN de la revista

Títol del volum

Col·laborador

Editor

Tribunal avaluador

Realitzat a/amb

Tipus de document

Text en actes de congrés

Data publicació

Editor

Association for Computational Linguistics

Condicions d'accés

Accés obert

item.page.rightslicense

Creative Commons
Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Llevat que s'hi indiqui el contrari, els seus continguts estan subjectes a la llicència de Creative Commons: Reconeixement-NoComercial-SenseObraDerivada 3.0 Espanya

Assignatures relacionades

Assignatures relacionades

Publicacions relacionades

Datasets relacionats

Datasets relacionats

Projecte CCD

Abstract

This paper reports the optimization of using the out-of-domain data in the Biomedical translation task. We firstly optimized our parallel training dataset using the BabelNet in-domain terminology words. Afterward, to increase the training set, we studied the effects of the out-of-domain data on biomedical translation tasks, and we created a mixture of in-domain and out-of-domain training sets and added more in-domain data using forward translation in the English-Spanish task. Finally, with a simple bpe optimization method, we increased the number of in-domain subwords in our mixed training set and trained the Transformer model on the generated data. Results show improvements using our proposed method. © 2021 Association for Computational Linguistics

Descripció

Persones/entitats

Document relacionat

Versió de

Citació

Rafieian, B.; Costa-jussà, M.R. High frequent in-domain word segmentation and forward translation for the WMT21 Biomedical task. A: Conference on Machine Translation. "Sixth Conference on Machine Translation: proceedings of the conference: November 10-11, 2021: WMT 2021". Stroudsburg, PA: Association for Computational Linguistics, 2021, p. 863-867. ISBN 978-1-954085-94-7.

Ajut

Forma part

DOI

Dipòsit legal

ISBN

978-1-954085-94-7

ISSN

Altres identificadors

Referències