Témaspecifikus gépi fordítórendszer minőségének javítása domain adaptáció segítségével

Laki, László János: Témaspecifikus gépi fordítórendszer minőségének javítása domain adaptáció segítségével. Magyar Számítógépes Nyelvészeti Konferencia, (13). pp. 73-82. (2019)

[img] Cikk, tanulmány, mű
msznykonf_015_073-082.pdf

Download (542kB)

Abstract

A mély tanulásos módszerek elterjedése napjainkban nagymértékben megváltoztatta a gépi fordítások emberi megítélését. A statisztikai gépi fordítórendszerekkel (SMT) szemben a neurálishálózat-alapon működő architektúrák (NMT) sokkal olvashatóbb fordításokat generálnak, melyek a hivatásos fordítók számára könnyebben és hatékonyabban javíthatók az utófeldolgozás során. Az új módszer nehézsége azonban, hogy a stabilan jó fodítási minőséget adó rendszerek tanításához nagy méretű tanítóanyagra van szükség. Ez azonban a legtöbb fordítócég vagy nyelvpár esetén nem áll rendelkezésre. Munkám során a kicsi és jó minőségű in-domain tanítóanyagokat adatszelekció segítségével feldúsítottam egy nagy méretű out-of-domain korpusz leginkább hasonló szegmenseivel. Az így létrehozott architektúrával sikerült statisztikailag szignifikáns mértékben javítanom a fordítórendszer minőségét az összes vizsgált esetben. Kutatásom során igyekeztem megtalálni a feladathoz leginkább alkalmas szelekciós módszert, illetve megvizsgáltam a rendszer működését több különböző nyelv- és domainpár kombinációval.

Item Type: Article
Event Title: Magyar Számítógépes Nyelvészeti Konferencia (15.) (2019) (Szeged)
Journal or Publication Title: Magyar Számítógépes Nyelvészeti Konferencia
Date: 2019
Volume: 13
Page Range: pp. 73-82
ISBN: 978-963-315-393-2
Uncontrolled Keywords: Nyelvészet - számítógép alkalmazása
Additional Information: Bibliogr.: p. 80-82. ; összefoglalás magyar nyelven
Date Deposited: 2019. Jul. 03. 11:47
Last Modified: 2019. Jul. 03. 11:47
URI: http://acta.bibl.u-szeged.hu/id/eprint/59075

Actions (login required)

View Item View Item