Building high capacity machine translation models for knowledge distillation and production workflows

Oravecz Csaba; Bhaskar Bhavani; Bontcheva Katina; Kovachev Bogomil: Building high capacity machine translation models for knowledge distillation and production workflows.

[thumbnail of msznykonf_020_097-114.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_020_097-114.pdf

Letöltés (239kB) | Előnézet

Absztrakt (kivonat)

Recent developments in neural models for natural language processing clearly show a trend of increasing model sizes, since more complex model architectures generally have better performance, and machine translation models are no exceptions. However, supporting the training of these large models with computational infrastructures can be challenging. With a recent access to supercomputing facilities, where the compute needed to train model architectures that are able to maximize the use of the information in the training data set is readily available, we built deep prototype models for several language pairs, including English↔Hungarian. Evaluation results showed a significant improvement over baseline models, which opens up the possibility of directly deploying these models in the eTranslation machine translation service. We observed that our deep general models are competitive on standard benchmarks and significantly outperform state-of-the-art systems in the EU formal language domain. The paper also describes experiments with knowledge distillation workflows, where the resulting compact models offer an efficient alternative in runtime environments requiring high speed and low latency. Open sourcing the resulting models on Hugging Face is in progress.

Mű típusa: Konferencia vagy workshop anyag
Rovatcím: Nyelvmodellek, párbeszéd, gépi fordítás
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2024
Kötet: 20
ISBN: 978-963-306-973-8
Oldalak: pp. 97-114
Nyelv: angol
Kiadó: Szegedi Tudományegyetem TTIK, Informatikai Intézet
Kiadás helye: Szeged
Konferencia neve: Magyar számítógépes nyelvészeti konferencia (20.)
Konferencia típusa: Konferencia
Helyszin: Szeged
Dátum: 2024. január 25-26.
Befoglaló mű URL: https://acta.bibl.u-szeged.hu/88747/
Kulcsszavak: Neurális gépi fordítás, Mélytranszformátor modell, Szoftver - nyílt forráskódú, Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: p. 108-111. és a lábjegyzetekben ; ill. ; összefoglalás angol nyelven
Szakterület: 01. Természettudományok
01. Természettudományok > 01.02. Számítás- és információtudomány
06. Bölcsészettudományok
06. Bölcsészettudományok > 06.02. Nyelvek és irodalom
Feltöltés dátuma: 2025. nov. 12. 08:58
Utolsó módosítás: 2025. nov. 12. 08:58
URI: http://acta.bibl.u-szeged.hu/id/eprint/88756
Bővebben:
Tétel nézet Tétel nézet