Oravecz Csaba; Bhaskar Bhavani; Bontcheva Katina; Kovachev Bogomil: Building high capacity machine translation models for knowledge distillation and production workflows.
Előnézet |
Cikk, tanulmány, mű
msznykonf_020_097-114.pdf Letöltés (239kB) | Előnézet |
Absztrakt (kivonat)
Recent developments in neural models for natural language processing clearly show a trend of increasing model sizes, since more complex model architectures generally have better performance, and machine translation models are no exceptions. However, supporting the training of these large models with computational infrastructures can be challenging. With a recent access to supercomputing facilities, where the compute needed to train model architectures that are able to maximize the use of the information in the training data set is readily available, we built deep prototype models for several language pairs, including English↔Hungarian. Evaluation results showed a significant improvement over baseline models, which opens up the possibility of directly deploying these models in the eTranslation machine translation service. We observed that our deep general models are competitive on standard benchmarks and significantly outperform state-of-the-art systems in the EU formal language domain. The paper also describes experiments with knowledge distillation workflows, where the resulting compact models offer an efficient alternative in runtime environments requiring high speed and low latency. Open sourcing the resulting models on Hugging Face is in progress.
| Mű típusa: | Konferencia vagy workshop anyag |
|---|---|
| Rovatcím: | Nyelvmodellek, párbeszéd, gépi fordítás |
| Befoglaló folyóirat/kiadvány címe: | Magyar Számítógépes Nyelvészeti Konferencia |
| Dátum: | 2024 |
| Kötet: | 20 |
| ISBN: | 978-963-306-973-8 |
| Oldalak: | pp. 97-114 |
| Nyelv: | angol |
| Kiadó: | Szegedi Tudományegyetem TTIK, Informatikai Intézet |
| Kiadás helye: | Szeged |
| Konferencia neve: | Magyar számítógépes nyelvészeti konferencia (20.) |
| Konferencia típusa: | Konferencia |
| Helyszin: | Szeged |
| Dátum: | 2024. január 25-26. |
| Befoglaló mű URL: | https://acta.bibl.u-szeged.hu/88747/ |
| Kulcsszavak: | Neurális gépi fordítás, Mélytranszformátor modell, Szoftver - nyílt forráskódú, Nyelvészet - számítógép alkalmazása |
| Megjegyzések: | Bibliogr.: p. 108-111. és a lábjegyzetekben ; ill. ; összefoglalás angol nyelven |
| Szakterület: | 01. Természettudományok 01. Természettudományok > 01.02. Számítás- és információtudomány 06. Bölcsészettudományok 06. Bölcsészettudományok > 06.02. Nyelvek és irodalom |
| Feltöltés dátuma: | 2025. nov. 12. 08:58 |
| Utolsó módosítás: | 2025. nov. 12. 08:58 |
| URI: | http://acta.bibl.u-szeged.hu/id/eprint/88756 |
![]() |
Tétel nézet |

