Evaluating contextualized language models for Hungarian

Ács Judit; Lévai Dániel; Nemeskey Dávid Márk; Kornai András: Evaluating contextualized language models for Hungarian.

[thumbnail of msznykonf_017_015-028.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_017_015-028.pdf

Letöltés (895kB) | Előnézet

Absztrakt (kivonat)

We present an extended comparison of contextualized language models for Hungarian. We compare huBERT, a Hungarian model against 4 multilingual models including the multilingual BERT model. We evaluate these models through three tasks, morphological probing, POS tagging and NER. We find that huBERT works better than the other models, often by a large margin, particularly near the global optimum (typically at the middle layers). We also find that huBERT tends to generate fewer subwords for one word and that using the last subword for token-level tasks is generally a better choice than using the first one.

Mű típusa: Konferencia vagy workshop anyag
Rovatcím: Nyelvmodellek
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2021
Kötet: 17
ISBN: 978-963-306-781-9
Oldalak: pp. 15-28
Nyelv: angol
Konferencia neve: Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/73340/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: p. 25-28. és a lábjegyzetekben ; összefoglalás angol nyelven
Szakterület: 01. Természettudományok
01. Természettudományok > 01.02. Számítás- és információtudomány
06. Bölcsészettudományok
06. Bölcsészettudományok > 06.02. Nyelvek és irodalom
Feltöltés dátuma: 2021. szep. 28. 09:57
Utolsó módosítás: 2022. nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/73354
Bővebben:
Tétel nézet Tétel nézet