Ács Judit; Lévai Dániel; Nemeskey Dávid Márk; Kornai András: Evaluating contextualized language models for Hungarian.
Előnézet |
Cikk, tanulmány, mű
msznykonf_017_015-028.pdf Letöltés (895kB) | Előnézet |
Absztrakt (kivonat)
We present an extended comparison of contextualized language models for Hungarian. We compare huBERT, a Hungarian model against 4 multilingual models including the multilingual BERT model. We evaluate these models through three tasks, morphological probing, POS tagging and NER. We find that huBERT works better than the other models, often by a large margin, particularly near the global optimum (typically at the middle layers). We also find that huBERT tends to generate fewer subwords for one word and that using the last subword for token-level tasks is generally a better choice than using the first one.
Mű típusa: | Konferencia vagy workshop anyag |
---|---|
Rovatcím: | Nyelvmodellek |
Befoglaló folyóirat/kiadvány címe: | Magyar Számítógépes Nyelvészeti Konferencia |
Dátum: | 2021 |
Kötet: | 17 |
ISBN: | 978-963-306-781-9 |
Oldalak: | pp. 15-28 |
Nyelv: | angol |
Konferencia neve: | Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged) |
Befoglaló mű URL: | http://acta.bibl.u-szeged.hu/73340/ |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
Megjegyzések: | Bibliogr.: p. 25-28. és a lábjegyzetekben ; összefoglalás angol nyelven |
Szakterület: | 01. Természettudományok 01. Természettudományok > 01.02. Számítás- és információtudomány 06. Bölcsészettudományok 06. Bölcsészettudományok > 06.02. Nyelvek és irodalom |
Feltöltés dátuma: | 2021. szep. 28. 09:57 |
Utolsó módosítás: | 2022. nov. 08. 11:49 |
URI: | http://acta.bibl.u-szeged.hu/id/eprint/73354 |
Tétel nézet |