Az NYTK-NerKor több szempontú kiértékelése

Simon Eszter; Vadász Noémi; Lévai Dániel; Nemeskey Dávid Márk; Orosz György; Szántó Zsolt: Az NYTK-NerKor több szempontú kiértékelése.

[thumbnail of msznykonf_018_403-416.pdf]

Cikk, tanulmány, mű
msznykonf_018_403-416.pdf
Letöltés (583kB)

Absztrakt (kivonat)

Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjuk be több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokent tartalmazó, műfajilag heterogén, szabadon elérhető gold standard adathalmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rendszerek fejlesztéséhez. A kiértékeléshez négy különböző rendszert használtunk: a CRFsuite-ot, a magyar spaCy-t, a Stanzát és az emBERT-et. Cikkünkben ismertetjük az egyes rendszerek által elért eredményeket, melyeket össze is hasonlítunk. Az eredmények azt mutatják, hogy az NYTK-NerKor és a Szeged NER korpusz együttes használata még stabilabb modelleket eredményezhet, valamint hogy az NYTK-NerKoron tanítva a rendszerek nagyobb általánosító képességgel rendelkeznek, ami ahhoz kell, hogy egy azelőtt nem látott szövegben jól azonosítsák a neveket.

Mű típusa:	Konferencia vagy workshop anyag
Rovatcím:	Korpusz, szövegfeldolgozás
Befoglaló folyóirat/kiadvány címe:	Magyar Számítógépes Nyelvészeti Konferencia
Dátum:	2022
Kötet:	18
ISBN:	978-963-306-848-9
Oldalak:	pp. 403-416
Nyelv:	magyar
Kiadás helye:	Szeged
Konferencia neve:	Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Befoglaló mű URL:	http://acta.bibl.u-szeged.hu/75797/
Kulcsszavak:	Nyelvészet - számítógép alkalmazása, Korpusz - nyelvészet
Megjegyzések:	Bibliogr.: p. 414-416. és a lábjegyzetekben ; összefoglalás magyar nyelven
Szakterület:	01. Természettudományok 01. Természettudományok > 01.02. Számítás- és információtudomány 06. Bölcsészettudományok 06. Bölcsészettudományok > 06.02. Nyelvek és irodalom
Feltöltés dátuma:	2022. máj. 25. 12:25
Utolsó módosítás:	2022. nov. 08. 11:49
URI:	http://acta.bibl.u-szeged.hu/id/eprint/75889

Bővebben:

Tétel nézet