Az NYTK-NerKor több szempontú kiértékelése

Simon Eszter and Vadász Noémi and Lévai Dániel and Nemeskey Dávid Márk and Orosz György and Szántó Zsolt: Az NYTK-NerKor több szempontú kiértékelése.

[thumbnail of msznykonf_018_403-416.pdf] Cikk, tanulmány, mű
msznykonf_018_403-416.pdf

Download (583kB)

Abstract

Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjuk be több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokent tartalmazó, műfajilag heterogén, szabadon elérhető gold standard adathalmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rendszerek fejlesztéséhez. A kiértékeléshez négy különböző rendszert használtunk: a CRFsuite-ot, a magyar spaCy-t, a Stanzát és az emBERT-et. Cikkünkben ismertetjük az egyes rendszerek által elért eredményeket, melyeket össze is hasonlítunk. Az eredmények azt mutatják, hogy az NYTK-NerKor és a Szeged NER korpusz együttes használata még stabilabb modelleket eredményezhet, valamint hogy az NYTK-NerKoron tanítva a rendszerek nagyobb általánosító képességgel rendelkeznek, ami ahhoz kell, hogy egy azelőtt nem látott szövegben jól azonosítsák a neveket.

Item Type: Conference or Workshop Item
Heading title: Korpusz, szövegfeldolgozás
Journal or Publication Title: Magyar Számítógépes Nyelvészeti Konferencia
Date: 2022
Volume: 18
ISBN: 978-963-306-848-9
Page Range: pp. 403-416
Language: Hungarian
Place of Publication: Szeged
Event Title: Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Related URLs: http://acta.bibl.u-szeged.hu/75797/
Uncontrolled Keywords: Nyelvészet - számítógép alkalmazása, Korpusz - nyelvészet
Additional Information: Bibliogr.: p. 414-416. és a lábjegyzetekben ; összefoglalás magyar nyelven
Subjects: 01. Natural sciences
01. Natural sciences > 01.02. Computer and information sciences
06. Humanities
06. Humanities > 06.02. Languages and Literature
Date Deposited: 2022. May. 25. 12:25
Last Modified: 2022. Nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/75889

Actions (login required)

View Item View Item