Simon Eszter and Vadász Noémi and Lévai Dániel and Nemeskey Dávid Márk and Orosz György and Szántó Zsolt: Az NYTK-NerKor több szempontú kiértékelése.
![]() |
Cikk, tanulmány, mű
msznykonf_018_403-416.pdf Download (583kB) |
Abstract
Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjuk be több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokent tartalmazó, műfajilag heterogén, szabadon elérhető gold standard adathalmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rendszerek fejlesztéséhez. A kiértékeléshez négy különböző rendszert használtunk: a CRFsuite-ot, a magyar spaCy-t, a Stanzát és az emBERT-et. Cikkünkben ismertetjük az egyes rendszerek által elért eredményeket, melyeket össze is hasonlítunk. Az eredmények azt mutatják, hogy az NYTK-NerKor és a Szeged NER korpusz együttes használata még stabilabb modelleket eredményezhet, valamint hogy az NYTK-NerKoron tanítva a rendszerek nagyobb általánosító képességgel rendelkeznek, ami ahhoz kell, hogy egy azelőtt nem látott szövegben jól azonosítsák a neveket.
Item Type: | Conference or Workshop Item |
---|---|
Heading title: | Korpusz, szövegfeldolgozás |
Journal or Publication Title: | Magyar Számítógépes Nyelvészeti Konferencia |
Date: | 2022 |
Volume: | 18 |
ISBN: | 978-963-306-848-9 |
Page Range: | pp. 403-416 |
Language: | Hungarian |
Place of Publication: | Szeged |
Event Title: | Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged) |
Related URLs: | http://acta.bibl.u-szeged.hu/75797/ |
Uncontrolled Keywords: | Nyelvészet - számítógép alkalmazása, Korpusz - nyelvészet |
Additional Information: | Bibliogr.: p. 414-416. és a lábjegyzetekben ; összefoglalás magyar nyelven |
Subjects: | 01. Natural sciences 01. Natural sciences > 01.02. Computer and information sciences 06. Humanities 06. Humanities > 06.02. Languages and Literature |
Date Deposited: | 2022. May. 25. 12:25 |
Last Modified: | 2022. Nov. 08. 11:49 |
URI: | http://acta.bibl.u-szeged.hu/id/eprint/75889 |
Actions (login required)
![]() |
View Item |