Orosz György; Szántó Zsolt; Berkecz Péter; Szabó Gergő; Farkas Richárd: HuSpaCy : an industrial-strength Hungarian natural language processing toolkit.
Cikk, tanulmány, mű
msznykonf_018_059-073.pdf Letöltés (462kB) |
Absztrakt (kivonat)
Although there are a couple of open-source language processing pipelines available for Hungarian, none of them satisfies the requirements of today’s NLP applications. A language processing pipeline should consist of close to state-of-the-art lemmatization, morphosyntactic analysis, entity recognition and word embeddings. Industrial text processing applications have to satisfy non-functional software quality requirements, what is more, frameworks supporting multiple languages are more and more favored. This paper introduces HuSpaCy, an industryready Hungarian language processing toolkit. The presented tool provides components for the most important basic linguistic analysis tasks. It is open-source and is available under a permissive license. Our system is built upon spaCy’s NLP components resulting in an easily usable, fast yet accurate application. Experiments confirm that HuSpaCy has high accuracy while maintaining resource-efficient prediction capabilities.
Mű típusa: | Konferencia vagy workshop anyag |
---|---|
Rovatcím: | Nyelvmodellek |
Befoglaló folyóirat/kiadvány címe: | Magyar Számítógépes Nyelvészeti Konferencia |
Dátum: | 2022 |
Kötet: | 18 |
ISBN: | 978-963-306-848-9 |
Oldalak: | pp. 59-73 |
Nyelv: | angol |
Kiadás helye: | Szeged |
Konferencia neve: | Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged) |
Befoglaló mű URL: | http://acta.bibl.u-szeged.hu/75797/ |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
Megjegyzések: | Bibliogr.: p. 70-73. és a lábjegyzetekben ; összefoglalás angol nyelven |
Szakterület: | 01. Természettudományok 01. Természettudományok > 01.02. Számítás- és információtudomány 06. Bölcsészettudományok 06. Bölcsészettudományok > 06.02. Nyelvek és irodalom |
Feltöltés dátuma: | 2022. máj. 24. 15:03 |
Utolsó módosítás: | 2022. nov. 08. 11:49 |
URI: | http://acta.bibl.u-szeged.hu/id/eprint/75865 |
Tétel nézet |