HuSpaCy : an industrial-strength Hungarian natural language processing toolkit

Orosz György; Szántó Zsolt; Berkecz Péter; Szabó Gergő; Farkas Richárd: HuSpaCy : an industrial-strength Hungarian natural language processing toolkit.

[thumbnail of msznykonf_018_059-073.pdf] Cikk, tanulmány, mű
msznykonf_018_059-073.pdf

Letöltés (462kB)

Absztrakt (kivonat)

Although there are a couple of open-source language processing pipelines available for Hungarian, none of them satisfies the requirements of today’s NLP applications. A language processing pipeline should consist of close to state-of-the-art lemmatization, morphosyntactic analysis, entity recognition and word embeddings. Industrial text processing applications have to satisfy non-functional software quality requirements, what is more, frameworks supporting multiple languages are more and more favored. This paper introduces HuSpaCy, an industryready Hungarian language processing toolkit. The presented tool provides components for the most important basic linguistic analysis tasks. It is open-source and is available under a permissive license. Our system is built upon spaCy’s NLP components resulting in an easily usable, fast yet accurate application. Experiments confirm that HuSpaCy has high accuracy while maintaining resource-efficient prediction capabilities.

Mű típusa: Konferencia vagy workshop anyag
Rovatcím: Nyelvmodellek
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2022
Kötet: 18
ISBN: 978-963-306-848-9
Oldalak: pp. 59-73
Nyelv: angol
Kiadás helye: Szeged
Konferencia neve: Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/75797/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: p. 70-73. és a lábjegyzetekben ; összefoglalás angol nyelven
Szakterület: 01. Természettudományok
01. Természettudományok > 01.02. Számítás- és információtudomány
06. Bölcsészettudományok
06. Bölcsészettudományok > 06.02. Nyelvek és irodalom
Feltöltés dátuma: 2022. máj. 24. 15:03
Utolsó módosítás: 2022. nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/75865
Bővebben:
Tétel nézet Tétel nézet