Jogi szövegek tezaurusz alapú osztályozása : egy nyelvfüggetlen modell létrehozásának problémái

Nyéki, Bence: Jogi szövegek tezaurusz alapú osztályozása : egy nyelvfüggetlen modell létrehozásának problémái. In: Magyar Számítógépes Nyelvészeti Konferencia, (17). pp. 291-303. (2021)

[img]
Preview
Cikk, tanulmány, mű
msznykonf_017_291-303.pdf

Download (562kB) | Preview

Abstract

A cikkben jogi szövegek automatikus többcímkés osztályozását vizsgáljuk. A feladat nagy mennyiségű betanító adatot igényel, azonban ha az osztályozás kivitelezhető a többnyelvű EUROVOC tezaurusz terminusai alapján, akkor elméleti lehetőség nyílik arra, hogy egy meghatározott nyelvű korpuszon betanított osztályozó nyelvfüggetlenül működhessen. A bináris relevancia módszerén alapuló osztályozónkat horvát korpuszon tanítottuk be, és bár teljesítménye horvát szövegeken elfogadható, kis méretű annotált magyar mintánkra alkalmazva gyenge eredményt mutatott. Ennek legvalószínűbb oka a horvát és a magyar korpusz közötti különbség a terminus- és címkeeloszlás szempontjából.

Item Type: Article
Heading title: Szintaxis, szemantika
Journal or Publication Title: Magyar Számítógépes Nyelvészeti Konferencia
Date: 2021
Volume: 17
ISBN: 978-963-306-781-9
Page Range: pp. 291-303
Language: Hungarian
Event Title: Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged)
Related URLs: http://acta.bibl.u-szeged.hu/73340/
Uncontrolled Keywords: Nyelvészet - számítógép alkalmazása
Additional Information: Bibliogr.: 303. p. és a lábjegyzetekben ; összefoglalás magyar nyelven
Subjects: 01. Natural sciences
01. Natural sciences > 01.02. Computer and information sciences
06. Humanities
06. Humanities > 06.02. Languages and Literature
Date Deposited: 2021. Sep. 28. 13:54
Last Modified: 2021. Sep. 28. 13:54
URI: http://acta.bibl.u-szeged.hu/id/eprint/73376

Actions (login required)

View Item View Item