A magyar nyelv néhány szófaji elemzőjének összevetése

Kuba András; Bakota Tibor; Hócza András; Oravecz Csaba: A magyar nyelv néhány szófaji elemzőjének összevetése.

[thumbnail of msznykonf_001_016-022.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_001_016-022.pdf

Letöltés (1MB) | Előnézet

Absztrakt (kivonat)

A dolgozatban három különböző POS tagger (szófaji egyértelmfisítő) összehasonlítására vállalkozunk. Az első egy Hidden Markov Model alapú bigram elemző (VMM), a második egy szabály alapú módszer, amely bizonytalansági osztályok felhasználásával szófaji egyértelműsítést végez (RGLeani). Mindkét elemző a Szegedi Tudományegyetem Informatikai Tanszékcsoportján készült A harmadik egyértelműsítő a jól ismert TnT [1], amely már több nyelven bizonyította képességeit, és amely a VMM-el szemben a szövegben előforduló szóhármasokat vizsgálja. Kísérleteinket a körülbelül 1,2 millió szót tartalmazó, kézzel annotált Szeged Korpuszon [2] végeztük, amely különböző szövegtípusokat foglal magába. Vizsgálatunk tárgya a szófaji egyértelműsítés, vagyis a mondatban előforduló adott szóra a lehetséges kódok közül a mondat szemantikáját visszatükröző egyértelmű tag meghatározása. Azaz a tesztelés során az egyes szavak bizonytalansági osztálya ismert volt az elemzők előtt Ez alól a TnT kivétel, mivel ez a módszer a tesztelés során a szóvégződések elemzése által következtet az ismeretlen szavak lehetséges nyelvtani kódjára.-A tesztelés során az RGLeam algoritmus 96,16% pontosságával megelőzte a VMM elemzőt (95,98%) illetve a TnT-t (95,08%). A hibásan taggelt szavak listájának összehasonlítása során kiderült, hogy a két statisztikai módszer "hajlamosabb" ugyanazokon a helyeken hibázni. A kapott eredményeket felhasználva, vizsgálatokat végeztünk arra nézve is, hogy a fenti módszereket kombinálva milyen találati pontosság érhető el.

Mű típusa: Konferencia vagy workshop anyag
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2003
Kötet: 1
Oldalak: pp. 16-22
Konferencia neve: Magyar Számítógépes Nyelvészeti Konferencia (1.) (2003) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/59176/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: 22. p. ; összefoglalás magyar nyelven
Feltöltés dátuma: 2019. júl. 16. 09:40
Utolsó módosítás: 2022. nov. 08. 11:51
URI: http://acta.bibl.u-szeged.hu/id/eprint/59443
Bővebben:
Tétel nézet Tétel nézet