Kuba András; Bakota Tibor; Hócza András; Oravecz Csaba: A magyar nyelv néhány szófaji elemzőjének összevetése.
Előnézet |
Cikk, tanulmány, mű
msznykonf_001_016-022.pdf Letöltés (1MB) | Előnézet |
Absztrakt (kivonat)
A dolgozatban három különböző POS tagger (szófaji egyértelmfisítő) összehasonlítására vállalkozunk. Az első egy Hidden Markov Model alapú bigram elemző (VMM), a második egy szabály alapú módszer, amely bizonytalansági osztályok felhasználásával szófaji egyértelműsítést végez (RGLeani). Mindkét elemző a Szegedi Tudományegyetem Informatikai Tanszékcsoportján készült A harmadik egyértelműsítő a jól ismert TnT [1], amely már több nyelven bizonyította képességeit, és amely a VMM-el szemben a szövegben előforduló szóhármasokat vizsgálja. Kísérleteinket a körülbelül 1,2 millió szót tartalmazó, kézzel annotált Szeged Korpuszon [2] végeztük, amely különböző szövegtípusokat foglal magába. Vizsgálatunk tárgya a szófaji egyértelműsítés, vagyis a mondatban előforduló adott szóra a lehetséges kódok közül a mondat szemantikáját visszatükröző egyértelmű tag meghatározása. Azaz a tesztelés során az egyes szavak bizonytalansági osztálya ismert volt az elemzők előtt Ez alól a TnT kivétel, mivel ez a módszer a tesztelés során a szóvégződések elemzése által következtet az ismeretlen szavak lehetséges nyelvtani kódjára.-A tesztelés során az RGLeam algoritmus 96,16% pontosságával megelőzte a VMM elemzőt (95,98%) illetve a TnT-t (95,08%). A hibásan taggelt szavak listájának összehasonlítása során kiderült, hogy a két statisztikai módszer "hajlamosabb" ugyanazokon a helyeken hibázni. A kapott eredményeket felhasználva, vizsgálatokat végeztünk arra nézve is, hogy a fenti módszereket kombinálva milyen találati pontosság érhető el.
Mű típusa: | Konferencia vagy workshop anyag |
---|---|
Befoglaló folyóirat/kiadvány címe: | Magyar Számítógépes Nyelvészeti Konferencia |
Dátum: | 2003 |
Kötet: | 1 |
Oldalak: | pp. 16-22 |
Konferencia neve: | Magyar Számítógépes Nyelvészeti Konferencia (1.) (2003) (Szeged) |
Befoglaló mű URL: | http://acta.bibl.u-szeged.hu/59176/ |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
Megjegyzések: | Bibliogr.: 22. p. ; összefoglalás magyar nyelven |
Feltöltés dátuma: | 2019. júl. 16. 09:40 |
Utolsó módosítás: | 2022. nov. 08. 11:51 |
URI: | http://acta.bibl.u-szeged.hu/id/eprint/59443 |
Tétel nézet |