A magyar nyelv néhány szófaji elemzőjének összevetése

Kuba, András and Bakota, Tibor and Hócza, András and Oravecz, Csaba: A magyar nyelv néhány szófaji elemzőjének összevetése. Magyar Számítógépes Nyelvészeti Konferencia, (1). pp. 16-22. (2003)

[img] Cikk, tanulmány, mű
msznykonf_001_016-022.pdf

Download (1MB)

Abstract

A dolgozatban három különböző POS tagger (szófaji egyértelmfisítő) összehasonlítására vállalkozunk. Az első egy Hidden Markov Model alapú bigram elemző (VMM), a második egy szabály alapú módszer, amely bizonytalansági osztályok felhasználásával szófaji egyértelműsítést végez (RGLeani). Mindkét elemző a Szegedi Tudományegyetem Informatikai Tanszékcsoportján készült A harmadik egyértelműsítő a jól ismert TnT [1], amely már több nyelven bizonyította képességeit, és amely a VMM-el szemben a szövegben előforduló szóhármasokat vizsgálja. Kísérleteinket a körülbelül 1,2 millió szót tartalmazó, kézzel annotált Szeged Korpuszon [2] végeztük, amely különböző szövegtípusokat foglal magába. Vizsgálatunk tárgya a szófaji egyértelműsítés, vagyis a mondatban előforduló adott szóra a lehetséges kódok közül a mondat szemantikáját visszatükröző egyértelmű tag meghatározása. Azaz a tesztelés során az egyes szavak bizonytalansági osztálya ismert volt az elemzők előtt Ez alól a TnT kivétel, mivel ez a módszer a tesztelés során a szóvégződések elemzése által következtet az ismeretlen szavak lehetséges nyelvtani kódjára.-A tesztelés során az RGLeam algoritmus 96,16% pontosságával megelőzte a VMM elemzőt (95,98%) illetve a TnT-t (95,08%). A hibásan taggelt szavak listájának összehasonlítása során kiderült, hogy a két statisztikai módszer "hajlamosabb" ugyanazokon a helyeken hibázni. A kapott eredményeket felhasználva, vizsgálatokat végeztünk arra nézve is, hogy a fenti módszereket kombinálva milyen találati pontosság érhető el.

Item Type: Article
Event Title: Magyar Számítógépes Nyelvészeti Konferencia (1.) (2003) (Szeged)
Journal or Publication Title: Magyar Számítógépes Nyelvészeti Konferencia
Date: 2003
Volume: 1
Page Range: pp. 16-22
Uncontrolled Keywords: Nyelvészet - számítógép alkalmazása
Additional Information: Bibliogr.: 22. p. ; összefoglalás magyar nyelven
Date Deposited: 2019. Jul. 16. 09:40
Last Modified: 2019. Jul. 16. 09:40
URI: http://acta.bibl.u-szeged.hu/id/eprint/59443

Actions (login required)

View Item View Item