A duplakocka modell és az igei szerkezeteket kinyerő "ugrik és marad" módszer nyelvfüggetlensége, valamint néhány megjegyzés az UD annotáció univerzalitásáról

Sass Bálint: A duplakocka modell és az igei szerkezeteket kinyerő "ugrik és marad" módszer nyelvfüggetlensége, valamint néhány megjegyzés az UD annotáció univerzalitásáról.

[thumbnail of msznykonf_016_399-407.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_016_399-407.pdf

Letöltés (441kB) | Előnézet

Absztrakt (kivonat)

Jelen tanulmány egy módszernek a magyartól különböző nyelvekre való alkalmazhatóságát vizsgálja. A (Sass, 2019) tanulmány egy valódi igei szerkezetek kinyerésére szolgáló eljárást mutat be magyar nyelvre, és két állítást fogalmaz meg mellékesen: (1) a módszer tetszőleges nyelvre alkalmazható; (2) a módszer alkalmazásához szükséges adatok függőségileg elemzett korpuszból könnyen származtathatók. E két állítást vesszük górcső alá. Adatként universal dependencies (UD) korpuszokat használunk fel. Az UD-nek köszönhetően annotációs különbségek elvileg nincsenek nincsenek a különféle nyelvű korpuszok között, csak a nettó nyelvi különbségek láthatók. Ezzel kapcsolatban gyakorlati megfigyeléseink alapján kritikát fogalmazunk meg. Bár az ige és közvetlen bővítményei közötti viszonyokat különböző nyelvek különböző eszközökkel fejezik ki, a vizsgált nyelvekre ezek a nyelvi eszközök néhány általános módon megragadhatók: esetrag, elöljáró/névutó (esetraggal vagy anélkül), szórend. Az említett eljárás működésének egyetlen feltétele az igék és közvetlen bővítményeik közötti viszonyok leírása, a fentiek alapján tehát működtethető az algoritmus. Eredményként valódi igei szerkezeket kapunk, azaz az eredmények igazolják sejtésünket, az eredeti cikk állításai megállják a helyüket.

Mű típusa: Konferencia vagy workshop anyag
Rovatcím: Korpusznyelvészet, szintaxis
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2020
Kötet: 16
ISBN: 978-963-306-719-2
Oldalak: pp. 399-407
Konferencia neve: Magyar Számítógépes Nyelvészeti Konferencia (16.) (2020) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/67637/
Kulcsszavak: Nyelvészet - számítógép alkalmazása, Korpusz - nyelvészet
Megjegyzések: Bibliogr.: 407. p. ; összefoglalás magyar nyelven
Feltöltés dátuma: 2020. máj. 05. 12:05
Utolsó módosítás: 2022. nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/67654
Bővebben:
Tétel nézet Tétel nézet