A HuTongue spontán beszélt nyelvi korpusz leiratozásának és annotálásának minőségbiztosítási munkálatai

Gulyás Attila; Galántai Júlia; Szabó Martina Katalin; Szebeni Zea: A HuTongue spontán beszélt nyelvi korpusz leiratozásának és annotálásának minőségbiztosítási munkálatai.

[thumbnail of msznykonf_014_317-330.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_014_317-330.pdf

Letöltés (911kB) | Előnézet

Absztrakt (kivonat)

Jelen dolgozatban egy magyar nyelvű, spontán beszélt nyelvi korpusz, a HuTongue leiratozásának és annotálásának minőségbiztosítási munkálatairól számolunk be. A korpuszban feldolgozott szövegeket hétköznapi szituációkban, külső ingerektől teljesen elzárt környezetben keletkezett spontán nyelvi produktumok alkotják. A korpusz létrehozásának legfőbb célja, hogy megfelelő vizsgálati anyagot teremtsünk a pletyka természetének elsősorban társadalomtudományi szempontú kutatásához. A HuTongue egy egyedülálló adatbázis: tudomásunk szerint ez az egyetlen magyar nyelvű, nagy méretű, spontán szituációkban keletkezett, beszélt nyelvi korpusz, amely teljes egészében manuálisan gépelt és annotált formájú. A korpusz létrehozása – amely jelenleg is folyamatban van − több munkafázisban történik. Az előkészítés után a fájlokat egy feldolgozócsapat legépeli és annotáltatja. A munka három alapvető feladatból tevődik össze: a hanganyagon hallható verbális közlések rögzítéséből, a nem verbális hanghatások kódolásából, valamint egy, a kutatás szempontjából kardinális, szemantikai-−pragmatikai jellegű sajátság jelöléséből. Azt reméljük, hogy a korpusz a kutatási kérdés sokrétű és automatikus megoldásokkal hatékonyan támogatott vizsgálatát fogja lehetővé tenni a számunkra a jövőben. A jelen dolgozat célja, hogy bemutassuk e komplex feldolgozási munkának a minőségbiztosítási folyamatát. Szólunk a minőségbiztosítás szempontjairól, megtervezésének dilemmáiról és lépéseiről, valamint bemutatjuk az általunk alkalmazott megoldást.

Mű típusa: Konferencia vagy workshop anyag
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2018
Kötet: 14
ISBN: 978-963-306-578-5
Oldalak: pp. 317-330
Konferencia neve: Magyar Számítógépes Nyelvészeti Konferencia (14.) (2018) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/58555/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: 330. p. ; összefoglalás magyar nyelven
Feltöltés dátuma: 2019. júl. 03. 09:17
Utolsó módosítás: 2022. nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/59055
Bővebben:
Tétel nézet Tétel nézet