Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel

Pethő Gergely; Sass Bálint; Simon László; Lipp Veronika: Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel.

[thumbnail of msznykonf_019_291-304..pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_019_291-304..pdf

Letöltés (543kB) | Előnézet

Absztrakt (kivonat)

Cikkünk célkitűzése kettős: egyrészt bemutatunk egy olyan egyszerű és általános módszert, amellyel karakteralapú nyelvmodellek hasznosíthatóak egyebek mellett korpuszok tisztításában, másrészt ismertetünk egy olyan konkrét, tiszta magyar sajtónyelvi korpuszon tanított nyelvmodellt, amelyre építve jó eredményeket értünk el e módszer alkalmazásával. Továbbá nyilvánosan elérhetővé tesszük az akár karakter-, akár szószintű rekurrens neurális nyelvmodellek konfigurálását és (újra)tanítását szolgáló, Pythonban írt alkalmazást, amellyel a nyelvmodellünket tanítottuk, és amelynek segítségével akár ez a magyar sajtónyelvi modell hozzáigazítható más jellegű tanítókorpuszokhoz, akár új modell tanítható be. A bemutatott kétirányú LSTM-nyelvmodell erőforrásigénye aránylag szerény, és a javasolt módszert követve közvetlenül, vagyis az adott részfeladatra történő bármilyen további betanítás nélkül jól használható a korpusztisztítás során felmerülő feladatok széles körére, például idegen nyelvű, túl sok zajt tartalmazó szövegrészek azonosítására, szórványos OCR-hibák és hiányzó ékezetek javítására. A nyelvmodellt a sorvégi elválasztások egyértelműsítése feladatra értékeltük ki: a módszer teljesítménye ezen a feladaton meghaladta a nagyon magas baseline-t.

Mű típusa: Konferencia vagy workshop anyag
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2023
Kötet: 19
ISBN: 978-963-306-912-7
Oldalak: pp. 291-304
Nyelv: magyar
Kiadás helye: Szeged
Konferencia neve: Magyar számítógépes nyelvészeti konferencia (19.)
Konferencia típusa: Konferencia
Helyszin: Szeged
Dátum: 2023. január 26-27.
Befoglaló mű URL: https://acta.bibl.u-szeged.hu/78307/
Kulcsszavak: Nyelvészet - számítógép alkalmazása, Nyelvmodellek
Megjegyzések: Bibliogr.: p. 303-304. ; ill. ; összefoglalás magyar nyelven
Szakterület: 01. Természettudományok
01. Természettudományok > 01.02. Számítás- és információtudomány
Feltöltés dátuma: 2023. már. 16. 09:34
Utolsó módosítás: 2023. már. 16. 09:34
URI: http://acta.bibl.u-szeged.hu/id/eprint/78420
Bővebben:
Tétel nézet Tétel nézet