Pethő Gergely; Sass Bálint; Simon László; Lipp Veronika: Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel.
Előnézet |
Cikk, tanulmány, mű
msznykonf_019_291-304..pdf Letöltés (543kB) | Előnézet |
Absztrakt (kivonat)
Cikkünk célkitűzése kettős: egyrészt bemutatunk egy olyan egyszerű és általános módszert, amellyel karakteralapú nyelvmodellek hasznosíthatóak egyebek mellett korpuszok tisztításában, másrészt ismertetünk egy olyan konkrét, tiszta magyar sajtónyelvi korpuszon tanított nyelvmodellt, amelyre építve jó eredményeket értünk el e módszer alkalmazásával. Továbbá nyilvánosan elérhetővé tesszük az akár karakter-, akár szószintű rekurrens neurális nyelvmodellek konfigurálását és (újra)tanítását szolgáló, Pythonban írt alkalmazást, amellyel a nyelvmodellünket tanítottuk, és amelynek segítségével akár ez a magyar sajtónyelvi modell hozzáigazítható más jellegű tanítókorpuszokhoz, akár új modell tanítható be. A bemutatott kétirányú LSTM-nyelvmodell erőforrásigénye aránylag szerény, és a javasolt módszert követve közvetlenül, vagyis az adott részfeladatra történő bármilyen további betanítás nélkül jól használható a korpusztisztítás során felmerülő feladatok széles körére, például idegen nyelvű, túl sok zajt tartalmazó szövegrészek azonosítására, szórványos OCR-hibák és hiányzó ékezetek javítására. A nyelvmodellt a sorvégi elválasztások egyértelműsítése feladatra értékeltük ki: a módszer teljesítménye ezen a feladaton meghaladta a nagyon magas baseline-t.
Mű típusa: | Konferencia vagy workshop anyag |
---|---|
Befoglaló folyóirat/kiadvány címe: | Magyar Számítógépes Nyelvészeti Konferencia |
Dátum: | 2023 |
Kötet: | 19 |
ISBN: | 978-963-306-912-7 |
Oldalak: | pp. 291-304 |
Nyelv: | magyar |
Kiadás helye: | Szeged |
Konferencia neve: | Magyar számítógépes nyelvészeti konferencia (19.) |
Konferencia típusa: | Konferencia |
Helyszin: | Szeged |
Dátum: | 2023. január 26-27. |
Befoglaló mű URL: | https://acta.bibl.u-szeged.hu/78307/ |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása, Nyelvmodellek |
Megjegyzések: | Bibliogr.: p. 303-304. ; ill. ; összefoglalás magyar nyelven |
Szakterület: | 01. Természettudományok 01. Természettudományok > 01.02. Számítás- és információtudomány |
Feltöltés dátuma: | 2023. már. 16. 09:34 |
Utolsó módosítás: | 2023. már. 16. 09:34 |
URI: | http://acta.bibl.u-szeged.hu/id/eprint/78420 |
Tétel nézet |