OCR-hibák javítása neurális technológiák segítségével

Laki László János; Kőrös Ádám; Ligeti-Nagy Noémi; Nyéki Bence; Vadász Noémi; Yang Zijian Győző; Váradi Tamás: OCR-hibák javítása neurális technológiák segítségével.

[thumbnail of msznykonf_018_417-430.pdf] Cikk, tanulmány, mű
msznykonf_018_417-430.pdf

Letöltés (708kB)

Absztrakt (kivonat)

Munkánk során párhuzamos optikai szövegfelismerővel digitalizált (OCR) szövegeken végeztünk utólagos korrektúrát. Kutatásunkban különböző OCR-hibákat tartalmazó szövegeket detektáló és javító modelleket implementáltunk, valamint saját Silver standard párhuzamos korpuszt építettünk. Eredményeink azt mutatják, hogy abban az esetben, amikor kizárólag OCR-hibák javítását tűzzük ki célul, modelljeink a Context-based Character Correction (CCC) detekciós modellel való kombinációval a leghatékonyabbak. A létrehozott enkóder-dekóder alapú javító módszereink az OCR-hibák mellett nagy pontossággal javítják a szövegekben található koherenciahibákat (pl.: oldalszámok, elválasztások). Kutatásunk folytatásaként tervezzük a modellek tanítását és tesztelését a Gold standard korpuszon is.

Mű típusa: Konferencia vagy workshop anyag
Rovatcím: Korpusz, szövegfeldolgozás
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2022
Kötet: 18
ISBN: 978-963-306-848-9
Oldalak: pp. 417-430
Nyelv: magyar
Kiadás helye: Szeged
Konferencia neve: Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/75797/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: p. 428-430. és a lábjegyzetekben ; ill. ; összefoglalás magyar nyelven
Szakterület: 01. Természettudományok
01. Természettudományok > 01.02. Számítás- és információtudomány
06. Bölcsészettudományok
06. Bölcsészettudományok > 06.02. Nyelvek és irodalom
Feltöltés dátuma: 2022. máj. 25. 12:30
Utolsó módosítás: 2022. nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/75890
Bővebben:
Tétel nézet Tétel nézet