Laki László János and Kőrös Ádám and Ligeti-Nagy Noémi and Nyéki Bence and Vadász Noémi and Yang Zijian Győző and Váradi Tamás: OCR-hibák javítása neurális technológiák segítségével. In: Magyar Számítógépes Nyelvészeti Konferencia, (18). pp. 417-430. (2022)
![]() |
Cikk, tanulmány, mű
msznykonf_018_417-430.pdf Download (708kB) |
Abstract
Munkánk során párhuzamos optikai szövegfelismerővel digitalizált (OCR) szövegeken végeztünk utólagos korrektúrát. Kutatásunkban különböző OCR-hibákat tartalmazó szövegeket detektáló és javító modelleket implementáltunk, valamint saját Silver standard párhuzamos korpuszt építettünk. Eredményeink azt mutatják, hogy abban az esetben, amikor kizárólag OCR-hibák javítását tűzzük ki célul, modelljeink a Context-based Character Correction (CCC) detekciós modellel való kombinációval a leghatékonyabbak. A létrehozott enkóder-dekóder alapú javító módszereink az OCR-hibák mellett nagy pontossággal javítják a szövegekben található koherenciahibákat (pl.: oldalszámok, elválasztások). Kutatásunk folytatásaként tervezzük a modellek tanítását és tesztelését a Gold standard korpuszon is.
Item Type: | Article |
---|---|
Heading title: | Korpusz, szövegfeldolgozás |
Journal or Publication Title: | Magyar Számítógépes Nyelvészeti Konferencia |
Date: | 2022 |
Volume: | 18 |
ISBN: | 978-963-306-848-9 |
Page Range: | pp. 417-430 |
Language: | Hungarian |
Place of Publication: | Szeged |
Event Title: | Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged) |
Related URLs: | http://acta.bibl.u-szeged.hu/75797/ |
Uncontrolled Keywords: | Nyelvészet - számítógép alkalmazása |
Additional Information: | Bibliogr.: p. 428-430. és a lábjegyzetekben ; ill. ; összefoglalás magyar nyelven |
Subjects: | 01. Natural sciences 01. Natural sciences > 01.02. Computer and information sciences 06. Humanities 06. Humanities > 06.02. Languages and Literature |
Date Deposited: | 2022. May. 25. 12:30 |
Last Modified: | 2022. May. 25. 12:30 |
URI: | http://acta.bibl.u-szeged.hu/id/eprint/75890 |
Actions (login required)
![]() |
View Item |