Magyar hadifoglyok adatainak orosz-magyar átírása és helyreállítása, és a szabadszöveges adatbázisok tulajdonságai

Sass Bálint and Mittelholcz Iván and Halász Dávid and Lipp Veronika and Kalivoda Ágnes: Magyar hadifoglyok adatainak orosz-magyar átírása és helyreállítása, és a szabadszöveges adatbázisok tulajdonságai. In: Magyar Számítógépes Nyelvészeti Konferencia, (17). pp. 39-51. (2021)

[thumbnail of msznykonf_017_039-051.pdf]
Preview
Cikk, tanulmány, mű
msznykonf_017_039-051.pdf

Download (828kB) | Preview

Abstract

Ebben a tanulmányban a magyar hadifoglyok adatbázisában lévő tulajdonnevek orosz-magyar átírásának módszerét és tanulságait mutatjuk be. Az adatbázisban a 682000 hadifogoly adatai cirill betűkkel leírva állnak rendelkezésre. Az adatok két körben szenvedtek torzulást: először, amikor az adatokat felvevő szovjet katona hallás utána leírta, majd mikor 60 év múltán szintén orosz anyanyelvűek manuális munkával digitalizálták az anyagot a kézzel írott kartonokról. Esetünkben nem szimpla átírásról van szó, hanem valójában az eredeti magyar szó helyreállításáról. Külön feladatot jelentett a helyeket leíró adatok adatmezőkre bontása. Szabályalapú algoritmusunkban szigorú és laza átírást, valamint közelítő keresést alkalmazunk, az átírást listákkal vetjük össze. Ha egyik módszer sem vezet eredményre, akkor a buta betűről-betűre átírást adjuk vissza. Eredmény: az adatok 77%-ához tudtunk helyes helyreállított alakot rendelni. Megfogalmazunk tanulságot a kézzel készült, korlátozatlan, szabadszöveges adatbázisok szükségszerű következetlenségéről; valamint arról, hogy egyedi adatnál, tanulóadat híján van létjogosultsága a szabályalapú módszereknek.

Item Type: Article
Heading title: Transzkripció, transzliteráció
Journal or Publication Title: Magyar Számítógépes Nyelvészeti Konferencia
Date: 2021
Volume: 17
ISBN: 978-963-306-781-9
Page Range: pp. 39-51
Language: Hungarian
Event Title: Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged)
Related URLs: http://acta.bibl.u-szeged.hu/73340/
Uncontrolled Keywords: Nyelvészet - számítógép alkalmazása, Transzliteráció - cirill betűk, Átírás
Additional Information: Bibliogr.: 51. p. és a lábjegyzetekben ; összefoglalás magyar nyelven
Subjects: 01. Natural sciences
01. Natural sciences > 01.02. Computer and information sciences
06. Humanities
06. Humanities > 06.02. Languages and Literature
Date Deposited: 2021. Sep. 28. 10:27
Last Modified: 2021. Sep. 28. 10:41
URI: http://acta.bibl.u-szeged.hu/id/eprint/73356

Actions (login required)

View Item View Item