Magyar hadifoglyok adatainak orosz-magyar átírása és helyreállítása, és a szabadszöveges adatbázisok tulajdonságai

Sass Bálint; Mittelholcz Iván; Halász Dávid; Lipp Veronika; Kalivoda Ágnes: Magyar hadifoglyok adatainak orosz-magyar átírása és helyreállítása, és a szabadszöveges adatbázisok tulajdonságai.

[thumbnail of msznykonf_017_039-051.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_017_039-051.pdf

Letöltés (828kB) | Előnézet

Absztrakt (kivonat)

Ebben a tanulmányban a magyar hadifoglyok adatbázisában lévő tulajdonnevek orosz-magyar átírásának módszerét és tanulságait mutatjuk be. Az adatbázisban a 682000 hadifogoly adatai cirill betűkkel leírva állnak rendelkezésre. Az adatok két körben szenvedtek torzulást: először, amikor az adatokat felvevő szovjet katona hallás utána leírta, majd mikor 60 év múltán szintén orosz anyanyelvűek manuális munkával digitalizálták az anyagot a kézzel írott kartonokról. Esetünkben nem szimpla átírásról van szó, hanem valójában az eredeti magyar szó helyreállításáról. Külön feladatot jelentett a helyeket leíró adatok adatmezőkre bontása. Szabályalapú algoritmusunkban szigorú és laza átírást, valamint közelítő keresést alkalmazunk, az átírást listákkal vetjük össze. Ha egyik módszer sem vezet eredményre, akkor a buta betűről-betűre átírást adjuk vissza. Eredmény: az adatok 77%-ához tudtunk helyes helyreállított alakot rendelni. Megfogalmazunk tanulságot a kézzel készült, korlátozatlan, szabadszöveges adatbázisok szükségszerű következetlenségéről; valamint arról, hogy egyedi adatnál, tanulóadat híján van létjogosultsága a szabályalapú módszereknek.

Mű típusa: Konferencia vagy workshop anyag
Rovatcím: Transzkripció, transzliteráció
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2021
Kötet: 17
ISBN: 978-963-306-781-9
Oldalak: pp. 39-51
Nyelv: magyar
Konferencia neve: Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/73340/
Kulcsszavak: Nyelvészet - számítógép alkalmazása, Transzliteráció - cirill betűk, Átírás
Megjegyzések: Bibliogr.: 51. p. és a lábjegyzetekben ; összefoglalás magyar nyelven
Szakterület: 01. Természettudományok
01. Természettudományok > 01.02. Számítás- és információtudomány
06. Bölcsészettudományok
06. Bölcsészettudományok > 06.02. Nyelvek és irodalom
Feltöltés dátuma: 2021. szep. 28. 10:27
Utolsó módosítás: 2022. nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/73356
Bővebben:
Tétel nézet Tétel nézet