Sass Bálint; Mittelholcz Iván; Halász Dávid; Lipp Veronika; Kalivoda Ágnes: Magyar hadifoglyok adatainak orosz-magyar átírása és helyreállítása, és a szabadszöveges adatbázisok tulajdonságai.
Előnézet |
Cikk, tanulmány, mű
msznykonf_017_039-051.pdf Letöltés (828kB) | Előnézet |
Absztrakt (kivonat)
Ebben a tanulmányban a magyar hadifoglyok adatbázisában lévő tulajdonnevek orosz-magyar átírásának módszerét és tanulságait mutatjuk be. Az adatbázisban a 682000 hadifogoly adatai cirill betűkkel leírva állnak rendelkezésre. Az adatok két körben szenvedtek torzulást: először, amikor az adatokat felvevő szovjet katona hallás utána leírta, majd mikor 60 év múltán szintén orosz anyanyelvűek manuális munkával digitalizálták az anyagot a kézzel írott kartonokról. Esetünkben nem szimpla átírásról van szó, hanem valójában az eredeti magyar szó helyreállításáról. Külön feladatot jelentett a helyeket leíró adatok adatmezőkre bontása. Szabályalapú algoritmusunkban szigorú és laza átírást, valamint közelítő keresést alkalmazunk, az átírást listákkal vetjük össze. Ha egyik módszer sem vezet eredményre, akkor a buta betűről-betűre átírást adjuk vissza. Eredmény: az adatok 77%-ához tudtunk helyes helyreállított alakot rendelni. Megfogalmazunk tanulságot a kézzel készült, korlátozatlan, szabadszöveges adatbázisok szükségszerű következetlenségéről; valamint arról, hogy egyedi adatnál, tanulóadat híján van létjogosultsága a szabályalapú módszereknek.
Mű típusa: | Konferencia vagy workshop anyag |
---|---|
Rovatcím: | Transzkripció, transzliteráció |
Befoglaló folyóirat/kiadvány címe: | Magyar Számítógépes Nyelvészeti Konferencia |
Dátum: | 2021 |
Kötet: | 17 |
ISBN: | 978-963-306-781-9 |
Oldalak: | pp. 39-51 |
Nyelv: | magyar |
Konferencia neve: | Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged) |
Befoglaló mű URL: | http://acta.bibl.u-szeged.hu/73340/ |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása, Transzliteráció - cirill betűk, Átírás |
Megjegyzések: | Bibliogr.: 51. p. és a lábjegyzetekben ; összefoglalás magyar nyelven |
Szakterület: | 01. Természettudományok 01. Természettudományok > 01.02. Számítás- és információtudomány 06. Bölcsészettudományok 06. Bölcsészettudományok > 06.02. Nyelvek és irodalom |
Feltöltés dátuma: | 2021. szep. 28. 10:27 |
Utolsó módosítás: | 2022. nov. 08. 11:49 |
URI: | http://acta.bibl.u-szeged.hu/id/eprint/73356 |
![]() |
Tétel nézet |