Etudes in Chinese-Hungarian corpus-based lexical acquisition

Ugray Gábor: Etudes in Chinese-Hungarian corpus-based lexical acquisition.

[thumbnail of msznykonf_014_247-259.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_014_247-259.pdf

Letöltés (669kB) | Előnézet

Absztrakt (kivonat)

The paper reports on a series of experiments to extract matching lexical items from a 6.1 million segment corpus of movie subtitles in Mandarin Chinese and Hungarian, with the aim of expanding an existing bilingual dictionary. The challenges of data cleansing and tokenization are outlined, and the outcome of word alignment, vector space embeddings, neural machine translation and two standard statistical approaches is presented. A bilingual concordance tool for end users, based on word alignments, is introduced. A quantitative and qualitative evaluation of the results finds that the new methods drastically outperform simple collocation extraction, but also shows that human judgement is indispensable before including vocabulary in a published dictionary.

Mű típusa: Konferencia vagy workshop anyag
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2018
Kötet: 14
ISBN: 978-963-306-578-5
Oldalak: pp. 247-259
Konferencia neve: Magyar Számítógépes Nyelvészeti Konferencia (14.) (2018) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/58555/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: p. 258-259. ; összefoglalás magyar nyelven
Feltöltés dátuma: 2019. júl. 02. 18:53
Utolsó módosítás: 2022. nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/59049
Bővebben:
Tétel nézet Tétel nézet