emLam - a Hungarian Language Modeling baseline

Nemeskey Dávid Márk: emLam - a Hungarian Language Modeling baseline.

[thumbnail of klskla.pdf]
Preview
Cikk, tanulmány, mű
klskla.pdf

Download (453kB) | Preview

Abstract

This paper aims to make up for the lack of documented baselines for Hungarian language modeling. Various approaches are evaluated on three publicly available Hungarian corpora. Perplexity values comparable to models of similar-sized English corpora are reported. A new, freely downloadable Hungarian benchmark corpus is introduced.

Item Type: Conference or Workshop Item
Journal or Publication Title: Magyar Számítógépes Nyelvészeti Konferencia
Date: 2017
Volume: 13
ISBN: 978-963-306-518-1
Page Range: pp. 91-102
Event Title: Magyar Számítógépes Nyelvészeti Konferencia (13.) (2017) (Szeged)
Related URLs: http://acta.bibl.u-szeged.hu/58554/
Uncontrolled Keywords: Nyelvészet - számítógép alkalmazása
Additional Information: Bibliogr.: p. 100-102. ; összefoglalás angol nyelven
Date Deposited: 2019. Jul. 01. 13:29
Last Modified: 2022. Nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/59000

Actions (login required)

View Item View Item