emToken : Unicode-képes tokenizáló magyar nyelvre

Mittelholcz Iván: emToken : Unicode-képes tokenizáló magyar nyelvre.

[thumbnail of msznykonf_013_061-069.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_013_061-069.pdf

Letöltés (306kB) | Előnézet

Absztrakt (kivonat)

Cikkünkben az emToken tokenizáló programot mutatjuk be. Ennek főbb tulajdonságai között említhető, a széleskörű UTF-8 támogatás, a konfigurálhatóság, az automatikus tesztkörnyezet és a programkönytár által nyújtott API. Az előállított - XML vagy JSON formátumú - kimenet detokenizálható. A program forráskódja szabadon elérhető GPLv3 licenc alatt. Az emToken az e-magyar eszközlánc tokenizálásért felelős modulja.

Mű típusa: Konferencia vagy workshop anyag
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2017
Kötet: 13
ISBN: 978-963-306-518-1
Oldalak: pp. 61-69
Konferencia neve: Magyar Számítógépes Nyelvészeti Konferencia (13.) (2017) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/58554/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: 69. p. ; összefoglalás magyar nyelven
Feltöltés dátuma: 2019. júl. 01. 13:19
Utolsó módosítás: 2022. nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/58997
Bővebben:
Tétel nézet Tétel nézet