Skálázható szöveg-alapú nyelvazonosító módszer beszédszintézis céljára

Kiss, Géza and Németh, Géza: Skálázható szöveg-alapú nyelvazonosító módszer beszédszintézis céljára. In: Magyar Számítógépes Nyelvészeti Konferencia, (1). pp. 413-417. (2005)

[img]
Preview
Cikk, tanulmány, mű
msznykonf_003_413-417.pdf

Download (110kB) | Preview

Abstract

Szövegek nyelvének automatikus azonosítása nagyon fontos több alkalmazásterületen. E cikkben áttekintjük a szövegből történő nyelvazonosítása (language identification, LID) használt főbb módszereket és leírjuk legfontosabb tulajdonságaikat. Ezek egyes, nagyon rövid szövegekre helyes kezelését is igénylő alkalmazásterületeken – mint például a beszédszintézis – jelentkező hiányosságai kezelésére egy új módszert mutatunk be, amely változó hosszúságú N-gramok használatán alapuló, tisztán statisztikai módszer, emellett tetszőleges szöveg helyes azonosítására betanítható, jól skálázható, és viszonylag kis számítási kapacitást igényel az azonosítási fázisban. Bemutatjuk hatékonyságát a tanító- és attól független tesztanyagon, különböző méret szövegtörzseken való tanítás esetén, kevés és nagyon nagy számú nyelven való mködés esetén is. Az eredmények igazolják a megközelítés életképességét.

Item Type: Article
Journal or Publication Title: Magyar Számítógépes Nyelvészeti Konferencia
Date: 2005
Volume: 1
Page Range: pp. 413-417
Event Title: Magyar Számítógépes Nyelvészeti Konferencia (3.) (2005) (Szeged)
Uncontrolled Keywords: Nyelvészet - számítógép alkalmazása
Additional Information: Bibliogr.: 417. p. ; összefoglalás magyar nyelven
Date Deposited: 2019. Jun. 13. 13:12
Last Modified: 2019. Jun. 13. 13:12
URI: http://acta.bibl.u-szeged.hu/id/eprint/58598

Actions (login required)

View Item View Item