Skálázható szöveg-alapú nyelvazonosító módszer beszédszintézis céljára

Kiss Géza; Németh Géza: Skálázható szöveg-alapú nyelvazonosító módszer beszédszintézis céljára.

[thumbnail of msznykonf_003_413-417.pdf]

Előnézet

Cikk, tanulmány, mű
msznykonf_003_413-417.pdf
Letöltés (110kB) | Előnézet

Absztrakt (kivonat)

Szövegek nyelvének automatikus azonosítása nagyon fontos több alkalmazásterületen. E cikkben áttekintjük a szövegből történő nyelvazonosítása (language identification, LID) használt főbb módszereket és leírjuk legfontosabb tulajdonságaikat. Ezek egyes, nagyon rövid szövegekre helyes kezelését is igénylő alkalmazásterületeken – mint például a beszédszintézis – jelentkező hiányosságai kezelésére egy új módszert mutatunk be, amely változó hosszúságú N-gramok használatán alapuló, tisztán statisztikai módszer, emellett tetszőleges szöveg helyes azonosítására betanítható, jól skálázható, és viszonylag kis számítási kapacitást igényel az azonosítási fázisban. Bemutatjuk hatékonyságát a tanító- és attól független tesztanyagon, különböző méret szövegtörzseken való tanítás esetén, kevés és nagyon nagy számú nyelven való mködés esetén is. Az eredmények igazolják a megközelítés életképességét.

Mű típusa:	Konferencia vagy workshop anyag
Befoglaló folyóirat/kiadvány címe:	Magyar Számítógépes Nyelvészeti Konferencia
Dátum:	2005
Kötet:	3
Oldalak:	pp. 413-417
Konferencia neve:	Magyar Számítógépes Nyelvészeti Konferencia (3.) (2005) (Szeged)
Befoglaló mű URL:	http://acta.bibl.u-szeged.hu/58544/
Kulcsszavak:	Nyelvészet - számítógép alkalmazása
Megjegyzések:	Bibliogr.: 417. p. ; összefoglalás magyar nyelven
Feltöltés dátuma:	2019. jún. 13. 13:12
Utolsó módosítás:	2022. nov. 08. 11:50
URI:	http://acta.bibl.u-szeged.hu/id/eprint/58598

Bővebben:

Tétel nézet