Skálázható szöveg-alapú nyelvazonosító módszer beszédszintézis céljára

Kiss Géza; Németh Géza: Skálázható szöveg-alapú nyelvazonosító módszer beszédszintézis céljára.

[thumbnail of msznykonf_003_413-417.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_003_413-417.pdf

Letöltés (110kB) | Előnézet

Absztrakt (kivonat)

Szövegek nyelvének automatikus azonosítása nagyon fontos több alkalmazásterületen. E cikkben áttekintjük a szövegből történő nyelvazonosítása (language identification, LID) használt főbb módszereket és leírjuk legfontosabb tulajdonságaikat. Ezek egyes, nagyon rövid szövegekre helyes kezelését is igénylő alkalmazásterületeken – mint például a beszédszintézis – jelentkező hiányosságai kezelésére egy új módszert mutatunk be, amely változó hosszúságú N-gramok használatán alapuló, tisztán statisztikai módszer, emellett tetszőleges szöveg helyes azonosítására betanítható, jól skálázható, és viszonylag kis számítási kapacitást igényel az azonosítási fázisban. Bemutatjuk hatékonyságát a tanító- és attól független tesztanyagon, különböző méret szövegtörzseken való tanítás esetén, kevés és nagyon nagy számú nyelven való mködés esetén is. Az eredmények igazolják a megközelítés életképességét.

Mű típusa: Konferencia vagy workshop anyag
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2005
Kötet: 3
Oldalak: pp. 413-417
Konferencia neve: Magyar Számítógépes Nyelvészeti Konferencia (3.) (2005) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/58544/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: 417. p. ; összefoglalás magyar nyelven
Feltöltés dátuma: 2019. jún. 13. 13:12
Utolsó módosítás: 2022. nov. 08. 11:50
URI: http://acta.bibl.u-szeged.hu/id/eprint/58598
Bővebben:
Tétel nézet Tétel nézet