TY - CONF UR - http://acta.bibl.u-szeged.hu/58579/ A1 - Németh András A1 - Balázs László SP - 209 N1 - Bibliogr.: 220. p. ; összefoglalás magyar nyelven T2 - Magyar Számítógépes Nyelvészeti Konferencia (3.) (2005) (Szeged) N2 - A magyar nyelv gazdag morfológiája és agglutináló jellege megkérd?jelezi az angol nyelvre jól m?köd? szövegklasszifikációs technikák változatlan alkalmazását. A legtöbb bevett módszerben szavak el?fordulását vizsgáljuk a dokumentumokban, azonban a magyar nyelv esetében a szóalakok nagy száma miatt ez nem t?nik alkalmas megközelítésnek. Jelen cikkben két módszert javaslunk a probléma kezelésére: a már korábban is alkalmazott szótövesítést, illetve n-grammok alapján történ? osztályozást. Vizsgálataink azt mutatják, hogy a kisebb apparátust igényl? n-gramm alapú technikák is a szótövesítéshez hasonlóan jó eredményt adnak, és még robosztusabbnak is bizonyulnak annál. KW - Nyelvészet - számítógép alkalmazása VL - 3 TI - A magyar nyelv sajátságaihoz illeszked? módszerek szövegek automatikus osztályozására ID - acta58579 EP - 220 Y1 - 2005/// AV - public ER -