%A  SzĂĄntĂł Zsolt
%A  Vincze Veronika
%A  Farkas RichĂĄrd
%K NyelvĂŠszet - szĂĄmĂ­tĂłgĂŠp alkalmazĂĄsa
%L acta59021
%D 2017
%T Magyar nyelvĹą szĂł- ĂŠs karakterszintĹą szĂłbeĂĄgyazĂĄsok
%V 13
%X A szóbeágyazási modellek az egyes szavak párszáz dimenziós folytonos térbe való leképezését adják meg úgy, hogy az egymáshoz hasonló szavak közel kerülnek egymáshoz a beágyazási térben. A szóbeágyazások széles körben használatossá váltak az elmúlt években. Jelen cikkben bemutatunk publikusan elérhető magyar nyelvű szóvektorokat, amelyeket 4,3 milliárd szövegszónyi korpuszból építettünk. Az első modellek (word2vec) a szavakat mint alapegységet dolgozták fel. Az utóbbi években több olyan kiterjesztése is született ezen modelleknek, amelyek karakterszintű információkat is ki tudnak aknázni. Ezek a modellek morfológiailag gazdag nyelveken előnyösebbek lehetnek, mint a pusztán szószintű modellek. A cikkben összehasonlítunk ugyanazon adatbázisból épített szó- és karakterszintű szóbeágyazásokat téma- és véleményosztályozási feladatokon kiértékelve.
%O Bibliogr.: p. 327-328. ; ĂśsszefoglalĂĄs magyar nyelven
%J Magyar SzĂĄmĂ­tĂłgĂŠpes NyelvĂŠszeti Konferencia
%P 323-328