Analysing the semantic content of static Hungarian embedding spaces

Ficsor Tamás; Berend Gábor: Analysing the semantic content of static Hungarian embedding spaces.

[thumbnail of msznykonf_017_091-105.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_017_091-105.pdf

Letöltés (687kB) | Előnézet

Absztrakt (kivonat)

Word embeddings can encode semantic features and have achieved many recent successes in solving NLP tasks. Although word embeddings have high success on several downstream tasks, there is no trivial approach to extract lexical information from them. We propose a transformation that amplifies desired semantic features in the basis of the embedding space. We generate these semantic features by a distant supervised approach, to make them applicable for Hungarian embedding spaces. We propose the Hellinger distance in order to perform a transformation to an interpretable embedding space. Furthermore, we extend our research to sparse word representations as well, since sparse representations are considered to be highly interpretable.

Mű típusa: Konferencia vagy workshop anyag
Rovatcím: Szemantika
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2021
Kötet: 17
ISBN: 978-963-306-781-9
Oldalak: pp. 91-105
Nyelv: angol
Konferencia neve: Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/73340/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: p. 103-105. és a lábjegyzetekben ; összefoglalás angol nyelven
Szakterület: 01. Természettudományok
01. Természettudományok > 01.02. Számítás- és információtudomány
06. Bölcsészettudományok
06. Bölcsészettudományok > 06.02. Nyelvek és irodalom
Feltöltés dátuma: 2021. szep. 28. 11:12
Utolsó módosítás: 2022. nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/73360
Bővebben:
Tétel nézet Tétel nézet