Mondatszintű szentiment analízis teljesítményének javítása adatkiterjesztéses eljárásokkal

Laki László János and Yang Zijian Győző: Mondatszintű szentiment analízis teljesítményének javítása adatkiterjesztéses eljárásokkal. In: Magyar Számítógépes Nyelvészeti Konferencia, (18). pp. 295-309. (2022)

[thumbnail of msznykonf_018_295-309.pdf] Cikk, tanulmány, mű
msznykonf_018_295-309.pdf

Download (360kB)

Abstract

A szentiment analízis egy olyan eljárás, amelynek segítségével információkat nyerhetünk az írott tartalmak emocionális töltetét illetően. Számítógépes algoritmusok révén olyan újgenerációs modellek kifejlesztése válik lehetségessé, amelyek korábban nem tapasztalt mennyiségű és minőségű adatot képesek feldolgozni. Ugyanakkor, ezen modellek gyakran rendkívül nagy mennyiségű erőforrást igényelnek, hogy a kívánt teljesítményt elérjék. Ennek megfelelően kiemelt szerep jut azon kutatásoknak, amelyek a modellek struktúrájának és funkciójának javításával magas minőségű eredményeket tudnak generálni amellett, hogy a működésükhöz szükséges erőforrásigényt csökkenteni képesek. A kognitív tudományok szemszögéből fontos célkitűzés, hogy tanulmányozzuk és mélyebb megértésére jussunk egy adott személy mentális állapotának, illetve annak valamilyen aktivitás formájában történő kivetülésének, és ezek potenciális felhasználhatóságát a mögöttes érzések és érzelmek meghatározására. A digitális eszközök egyre elterjedtebb használatával nagy mértékben növekszik a szociális médiában és az egyéb internetes platformokon megjelenő írott tartalmak mennyisége, amely fontos forrásként használható a tartalmakat generáló személyek érzelmeinek meghatározására. Ebből kifolyólag ezek az internetes tartalmak kifejezetten alkalmas lehetőséget nyújtanak szentiment analízis elvégzésére. Az elmúlt években megfelelően finomhangolt nyelvi modellek egyre nagyobb mértékben lettek alkalmazva olyan természetes nyelvelemzési feladatokra, mint a szentiment analízis. Számos hátráltató tényező nehezíti azonban a finomhangolás folyamtát, ilyen például a betanításhoz használható megfelelő méretű korpusz hiánya, vagy az ilyen irányú felhasználásra alkalmas korpuszok teljes hiánya. Jelen kísérletes megközelítésünk során olyan adatnövelő módszereket alkalmazunk, mint a gépi fordítás és a nyelvek közötti transzfer tanítás, és ezek segítségével növeljük a betanító korpuszok méretét. 9 különböző nyelvi modellel végzett kísérleteink eredményét mutatjuk be, melyeket a Hungarian Twitter Sentiment Corpus-on tanítottunk be. Kutatásunk rávilágít arra, hogy a betanított modellek teljesítménye növelhető, ha géppel lefordított szöveget adunk a betanító korpuszhoz. Továbbá, több általunk használt modell is képes volt jobb teljesítményre a jelenlegi magyar state-of-the-art modelleknél.

Item Type: Article
Heading title: Szemantika, gépi fordítás
Journal or Publication Title: Magyar Számítógépes Nyelvészeti Konferencia
Date: 2022
Volume: 18
ISBN: 978-963-306-848-9
Page Range: pp. 295-309
Language: Hungarian
Place of Publication: Szeged
Event Title: Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Related URLs: http://acta.bibl.u-szeged.hu/75797/
Uncontrolled Keywords: Nyelvészet - számítógép alkalmazása
Additional Information: Bibliogr.: p. 306-309. és a lábjegyzetekben ; ill. ; összefoglalás magyar nyelven
Subjects: 01. Natural sciences
01. Natural sciences > 01.02. Computer and information sciences
06. Humanities
06. Humanities > 06.02. Languages and Literature
Date Deposited: 2022. May. 25. 11:20
Last Modified: 2022. May. 25. 11:20
URI: http://acta.bibl.u-szeged.hu/id/eprint/75882

Actions (login required)

View Item View Item