Laki László János and Yang Zijian Győző: Mondatszintű szentiment analízis teljesítményének javítása adatkiterjesztéses eljárásokkal. In: Magyar Számítógépes Nyelvészeti Konferencia, (18). pp. 295-309. (2022)
![]() |
Cikk, tanulmány, mű
msznykonf_018_295-309.pdf Download (360kB) |
Abstract
A szentiment analízis egy olyan eljárás, amelynek segítségével információkat nyerhetünk az írott tartalmak emocionális töltetét illetően. Számítógépes algoritmusok révén olyan újgenerációs modellek kifejlesztése válik lehetségessé, amelyek korábban nem tapasztalt mennyiségű és minőségű adatot képesek feldolgozni. Ugyanakkor, ezen modellek gyakran rendkívül nagy mennyiségű erőforrást igényelnek, hogy a kívánt teljesítményt elérjék. Ennek megfelelően kiemelt szerep jut azon kutatásoknak, amelyek a modellek struktúrájának és funkciójának javításával magas minőségű eredményeket tudnak generálni amellett, hogy a működésükhöz szükséges erőforrásigényt csökkenteni képesek. A kognitív tudományok szemszögéből fontos célkitűzés, hogy tanulmányozzuk és mélyebb megértésére jussunk egy adott személy mentális állapotának, illetve annak valamilyen aktivitás formájában történő kivetülésének, és ezek potenciális felhasználhatóságát a mögöttes érzések és érzelmek meghatározására. A digitális eszközök egyre elterjedtebb használatával nagy mértékben növekszik a szociális médiában és az egyéb internetes platformokon megjelenő írott tartalmak mennyisége, amely fontos forrásként használható a tartalmakat generáló személyek érzelmeinek meghatározására. Ebből kifolyólag ezek az internetes tartalmak kifejezetten alkalmas lehetőséget nyújtanak szentiment analízis elvégzésére. Az elmúlt években megfelelően finomhangolt nyelvi modellek egyre nagyobb mértékben lettek alkalmazva olyan természetes nyelvelemzési feladatokra, mint a szentiment analízis. Számos hátráltató tényező nehezíti azonban a finomhangolás folyamtát, ilyen például a betanításhoz használható megfelelő méretű korpusz hiánya, vagy az ilyen irányú felhasználásra alkalmas korpuszok teljes hiánya. Jelen kísérletes megközelítésünk során olyan adatnövelő módszereket alkalmazunk, mint a gépi fordítás és a nyelvek közötti transzfer tanítás, és ezek segítségével növeljük a betanító korpuszok méretét. 9 különböző nyelvi modellel végzett kísérleteink eredményét mutatjuk be, melyeket a Hungarian Twitter Sentiment Corpus-on tanítottunk be. Kutatásunk rávilágít arra, hogy a betanított modellek teljesítménye növelhető, ha géppel lefordított szöveget adunk a betanító korpuszhoz. Továbbá, több általunk használt modell is képes volt jobb teljesítményre a jelenlegi magyar state-of-the-art modelleknél.
Item Type: | Article |
---|---|
Heading title: | Szemantika, gépi fordítás |
Journal or Publication Title: | Magyar Számítógépes Nyelvészeti Konferencia |
Date: | 2022 |
Volume: | 18 |
ISBN: | 978-963-306-848-9 |
Page Range: | pp. 295-309 |
Language: | Hungarian |
Place of Publication: | Szeged |
Event Title: | Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged) |
Related URLs: | http://acta.bibl.u-szeged.hu/75797/ |
Uncontrolled Keywords: | Nyelvészet - számítógép alkalmazása |
Additional Information: | Bibliogr.: p. 306-309. és a lábjegyzetekben ; ill. ; összefoglalás magyar nyelven |
Subjects: | 01. Natural sciences 01. Natural sciences > 01.02. Computer and information sciences 06. Humanities 06. Humanities > 06.02. Languages and Literature |
Date Deposited: | 2022. May. 25. 11:20 |
Last Modified: | 2022. May. 25. 11:20 |
URI: | http://acta.bibl.u-szeged.hu/id/eprint/75882 |
Actions (login required)
![]() |
View Item |