Mondatszintű szentiment analízis teljesítményének javítása adatkiterjesztéses eljárásokkal

Laki László János; Yang Zijian Győző: Mondatszintű szentiment analízis teljesítményének javítása adatkiterjesztéses eljárásokkal.

[thumbnail of msznykonf_018_295-309.pdf] Cikk, tanulmány, mű
msznykonf_018_295-309.pdf

Letöltés (360kB)

Absztrakt (kivonat)

A szentiment analízis egy olyan eljárás, amelynek segítségével információkat nyerhetünk az írott tartalmak emocionális töltetét illetően. Számítógépes algoritmusok révén olyan újgenerációs modellek kifejlesztése válik lehetségessé, amelyek korábban nem tapasztalt mennyiségű és minőségű adatot képesek feldolgozni. Ugyanakkor, ezen modellek gyakran rendkívül nagy mennyiségű erőforrást igényelnek, hogy a kívánt teljesítményt elérjék. Ennek megfelelően kiemelt szerep jut azon kutatásoknak, amelyek a modellek struktúrájának és funkciójának javításával magas minőségű eredményeket tudnak generálni amellett, hogy a működésükhöz szükséges erőforrásigényt csökkenteni képesek. A kognitív tudományok szemszögéből fontos célkitűzés, hogy tanulmányozzuk és mélyebb megértésére jussunk egy adott személy mentális állapotának, illetve annak valamilyen aktivitás formájában történő kivetülésének, és ezek potenciális felhasználhatóságát a mögöttes érzések és érzelmek meghatározására. A digitális eszközök egyre elterjedtebb használatával nagy mértékben növekszik a szociális médiában és az egyéb internetes platformokon megjelenő írott tartalmak mennyisége, amely fontos forrásként használható a tartalmakat generáló személyek érzelmeinek meghatározására. Ebből kifolyólag ezek az internetes tartalmak kifejezetten alkalmas lehetőséget nyújtanak szentiment analízis elvégzésére. Az elmúlt években megfelelően finomhangolt nyelvi modellek egyre nagyobb mértékben lettek alkalmazva olyan természetes nyelvelemzési feladatokra, mint a szentiment analízis. Számos hátráltató tényező nehezíti azonban a finomhangolás folyamtát, ilyen például a betanításhoz használható megfelelő méretű korpusz hiánya, vagy az ilyen irányú felhasználásra alkalmas korpuszok teljes hiánya. Jelen kísérletes megközelítésünk során olyan adatnövelő módszereket alkalmazunk, mint a gépi fordítás és a nyelvek közötti transzfer tanítás, és ezek segítségével növeljük a betanító korpuszok méretét. 9 különböző nyelvi modellel végzett kísérleteink eredményét mutatjuk be, melyeket a Hungarian Twitter Sentiment Corpus-on tanítottunk be. Kutatásunk rávilágít arra, hogy a betanított modellek teljesítménye növelhető, ha géppel lefordított szöveget adunk a betanító korpuszhoz. Továbbá, több általunk használt modell is képes volt jobb teljesítményre a jelenlegi magyar state-of-the-art modelleknél.

Mű típusa: Konferencia vagy workshop anyag
Rovatcím: Szemantika, gépi fordítás
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2022
Kötet: 18
ISBN: 978-963-306-848-9
Oldalak: pp. 295-309
Nyelv: magyar
Kiadás helye: Szeged
Konferencia neve: Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/75797/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: p. 306-309. és a lábjegyzetekben ; ill. ; összefoglalás magyar nyelven
Szakterület: 01. Természettudományok
01. Természettudományok > 01.02. Számítás- és információtudomány
06. Bölcsészettudományok
06. Bölcsészettudományok > 06.02. Nyelvek és irodalom
Feltöltés dátuma: 2022. máj. 25. 11:20
Utolsó módosítás: 2022. nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/75882
Bővebben:
Tétel nézet Tétel nézet