Laki László János; Yang Zijian Győző: Mondatszintű szentiment analízis teljesítményének javítása adatkiterjesztéses eljárásokkal.
![]() |
Cikk, tanulmány, mű
msznykonf_018_295-309.pdf Letöltés (360kB) |
Absztrakt (kivonat)
A szentiment analízis egy olyan eljárás, amelynek segítségével információkat nyerhetünk az írott tartalmak emocionális töltetét illetően. Számítógépes algoritmusok révén olyan újgenerációs modellek kifejlesztése válik lehetségessé, amelyek korábban nem tapasztalt mennyiségű és minőségű adatot képesek feldolgozni. Ugyanakkor, ezen modellek gyakran rendkívül nagy mennyiségű erőforrást igényelnek, hogy a kívánt teljesítményt elérjék. Ennek megfelelően kiemelt szerep jut azon kutatásoknak, amelyek a modellek struktúrájának és funkciójának javításával magas minőségű eredményeket tudnak generálni amellett, hogy a működésükhöz szükséges erőforrásigényt csökkenteni képesek. A kognitív tudományok szemszögéből fontos célkitűzés, hogy tanulmányozzuk és mélyebb megértésére jussunk egy adott személy mentális állapotának, illetve annak valamilyen aktivitás formájában történő kivetülésének, és ezek potenciális felhasználhatóságát a mögöttes érzések és érzelmek meghatározására. A digitális eszközök egyre elterjedtebb használatával nagy mértékben növekszik a szociális médiában és az egyéb internetes platformokon megjelenő írott tartalmak mennyisége, amely fontos forrásként használható a tartalmakat generáló személyek érzelmeinek meghatározására. Ebből kifolyólag ezek az internetes tartalmak kifejezetten alkalmas lehetőséget nyújtanak szentiment analízis elvégzésére. Az elmúlt években megfelelően finomhangolt nyelvi modellek egyre nagyobb mértékben lettek alkalmazva olyan természetes nyelvelemzési feladatokra, mint a szentiment analízis. Számos hátráltató tényező nehezíti azonban a finomhangolás folyamtát, ilyen például a betanításhoz használható megfelelő méretű korpusz hiánya, vagy az ilyen irányú felhasználásra alkalmas korpuszok teljes hiánya. Jelen kísérletes megközelítésünk során olyan adatnövelő módszereket alkalmazunk, mint a gépi fordítás és a nyelvek közötti transzfer tanítás, és ezek segítségével növeljük a betanító korpuszok méretét. 9 különböző nyelvi modellel végzett kísérleteink eredményét mutatjuk be, melyeket a Hungarian Twitter Sentiment Corpus-on tanítottunk be. Kutatásunk rávilágít arra, hogy a betanított modellek teljesítménye növelhető, ha géppel lefordított szöveget adunk a betanító korpuszhoz. Továbbá, több általunk használt modell is képes volt jobb teljesítményre a jelenlegi magyar state-of-the-art modelleknél.
Mű típusa: | Konferencia vagy workshop anyag |
---|---|
Rovatcím: | Szemantika, gépi fordítás |
Befoglaló folyóirat/kiadvány címe: | Magyar Számítógépes Nyelvészeti Konferencia |
Dátum: | 2022 |
Kötet: | 18 |
ISBN: | 978-963-306-848-9 |
Oldalak: | pp. 295-309 |
Nyelv: | magyar |
Kiadás helye: | Szeged |
Konferencia neve: | Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged) |
Befoglaló mű URL: | http://acta.bibl.u-szeged.hu/75797/ |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
Megjegyzések: | Bibliogr.: p. 306-309. és a lábjegyzetekben ; ill. ; összefoglalás magyar nyelven |
Szakterület: | 01. Természettudományok 01. Természettudományok > 01.02. Számítás- és információtudomány 06. Bölcsészettudományok 06. Bölcsészettudományok > 06.02. Nyelvek és irodalom |
Feltöltés dátuma: | 2022. máj. 25. 11:20 |
Utolsó módosítás: | 2022. nov. 08. 11:49 |
URI: | http://acta.bibl.u-szeged.hu/id/eprint/75882 |
![]() |
Tétel nézet |