Saving labeling cost by embracing Active Learning: a case study

Üveges István; Vági Renátó; Megyeri Andrea; Fülöp Anna; Nagy Dániel; Vadász János Pál; Csányi Gergely Márk: Saving labeling cost by embracing Active Learning: a case study.

[thumbnail of msznykonf_020_145-158.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_020_145-158.pdf

Letöltés (378kB) | Előnézet

Absztrakt (kivonat)

Harnessing the power of Deep Learning is becoming commonplace nowadays, and the legal field is no exception. Most solutions embrace supervised approaches that require a lot of labeled data. Active Learning is a technique that exploits the already labeled data hence optimizing the time spent for labeling, saving time and costs. In this paper, the efficiency of Active Learning is investigated on a real-world hierarchical, multi-class multi-labeled dataset consisting of Hungarian legal documents from the taxation domain. Three different vectorization techniques (TF-IDF, fastText, BERT) are compared. The results suggest that by applying Active Learning, 40-60% less data is sufficient compared to random sampling and that lowering the batch size in an active learning cycle has a modest effect on reaching optimal performance.

Mű típusa: Konferencia vagy workshop anyag
Rovatcím: Szemantika, pragmatika
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2024
Kötet: 20
ISBN: 978-963-306-973-8
Oldalak: pp. 145-158
Nyelv: angol
Kiadó: Szegedi Tudományegyetem TTIK, Informatikai Intézet
Kiadás helye: Szeged
Konferencia neve: Magyar számítógépes nyelvészeti konferencia (20.)
Konferencia típusa: Konferencia
Helyszin: Szeged
Dátum: 2024. január 25-26.
Befoglaló mű URL: https://acta.bibl.u-szeged.hu/88747/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: p. 156-158. és a lábjegyzetekben ; ill. ; összefoglalás angol nyelven
Szakterület: 01. Természettudományok
01. Természettudományok > 01.02. Számítás- és információtudomány
06. Bölcsészettudományok
06. Bölcsészettudományok > 06.02. Nyelvek és irodalom
Feltöltés dátuma: 2025. nov. 12. 09:46
Utolsó módosítás: 2025. nov. 12. 09:46
URI: http://acta.bibl.u-szeged.hu/id/eprint/88759
Bővebben:
Tétel nézet Tétel nézet