Smooth inverse frequency based text data selection for medical dictation

Bálint Domonkos; Mihajlik Péter: Smooth inverse frequency based text data selection for medical dictation.

[thumbnail of msznykonf_017_233-242.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_017_233-242.pdf

Letöltés (407kB) | Előnézet

Absztrakt (kivonat)

Under-resourced domain problem is significant in automatic speech recognition, especially in small languages such as Hungarian or in fields where data is often confidential such as finance and medicine. We introduce a method using word embedding and smooth inverse frequency (SIF) based distance measurement to filter public domain web corpora. The selection for (medical) domain matching documents can be scaled. The resulted text is used to train an augmented language model for a medical dictation system. We show that using the appropriately scaled selection leads to optimal performance of the ASR system over the baselines where no data augmentation was applied or all the augmentation data was added.

Mű típusa: Konferencia vagy workshop anyag
Rovatcím: Poszter, laptopos bemutató
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2021
Kötet: 17
ISBN: 978-963-306-781-9
Oldalak: pp. 233-242
Nyelv: angol
Konferencia neve: Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/73340/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: p. 240-242. és a lábjegyzetekben ; összefoglalás angol nyelven
Szakterület: 01. Természettudományok
01. Természettudományok > 01.02. Számítás- és információtudomány
06. Bölcsészettudományok
06. Bölcsészettudományok > 06.02. Nyelvek és irodalom
Feltöltés dátuma: 2021. szep. 28. 13:00
Utolsó módosítás: 2022. nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/73371
Bővebben:
Tétel nézet Tétel nézet