Cross-lingual dysphonic speech detection using pretrained speaker embeddings

Aziz Dosti Ali Hama Salih; Sztahó Dávid: Cross-lingual dysphonic speech detection using pretrained speaker embeddings.

[thumbnail of msznykonf_019_171-183..pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_019_171-183..pdf

Letöltés (809kB) | Előnézet

Absztrakt (kivonat)

In this study, cross-lingual binary classification and severity estimation of dysphonic speech have been carried out. Hand-crafted acoustic feature extraction is replaced by the speaker embedding techniques used in the speaker verification. Two state of art deep learning methods for speaker verification have been used: the X-vector and ECAPA-TDNN. Embeddings are extracted from speech samples in Hungarian and Dutch languages and used to train Support Vector Machine (SVM) and Support Vector Regressor (SVR) for binary classification and severity estimation, in a cross-language manner. Our results were competitive with manual feature engineering, when the models were trained on Hungarian samples and evaluated on Dutch samples in the binary classification of dysphonic speech and outperformed in estimating the severity level of dysphonic speech. Moreover, our model achieved 0.769 and 0.771 in Spearman and Pearson correlations. Also, our results in both classification and regression were superior compared to manual feature extraction technique when models were trained on Dutch samples and evaluated on Hungarian samples with only a limited number of samples are available for training. An accuracy of 86.8% was reached with features extracted from embedding methods, while the maximum accuracy using hand-crafted acoustic features was 66.8%. Overall results show that Emphasized Channel Attention, Propagation and Aggregation in Time Delay Neural Network (ECAPA-TDNN) performs better than the former X-vector in both tasks.

Mű típusa: Konferencia vagy workshop anyag
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2023
Kötet: 19
ISBN: 978-963-306-912-7
Oldalak: pp. 171-183
Nyelv: angol
Kiadás helye: Szeged
Konferencia neve: Magyar számítógépes nyelvészeti konferencia (19.)
Konferencia típusa: Konferencia
Helyszin: Szeged
Dátum: 2023. január 26-27.
Befoglaló mű URL: https://acta.bibl.u-szeged.hu/78307/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: p. 182-183. ; összefoglalás angol nyelven
Szakterület: 01. Természettudományok
01. Természettudományok > 01.02. Számítás- és információtudomány
Feltöltés dátuma: 2023. már. 16. 08:16
Utolsó módosítás: 2023. már. 16. 08:16
URI: http://acta.bibl.u-szeged.hu/id/eprint/78412
Bővebben:
Tétel nézet Tétel nézet