Discovering utterance fragment boundaries in small unsegmented texts

Drienkó László: Discovering utterance fragment boundaries in small unsegmented texts.

[thumbnail of msznykonf_012_273-281.pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_012_273-281.pdf

Letöltés (158kB) | Előnézet

Absztrakt (kivonat)

We propose an algorithm for inferring boundaries of utterance fragments in relatively small unsegmented texts. The algorithm looks for subsequent largest chunks that occur at least twice in the text. Then adjacent fragments below an arbitrary length bound are merged. In our pilot experiment three types of English text were segmented: mother-child language from the CHILDES database, excerpts from Gulliver's travels by Jonathan Swift, and Now We Are Six, a children’s poem by A. A. Milne. The results are interpreted in terms of four precision metrics: Inference Precision, Alignment Precision, Redundancy, and Boundary Variability. We find that i) Inference Precision grows with merge-length, whereas Alignment Precision decreases – i.e. the longer a segment is the more probable that its two boundaries are correct; ii) Redundancy and Boundary Variability also decrease with the merge-length bound – i.e. the less boundaries we insert, the closer they are to the ideal boundaries.

Mű típusa: Konferencia vagy workshop anyag
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2016
Kötet: 12
ISBN: 978-963-306-450-4
Oldalak: pp. 273-281
Konferencia neve: Magyar Számítógépes Nyelvészeti Konferencia (12.) (2016) (Szeged)
Befoglaló mű URL: http://acta.bibl.u-szeged.hu/58553/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: 281. p. ; összefoglalás angol nyelven
Feltöltés dátuma: 2019. júl. 01. 12:21
Utolsó módosítás: 2022. nov. 08. 11:49
URI: http://acta.bibl.u-szeged.hu/id/eprint/58982
Bővebben:
Tétel nézet Tétel nézet