Korpuszépítés és -feldolgozás learatott webes tartalomból

Kalcsó Gyula; Mihály Eszter; Szűcs Kata Ágnes: Korpuszépítés és -feldolgozás learatott webes tartalomból.

[thumbnail of msznykonf_019_447-456..pdf]
Előnézet
Cikk, tanulmány, mű
msznykonf_019_447-456..pdf

Letöltés (738kB) | Előnézet

Absztrakt (kivonat)

A cikk az Országos Széchényi Könyvtár webaratási tevékenységének eredményeképpen létrejött webarchívum korpuszépítési hasznosulási lehetőségeit mutatja be. A fókusz a tematikus gyűjtések által felépített archívumrészekből történő tematikus korpuszépítésen van. Ismerteti a szövegkinyerés eljárását, amelynek eredményeképpen a learatott WARC-fájlokból a WARCIO Pythonkönyvtár felhasználásával elsőként HTML, majd az ún. boilerplate-nek a jusText nevű, Pythonban írt eszköz segítségével történő eltávolításával nyers szöveg jön létre. Ismertet egy példaprojektet is, amelynek során az emtsv-vel elemzett szövegekből kinyert adatok vizualizációja történt.

Mű típusa: Konferencia vagy workshop anyag
Befoglaló folyóirat/kiadvány címe: Magyar Számítógépes Nyelvészeti Konferencia
Dátum: 2023
Kötet: 19
ISBN: 978-963-306-912-7
Oldalak: pp. 447-456
Nyelv: magyar
Kiadás helye: Szeged
Konferencia neve: Magyar számítógépes nyelvészeti konferencia (19.)
Konferencia típusa: Konferencia
Helyszin: Szeged
Dátum: 2023. január 26-27.
Befoglaló mű URL: https://acta.bibl.u-szeged.hu/78307/
Kulcsszavak: Nyelvészet - számítógép alkalmazása
Megjegyzések: Bibliogr.: p. 455-456. és a lábjegyzetekben ; ill. ; összefoglalás magyar nyelven
Szakterület: 01. Természettudományok
01. Természettudományok > 01.02. Számítás- és információtudomány
Feltöltés dátuma: 2023. már. 16. 11:33
Utolsó módosítás: 2023. már. 16. 11:33
URI: http://acta.bibl.u-szeged.hu/id/eprint/78432
Bővebben:
Tétel nézet Tétel nézet