Uporaba drevesnice SST v raziskavah govorjene slovenščine : prednosti in omejitve

Dobrovoljc, Kaja

Podrobno

Uporaba drevesnice SST v raziskavah govorjene slovenščine : prednosti in omejitve
ID Dobrovoljc, Kaja (Avtor)

	PDF - Predstavitvena datoteka, prenos (3,56 MB) MD5: BA675640A5FD7FEA343A33DAA486AF19
	URL - Izvorni URL, za dostop obiščite https://journals.uni-lj.si/jezikinslovstvo/article/view/18520

Izvleček

Kljub porastu jezikoslovnih raziskav govorjene slovenščine, ki si prizadevajo za popis številnih doslej prezrtih posebnosti govorjenega jezika v primerjavi s pisnim, metodologija tovrstnih razprav večinoma temelji na kvalitativni analizi razmeroma majhnih ter zvrstno ali demografsko omejenih vzorcev jezikovne rabe, kar omejuje ponovljivost raziskav in možnost posploševanja spoznanj na govorjeno slovenščino kot celoto. Kot eno izmed možnosti za premostitev tega problema v prispevku predstavljamo drevesnico govorjene slovenščine SST (angl. Spoken Slovenian Treebank), prostodostopni oblikoslovno in skladenjsko označeni reprezentativni vzorec referenčnega korpusa govorjene slovenščine Gos, in ponazarjamo njen metodološki potencial za nadaljnje korpusne raziskave govorjene slovenščine. Na primeru treh tipično govorjenih pojavov (samopopravljanja, diskurzni členki in dodani ujemalni pridevniški prilastki) prikažemo uporabo drevesnice SST za enostaven priklic številnih avtentičnih primerov rabe, na primeru analize pogostosti samopopravljanj glede na različne sporazumevalne okoliščine pa ponazorimo tudi njeno uporabnost za raznolike statistične analize jezikovne rabe. Poleg najpomembnejših prednosti drevesnice SST, kot so uravnoteženost, odprta dostopnost, ročna slovnična označenost in neposredna primerljivost z drugimi tovrstnimi korpusi po svetu, v sklepnem delu izpostavimo tudi nekaj omejitev, kot sta razmeroma majhna velikost ter robustna, v pisni jezik usmerjena označevalna shema.

Jezik:	Slovenski jezik
Ključne besede:	slovenščina, govorjena slovenščina, korpusno jezikoslovje, jezikoslovno označevanje, odvisnostna drevesnica
Vrsta gradiva:	Članek v reviji
Tipologija:	1.01 - Izvirni znanstveni članek
Organizacija:	FF - Filozofska fakulteta
Status publikacije:	Objavljeno
Različica publikacije:	Objavljena publikacija
Leto izida:	2024
Št. strani:	Str. 187-209
Številčenje:	Letn. 69, št. 4
PID:	20.500.12556/RUL-166521
UDK:	811.163.6:004
ISSN pri članku:	0021-6933
DOI:	10.4312/jis.69.4.187-209
COBISS.SI-ID:	222360835
Avtorske pravice:	Licenca Creative Commons je navedena na pristajalni strani članka (glej izvorni URL): "To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco." (Datum opombe 16. 1. 2025)
Datum objave v RUL:	16.01.2025
Število ogledov:	385
Število prenosov:	328
Metapodatki:
:	Kopiraj citat
Objavi na:

Gradivo je del revije

Naslov:	Jezik in slovstvo
Skrajšan naslov:	Jez. slovst.
Založnik:	Slavistično društvo Slovenije, Slavistično društvo Slovenije, Založba Univerze v Ljubljani, Zveza društev Slavistično društvo Slovenije
ISSN:	0021-6933
COBISS.SI-ID:	746756

Licence

Licenca:	CC BY-SA 4.0, Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by-sa/4.0/deed.sl
Opis:	Ta licenca Creative Commons je zelo podobna običajni licenci Priznanje avtorstva, vendar zahteva, da so materialne avtorske pravice na izpeljanih delih upravljane z enako licenco.

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Using the SST treebank in research on spoken Slovenian
Despite the increase in linguistic research on spoken Slovenian, which strives to catalogue the many previously overlooked characteristics of the spoken language compared to the written form, the methodology of such discussions largely relies on the qualitative analysis of relatively small and demographically or genre-limited samples of language use, which limits the replicability of research and the ability to generalize findings to spoken Slovenian as a whole. To address this issue, this paper introduces the Spoken Slovene Treebank (SST), a freely accessible, morphologically and syntactically annotated representative sample of the Gos spoken Slovene reference corpus, and illustrates its methodological potential for future corpus-based research of spoken Slovene. By examining three common spoken phenomena – self-repairs, discourse markers, and post-modifying adjectives – we showcase the SST Treebank’s capability for straightforward retrieval of numerous authentic examples. Furthermore, by analysing the distribution of self-repairs across various communicative settings, we highlight its utility for diverse statistical analyses of language practices. In addition to highlighting the SST Treebank’s major advantages, such as its balanced composition, open access, manual grammatical annotations, and direct comparability with other similar corpora worldwide, we also address some limitations in the concluding section, notably its relatively small size and the robust, written-language-oriented annotation scheme.
Ključne besede:	Slovene, spoken Slovene, corpus linguistics, linguistic annotation, dependency treebank

Projekti

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	Z6-4617
Naslov:	Na drevesnici temelječ pristop k raziskavam govorjene slovenščine

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	P6-0411
Naslov:	Jezikovni viri in tehnologije za slovenski jezik

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj