Uporaba šestih mer skladenjske kompleksnosti za primerjavo jezika v govornem in pisnem korpusu

Terčon, Luka

Uporaba šestih mer skladenjske kompleksnosti za primerjavo jezika v govornem in pisnem korpusu
ID Terčon, Luka (Avtor)

	PDF - Predstavitvena datoteka, prenos (371,29 KB) MD5: FE8958003FE263317F201524B2906E1C
	URL - Izvorni URL, za dostop obiščite https://zenodo.org/records/13912515

Izvleček

Obstajajo številne metode za merjenje skladenjske kompleksnosti v digitaliziranih bazah jezika. Jezikovni korpusi, posebej takšni, ki vsebujejo skladenjske oznake, nam omogočajo, da analize in primerjave skladenjske kompleksnosti izvedemo avtomatsko in učinkovito. V tem prispevku predstavljam metodo za avtomatsko primerjavo dveh korpusov – korpusa pisnih besedil in korpusa govorjenih besedil – s pomočjo šestih uveljavljenih mer skladenjske kompleksnosti. Rezultati kažejo, da je skladenjska sestava jezika v pisnem korpusu nekoliko kompleksnejša kot v govornem korpusu. Razlike so najbolj izrazite predvsem pri dolžini povedi in globini skladenjskih dreves. Analiza korelacije med različnimi merami nakazuje na to, da nekatere od uporabljenih mer podajo precej drugačno informacijo o skladenjski sestavi neke povedi kot druge.

Jezik:	Slovenski jezik
Ključne besede:	skladenjska kompleksnost, pisni korpus, govorni korpus, mere kompleksnosti
Vrsta gradiva:	Drugo
Tipologija:	1.08 - Objavljeni znanstveni prispevek na konferenci
Organizacija:	FRI - Fakulteta za računalništvo in informatiko FF - Filozofska fakulteta
Status publikacije:	Objavljeno
Različica publikacije:	Objavljena publikacija
Leto izida:	2024
Št. strani:	Str. 668-686
PID:	20.500.12556/RUL-164265
UDK:	81'322
COBISS.SI-ID:	212016899
Datum objave v RUL:	18.10.2024
Število ogledov:	62
Število prenosov:	9
Metapodatki:
:	Kopiraj citat
Objavi na:

Gradivo je del monografije

Naslov:	Jezikovne tehnologije in digitalna humanistika : zbornik konference
Uredniki:	Špela Arhar Holdt, Tomaž Erjavec
Kraj izida:	Ljubljana
Založnik:	Inštitut za novejšo zgodovino, = Institute of Contemporary History
Leto izida:	2024
ISBN:	978-961-7104-40-0
COBISS.SI-ID:	211315971

Licence

Licenca:	CC BY-SA 4.0, Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by-sa/4.0/deed.sl
Opis:	Ta licenca Creative Commons je zelo podobna običajni licenci Priznanje avtorstva, vendar zahteva, da so materialne avtorske pravice na izpeljanih delih upravljane z enako licenco.

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	The use of six syntactic complexity measures for linguistic comparisons between a spoken and a written corpus
There are anumber of methods for measuring syntactic complexity in digital language databases. Linguistic corpora, especially those containing syntactic annotations, enable researchers to automatically and efficiently conduct analyses and comparisons of syntactic complexity. In this paper, I present a method with which I automatically compare two corpora – one containing written texts and the other containing spoken texts – using six established measures of syntactic complexity.The results of this comparison indicate that the syntactic makeup of the language contained in the written corpus is slightly more complex than in the spoken corpus. The differences are most pronounced in sentence length and in syntactic tree depth. Additionally, an analysis of the correlation between the different measures suggests that some provide quite different information about the syntactic structure of a sentence compared too thers.
Ključne besede:	syntactic complexity, written corpus, spoken corpus, complexity measures

Projekti

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	Z6-4617
Naslov:	Na drevesnici temelječ pristop k raziskavam govorjene slovenščine

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj