Potencial ChatGPT pri razvoju Slovarja sopomenk sodobne slovenščine

Arhar Holdt, Špela; Gapsa, Magdalena; Gantar, Polona; Kosem, Iztok

Podrobno

Potencial ChatGPT pri razvoju Slovarja sopomenk sodobne slovenščine
ID Arhar Holdt, Špela (Avtor), ID Gapsa, Magdalena (Avtor), ID Gantar, Polona (Avtor), ID Kosem, Iztok (Avtor)

	PDF - Predstavitvena datoteka, prenos (336,72 KB) MD5: 26C07E6A97F6A786EBFED708EAB33F62
	URL - Izvorni URL, za dostop obiščite https://ojs.inz.si/pnz/article/view/4497

Izvleček

V raziskavi preverjamo, kako dobro se ChatGPT-4 odreže pri dveh slovaropisnih nalogah: (a) čiščenju seznama strojno pridobljenih sopomenskih kandidatov in umeščanju sopomenskega gradiva pod besedne pomene ter (b) izdelavi slovarskega gesla, vključno s pomensko členitvijo, definicijami in zgledi, na podlagi različnih vhodnih podatkov. Kot zlati standard upoštevamo slovaropisne odločitve, vključene v Digitalno slovarsko bazo za slovenščino. V prvem preizkusu analiziramo rezultate za 246 slovarskih iztočnic in ugotavljamo, da je ChatGPT podatke uredil povsem enako kot slovaropisci pri 41,9 odstotka iztočnic, pri 58,1 odstotka pa se je v odločitvi razlikoval. Pri presojanju relevantnosti sopomenskih kandidatov je bil ChatGPT popustljivejši od zlatega standarda. Razlike v razvrščanju sopomenk (umestitev pod drug pomen pri 14,6 odstotka iztočnic, manjkajoča umestitev pri 19,9 odstotka) deloma pripi-sujemo značilnostim vhodnih podatkov, kot sta kompleksnost naloge in kratkost pomenskih indikatorjev. V drugem preizkusu preverjamo zmožnost ChatGPT za samostojno izdelavo slovarskih gesel za 116 iztočnic. Analiza kakovosti generiranih pomenskih členitev in defi-nicij kaže, da sistem deluje zmerno dobro: v 57 odstotkih primerov je zaznal vse pomene, skoraj 80 odstotkov generiranih gesel je doseglo povprečno oceno 3,5 ali več, 19 odstotkov pa najvišjo oceno obeh ocenjevalcev. Glavni izzivi so pretirano drobljenje pomenov, neprepo-znane prenesene rabe in manjša predvidljivost rezultatov. Sklenemo lahko, da ima ChatGPT potencial za pohitritev ročnega slovaropisnega dela, če se njegovi rezultati ustrezno preverjajo in nadgrajujejo.

Jezik:	Slovenski jezik
Ključne besede:	digitalno slovaropisje, ChatGPT, sopomenke, besedni pomen, slovenščina
Vrsta gradiva:	Članek v reviji
Tipologija:	1.01 - Izvirni znanstveni članek
Organizacija:	FF - Filozofska fakulteta FRI - Fakulteta za računalništvo in informatiko
Status publikacije:	Objavljeno
Različica publikacije:	Objavljena publikacija
Leto izida:	2025
Št. strani:	Str. 189-217
Številčenje:	Letn. 65, št. 3
PID:	20.500.12556/RUL-179156
UDK:	004.85:81'322
ISSN pri članku:	0353-0329
DOI:	10.51663/pnz.65.3.08
COBISS.SI-ID:	267449859
Datum objave v RUL:	06.02.2026
Število ogledov:	44
Število prenosov:	4
Metapodatki:
:	Kopiraj citat
Objavi na:

Gradivo je del revije

Naslov:	Prispevki za novejšo zgodovino
Skrajšan naslov:	Prisp. novejšo zgod.
Založnik:	Inštitut za zgodovino delavskega gibanja, Inštitut za zgodovino delavskega gibanja, Inštitut za novejšo zgodovino
ISSN:	0353-0329
COBISS.SI-ID:	7530754

Licence

Licenca:	CC BY-SA 4.0, Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by-sa/4.0/deed.sl
Opis:	Ta licenca Creative Commons je zelo podobna običajni licenci Priznanje avtorstva, vendar zahteva, da so materialne avtorske pravice na izpeljanih delih upravljane z enako licenco.

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	The potential of ChatGPT in the development of the Thesaurus of Modern Slovene
In this study, we examine how well ChatGPT-4 performs in two lexicographic tasks: (a) clea-ning the list of automatically retrieved synonym candidates and assigning synonymic material to lexical senses, and (b) generating dictionary entries, including sense division, definitions, and examples, based on different input data. As a gold standard, we consider the lexicographic decisions recorded in the Digital Dictionary Database for Slovene. In the first experiment, we analyse the results for 246 dictionary entries and find that ChatGPT processed the data iden-tically to lexicographers in 41.9 % of cases, while in 58.1 % of cases, it made different decisions. When assessing the relevance of synonym candidates, ChatGPT was more permissive than the gold standard. Differences in synonym placement (assignment to a different sense in 14.6 % of entries, missing placement in 19.9 %) can be partly attributed to input data characteristics, such as task complexity and the brevity of semantic indicators. In the second experiment, we test ChatGPT’s ability to autonomously generate dictionary entries for 116 headwords. The analysis of generated sense divisions and definitions reveals that the system performs modera-tely well: in 57 % of cases, it identified all senses, almost 80 % of generated entries received an average score of 3.5 or higher, and 19 % received the highest score from both evaluators. The main challenges include excessive splitting of senses, failure to recognise figurative meanings, and reduced predictability of results. We conclude that ChatGPT has potential for speeding up manual lexicographic work if its results are properly monitored and refined.
Ključne besede:	digital lexicography, ChatGPT, synonyms, word senses, Slovene

Projekti

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	P6-0411-2019
Naslov:	Jezikovni viri in tehnologije za slovenski jezik

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	P6-0215-2019
Naslov:	Slovenski jezik - bazične, kontrastivne in aplikativne raziskave

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	GC-0002-2024
Naslov:	Veliki jezikovni modeli za digitalno humanistiko

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj