Kako dober je ChatGPT pri umeščanju sopomenk pod besedne pomene

Gapsa, Magdalena; Arhar Holdt, Špela; Kosem, Iztok

Kako dober je ChatGPT pri umeščanju sopomenk pod besedne pomene
ID Gapsa, Magdalena (Avtor), ID Arhar Holdt, Špela (Avtor), ID Kosem, Iztok (Avtor)

	PDF - Predstavitvena datoteka, prenos (280,14 KB) MD5: FF8234AEE10C8BB22C5754FB9F54C7B8
	URL - Izvorni URL, za dostop obiščite https://zenodo.org/records/13912515

Izvleček

V raziskavi preverjamo, kako dobro se ChatGPT-4 odreže pri čiščenju seznama strojno pridobljenih sopomenskih kandidatov in umeščanju sopomenskega gradiva pod besedne pomene. Kot zlati standard upoštevamo slovaropisne odločitve, ki so bile sprejete pri nadgrajevanju Slovarja sopomenk sodobne slovenščine v različico 2.0. V prispevku analiziramo rezultate za 246 slovarskih iztočnic. Za 41,9 % iztočnic je ChatGPT podatke uredil povsem enako kot slovaropisci, za 58,1 % pa se je v odločitvi razlikoval: 43,5 % iztočnic je vsebovalo razlike pri odstranjevanju neustreznih sopomenskih kandidatov, 28,9 % pa pri razvrščanju sopomenk pod pomene. Pri presojanju relevantnosti sopomenskih kandidatov je bil ChatGPT popustljivejši od zlatega standarda (priklic 0,33), medtem ko je bila natančnost višja (0,75), vendar razlike težje pojasnljive. Razlike v razvrščanju sopomenk (umestitev pod drug pomen pri 14,6 % iztočnicah, manjkajoča umestitev pri 19,9 %) deloma pripisujemo značilnostim vhodnih podatkov, kot sta kompleksnost naloge in kratkost pomenskih indikatorjev. Bodoče delo bo usmerjeno v preizkus implementacije strojnega postopka za pohitritev slovaropisnega dela.

Jezik:	Slovenski jezik
Ključne besede:	digitalno slovaropisje, ChatGPT, sopomenke, besedni pomen, slovenščina
Vrsta gradiva:	Drugo
Tipologija:	1.08 - Objavljeni znanstveni prispevek na konferenci
Organizacija:	FRI - Fakulteta za računalništvo in informatiko FF - Filozofska fakulteta
Status publikacije:	Objavljeno
Različica publikacije:	Objavljena publikacija
Leto izida:	2024
Št. strani:	Str. 144-162
PID:	20.500.12556/RUL-164264
UDK:	81'322
COBISS.SI-ID:	212016643
Datum objave v RUL:	18.10.2024
Število ogledov:	43
Število prenosov:	5
Metapodatki:
:	Kopiraj citat
Objavi na:

Gradivo je del monografije

Naslov:	Jezikovne tehnologije in digitalna humanistika : zbornik konference
Uredniki:	Špela Arhar Holdt, Tomaž Erjavec
Kraj izida:	Ljubljana
Založnik:	Inštitut za novejšo zgodovino, = Institute of Contemporary History
Leto izida:	2024
ISBN:	978-961-7104-40-0
COBISS.SI-ID:	211315971

Licence

Licenca:	CC BY-SA 4.0, Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by-sa/4.0/deed.sl
Opis:	Ta licenca Creative Commons je zelo podobna običajni licenci Priznanje avtorstva, vendar zahteva, da so materialne avtorske pravice na izpeljanih delih upravljane z enako licenco.

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	How good is ChatGPT at placing synonyms under word senses
In this study, we test how well ChatGPT-4 cleans the list of automatically retrieved synonym candidates and distributes the synonyms under appropriate lexical senses. As a gold standard, we consider the lexicographic decisions made when updating the Thesaurus of Modern Slovene to version 2.0. In this paper, we compare the results for 246 dictionary entries. For 41.9% of entries, ChatGPT processed the data in the same way as lexicographers, while for 58.1%, it made a different decision: 43.5% of entries contained differences in the removal of noisy data, and 28.9% in the mapping of synonyms to lexical senses. When assessing the relevance of synonym candidates, ChatGPT is more permissive than the gold standard (recall 0.33), while precision is higher (0.75), but the differences are more difficult to explain. Differences in synonym placement (placement under a different sense in 14.6% of entries, missing placement in 19.9%) are partly attributed to features of the input data, such as task complexity and brevity of semantic indicators. Future work will focus on the validation of the method for speeding up lexicographic work.
Ključne besede:	digital lexicography, ChatGPT, synonyms, word senses, Slovene language

Projekti

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	P6-0411
Naslov:	Jezikovni viri in tehnologije za slovenski jezik

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	J7-3159
Naslov:	Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj