Podrobno

Using large language models to generate distractors for language games
ID Kosem, Iztok (Avtor), ID Arhar Holdt, Špela (Avtor)

.pdfPDF - Predstavitvena datoteka, prenos (396,47 KB)
MD5: 46706633B04258BD6CA6DC4608834A56
URLURL - Izvorni URL, za dostop obiščite https://elex.link/elex2025/wp-content/uploads/eLex2025-38-Arhar-HoldtKosem.pdf Povezava se odpre v novem oknu

Izvleček
Generic nouns such as Sache and Ding pose a challenge for semantic annotation due to their referential underspecification and context-dependent meaning. Although frequently classified under categories like {artefact} or {object}, their actual referents often belong to abstract or cognitive domains, as in Der Placeboeffekt ist eines der faszinierendsten Dinge in der Welt der Medizin. Drawing on valency grammar, this study shows that these nouns activate different argument structures depending on their syntagmatic environment, reflecting semantic flexibility and combinatorial variability. Lexical databases such as GalNet or GermaNet frequently assign multiple synsets to these nouns, illustrating their ontological ambiguity. This paper examines whether large language models (LLMs) can replicate this nuanced classification. Using a gold standard corpus annotated by linguists, we implement a two-step prompting strategy —supplying LLMs with predefined semantic tags and contextual windows— to test their performance. The results underscore the limitations of current LLMs in dealing with the lexical underspecification of generic nouns, even when provided with an extended context window. These findings contribute to ongoing discussions on the automation of semantic tagging and point to meaningful ways in which AI systems can complement human expertise in natural language processing tasks.

Jezik:Angleški jezik
Ključne besede:language games, LLM, synonym, distractor, collocation, dictionary database
Vrsta gradiva:Drugo
Tipologija:1.08 - Objavljeni znanstveni prispevek na konferenci
Organizacija:FF - Filozofska fakulteta
FRI - Fakulteta za računalništvo in informatiko
Status publikacije:Objavljeno
Različica publikacije:Objavljena publikacija
Leto izida:2025
Št. strani:Str. 620-635
PID:20.500.12556/RUL-179171 Povezava se odpre v novem oknu
UDK:004.89:81'32
ISSN pri članku:2533-5626
COBISS.SI-ID:267533059 Povezava se odpre v novem oknu
Datum objave v RUL:06.02.2026
Število ogledov:34
Število prenosov:5
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Gradivo je del zbornika

Naslov:eLex 2025
COBISS.SI-ID:258410499 Povezava se odpre v novem oknu

Gradivo je del revije

Naslov:Electronic lexicography in the 21st century. Proceedings of eLex ... conference
Skrajšan naslov:Electron. lexicogr. 21st cent., Proc. eLex ... conf.
Založnik:Lexical Computing
ISSN:2533-5626
COBISS.SI-ID:1537552579 Povezava se odpre v novem oknu

Licence

Licenca:CC BY-SA 4.0, Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by-sa/4.0/deed.sl
Opis:Ta licenca Creative Commons je zelo podobna običajni licenci Priznanje avtorstva, vendar zahteva, da so materialne avtorske pravice na izpeljanih delih upravljane z enako licenco.

Sekundarni jezik

Jezik:Slovenski jezik
Ključne besede:jezikovne igre, LLM, sopomenke, distraktor, kolokacije, slovarska baza

Projekti

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:P6-0411-2019
Naslov:Jezikovni viri in tehnologije za slovenski jezik

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:I0-0022-2022
Naslov:Mreža raziskovalnih infrastrukturnih centrov Univerze v Ljubljani (MRIC UL)

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:GC-0002-2024
Naslov:Veliki jezikovni modeli za digitalno humanistiko

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj