Podrobno

CroSloMet : a structured metaphor dataset for Croatian and Slovene
ID Štrkalj Despot, Kristina (Avtor), ID Ostroški Anić, Ana (Avtor), ID Gantar, Polona (Avtor), ID Bon, Mija (Avtor), ID Klemen, Matej (Avtor), ID Robnik Šikonja, Marko (Avtor), ID Krek, Simon (Avtor), ID Perak, Benedikt (Avtor), ID Čibej, Jaka (Avtor)

URLURL - Izvorni URL, za dostop obiščite https://hrcak.srce.hr/clanak/495107 Povezava se odpre v novem oknu
.pdfPDF - Predstavitvena datoteka, prenos (635,58 KB)
MD5: 6EBB9B525177F74FCF510733105691F8

Izvleček
Recent advancements in large language models (LLMs) have opened new avenues for processing figurative language, yet their performance in metaphor interpretation continues to fall short of human-level understanding. One limitation lies in the inadequacy of existing metaphor datasets, which often lack explicit connections to conceptual metaphors and are predominantly monolingual. In this paper, we present CroSloMet, a novel dataset of over 1,120 metaphorical and 1,120 literal sentences in Croatian and Slovene, grounded in the MetaNet.HR framework. Each example is annotated with the corresponding conceptual metaphor, linguistic multi-word expression (MWE), canonical forms, and literal usage, enabling both metaphor identification and explanation tasks. We present preliminary evaluations of the dataset through two experiments: metaphor classification using CroSloEngual BERT, achieving 88.5% accuracy, and metaphor explanation generation with LLama 3-8B, where strict exact-match evaluation yielded low scores despite semantically valid outputs. To address this, we propose a multi-level validation framework combining manual annotation, natural language inference, semantic similarity, and LLM-based judgment. Our findings highlight the importance of capturing generality and specificity in metaphor mappings and call for more nuanced evaluation methods. CroSloMet provides a resource for advancing metaphor understanding in LLMs and contributes to cross-linguistic and cognitively informed metaphor research.

Jezik:Angleški jezik
Ključne besede:metaphors, metaphor dataset, metaphor explanation, metaphor understanding, large language models
Vrsta gradiva:Članek v reviji
Tipologija:1.01 - Izvirni znanstveni članek
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Status publikacije:Objavljeno
Različica publikacije:Objavljena publikacija
Leto izida:2025
Št. strani:Str. 459-482
Številčenje:God. 37, br. 2
PID:20.500.12556/RUL-177770 Povezava se odpre v novem oknu
UDK:81'322
ISSN pri članku:0353-4642
DOI:10.31820/f.37.2.4 Povezava se odpre v novem oknu
COBISS.SI-ID:263490563 Povezava se odpre v novem oknu
Datum objave v RUL:07.01.2026
Število ogledov:45
Število prenosov:12
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Gradivo je del revije

Naslov:Fluminensia : časopis za filološka istraživanja
Skrajšan naslov:Fluminensia
Založnik:Pedagoški fakultet u Rijeci, Filološki odjel
ISSN:0353-4642
COBISS.SI-ID:23776514 Povezava se odpre v novem oknu

Licence

Licenca:CC BY 4.0, Creative Commons Priznanje avtorstva 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by/4.0/deed.sl
Opis:To je standardna licenca Creative Commons, ki daje uporabnikom največ možnosti za nadaljnjo uporabo dela, pri čemer morajo navesti avtorja.

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:CroSloMet
Izvleček:
Ubrzan razvoj velikih jezičnih modela otvorio je nove mogućnosti za obradu figurativnoga jezika, no njihovo tumačenje značenja metafora i metaforičkih izraza i dalje zaostaje za razinom ljudskoga razumijevanja. Jedno od ograničenja jezičnih modela proizlazi iz nedostatnosti postojećih skupova podataka o metaforama, koji često nemaju jasno izražene veze s konceptualnim metaforama te su uglavnom jednojezični. U ovom radu predstavljamo CroSloMet, novi skup podataka s više od 1120 metaforičkih i 1120 doslovnih rečenica na hrvatskom i slovenskom jeziku, utemeljen na bazi metafora MetaNet.HR. Svaki je primjer označen pripadajućom konceptualnom metaforom, višerječnim jezičnim izrazom, kanonskim oblicima i doslovnom upotrebom, što omogućuje provedbu zadataka određivanja i objašnjavanja metafora. U radu su prikazane preliminarne evaluacije skupa podataka kroz dva eksperimenta: klasifikaciju metafora s pomoću modela CroSloEngual BERT-a, gdje je postignuta točnost od 88,5 %, te generiranje objašnjenja metafora s pomoću modela LLama 3-8B, pri čemu je stroga evaluacija točnoga podudaranja dala niske rezultate unatoč semantički valjanim rezultatima. Kako bismo to prevladali, predlažemo višerazinsku metodologiju validacije koja kombinira ručno označavanje, zaključivanje prirodnim jezikom, semantičku sličnost i prosudbu temeljenu na velikom jezičnom modelu. Naši rezultati naglašavaju važnost obuhvaćanja razina općenitosti i specifičnosti u metaforičkom preslikavanju te pokazuju na potrebu za nijansiranijim metodama evaluacije. CroSloMet je resurs za unaprjeđenje razumijevanja metafora u velikim jezičnim modellima i doprinosi međujezičnom i kognitivno utemeljenom istraživanju metafora.

Ključne besede:metafore, podatkovna množica z metaforami, pojasnjevanje metafor, razumevanje metafor, veliki jezikovni modeli

Projekti

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:BI-HR/23-24-049-2023
Naslov:Avtomatska identifikacija semantičnih relacij v figurativnem kontekstu v hrvaščini in slovenščini

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:P6-0411-2019
Naslov:Jezikovni viri in tehnologije za slovenski jezik

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:P6-0215-2019
Naslov:Slovenski jezik - bazične, kontrastivne in aplikativne raziskave

Financer:European Union
Program financ.:NextGenerationEU (2024- 2027)
Naslov:Metaphor and Metonymy in Language and Thought

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj