Ubrzan razvoj velikih jezičnih modela otvorio je nove mogućnosti za obradu figurativnoga jezika, no njihovo tumačenje značenja metafora i metaforičkih izraza i dalje zaostaje za razinom ljudskoga razumijevanja. Jedno od ograničenja jezičnih modela proizlazi iz nedostatnosti postojećih skupova podataka o metaforama, koji često nemaju jasno izražene veze s konceptualnim metaforama te su uglavnom jednojezični. U ovom radu predstavljamo CroSloMet, novi skup podataka s više od 1120 metaforičkih i 1120 doslovnih rečenica na hrvatskom i slovenskom jeziku, utemeljen na bazi metafora MetaNet.HR. Svaki je primjer označen pripadajućom konceptualnom metaforom, višerječnim jezičnim izrazom, kanonskim oblicima i doslovnom upotrebom, što omogućuje provedbu zadataka određivanja i objašnjavanja metafora. U radu su prikazane preliminarne evaluacije skupa podataka kroz dva eksperimenta: klasifikaciju metafora s pomoću modela CroSloEngual BERT-a, gdje je postignuta točnost od 88,5 %, te generiranje objašnjenja metafora s pomoću modela LLama 3-8B, pri čemu je stroga evaluacija točnoga podudaranja dala niske rezultate unatoč semantički valjanim rezultatima. Kako bismo to prevladali, predlažemo višerazinsku metodologiju validacije koja kombinira ručno označavanje, zaključivanje prirodnim jezikom, semantičku sličnost i prosudbu temeljenu na velikom jezičnom modelu. Naši rezultati naglašavaju važnost obuhvaćanja razina općenitosti i specifičnosti u metaforičkom preslikavanju te pokazuju na potrebu za nijansiranijim metodama evaluacije. CroSloMet je resurs za unaprjeđenje razumijevanja metafora u velikim jezičnim modellima i doprinosi međujezičnom i kognitivno utemeljenom istraživanju metafora.
|