Iskanje novih pomenov besed v slovenščini z velikimi jezikovnimi modeli

BULIĆ, BLAŽ

Podrobno

Iskanje novih pomenov besed v slovenščini z velikimi jezikovnimi modeli
ID BULIĆ, BLAŽ (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (1,06 MB)
MD5: 64196BF65941847F538AAFFA1225DAE7

Izvleček

V diplomskem delu smo razvili postopek iskanja novih pomenov besed. Seznam opazovanih besed smo izluščili iz množice za razdvoumljanje pomenov besed. Povedi, ki vsebujejo opazovano besedo, smo pridobili iz podatkovne zbirke novic servisa Event Registry. Besede smo predstavili z vektorji s pomočjo modelov multilingual-BERT-Base, Cased in SloBERTa in jih gručili na več načinov. Rezultate smo primerjali s podatki iz množice za razdvoumljanje in ročno preverili nekaj besed z znanimi semantičnimi premiki. Dobljeni rezultati niso obetavni. Menimo da je glavni razlog neustrezna podatkovna zbirka besedil.

Jezik:	Slovenski jezik
Ključne besede:	pomeni besed, vektorske vložitve besed, gručenje, model BERT, procesiranje naravnega jezika, iskanje pomenov besed
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko FMF - Fakulteta za matematiko in fiziko
Leto izida:	2023
PID:	20.500.12556/RUL-150264
COBISS.SI-ID:	168959747
Datum objave v RUL:	15.09.2023
Število ogledov:	2035
Število prenosov:	117
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Word sense induction in Slovene using large language models
In the thesis, we developed a procedure for discovering new word meanings. We extracted the list of observed words from the word-sense disambiguation dataset. Sentences containing the observed word were obtained from the news database from the Event Registry service. We represented the words with vectors using the models multilingual-BERT-Base, Cased and SloBERTa and clustered them in various ways. We compared the results with the data from the disambiguation dataset and manually checked some words with known semantic shifts. The obtained results are not promising. We believe that the main reason is an unsuitable text database.
Ključne besede:	meanings of words, sentence vector embedding, clustering, BERT, natural language processing, word sense induction

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj