Do razdvoumljanja besednih pomenov v slovenščini s prenosom znanja : magistrsko delo

Fijavž, Zoran

Do razdvoumljanja besednih pomenov v slovenščini s prenosom znanja : magistrsko delo
ID Fijavž, Zoran (Author), ID Robnik Šikonja, Marko (Mentor) More about this mentor... This link opens in a new window

PDF - Presentation file, Download (831,18 KB)
MD5: 6FA59DD2B872AD6C007B9077A5B6B82F

Abstract

Razdvoumljanje besednih pomenov na področju računalniškega jezikoslovja določa, kateri od možnih pomenov besede je uporabljen v besedilu. Uporabno je za informacijsko poizvedovanje, strojno prevajanje, rudarjenje besedil in računalniško leksikografijo. Razdvoumljanje besednih pomenov ostaja odprto raziskovalno vprašanje kljub nedavnim izboljšavam zaradi splošnega napredka področij obdelave naravnega jezika in umetne inteligence. Razvoj modelov za razdvoumljanje v slovenščini je do nedavnega omejevalo pomanjkanje obsežnejših pomensko označenih podatkovnih zbirk. To je spremenila nova slovenska podatkovna množica in večjezikovni modeli, ki omogočajo učenje z medjezikovnim prenosom. Delo zajema interdisciplinarni pregled pomenskega razdvoumljanja in razvoj modela za razdvoumljanje v slovenščini. Pregled izpostavi konceptualne razlike v razumevanju večpomenskosti in razdvoumljanja med različnimi disciplinami. V primerjavi s standardnimi postopki in podatkovnimi množicami na področju obdelave naravnega jezika psiholingvistika nudi bogatejšo in preciznejšo tipologijo večpomenskosti, jezikovna pragmatika pa prevprašuje predpostavko, da je razdvoumljanje primarno semantični proces. Učno nalogo za razvoj napovednega modela za razdvoumljanje smo zastavili kot napoved ujemanja stavčnih parov z isto- ali raznopomensko oznako za tarčno lemo. Na podlagi pomensko označenih slovenskih in angleških množic smo zgradili sedem učnih množic, ki so se razlikovale po velikosti (številu vključenih primerov na besedni pomen) in po vključenih jezikih; za vsako učno množico smo prilagodili večjezikovni transformerski model CroSloEngual BERT. Najvišjo testno oceno F1 je dosegel model z uporabo združene angleško-slovenske učne množice (81,6). Alternativno testiranje je pokazalo, da je imela klasifikacijska arhitektura pomembno vlogo pri uspehu modela, saj so drugi modeli za napovedi neposredno iz transformerskih plasti dosegli višje ali primerljive rezultate. Dodatno testiranje na besedišču izven učne množice je pokazalo negativno povezanost med številom vključenih učnih primerov in uspehom napovedi ujemanja na novem besedišču, ocenjenim z Matthewsovim koeficientom korelacije. To je veljalo za vse modele, pri čemer je le model z večjezikovnimi učnimi podatki dobil visoko oceno F1 na testni množici in hkrati visok koeficient korelacije na izvenbesediščni množici.

Language:	Slovenian
Keywords:	razdvoumljanje besednih pomenov, procesiranje naravnega jezika, polisemija, psiholingvistika, pragmatika, veliki jezikovni modeli, medjezikovni prenos
Work type:	Master's thesis/paper
Typology:	2.09 - Master's Thesis
Organization:	PEF - Faculty of Education
Place of publishing:	Ljubljana
Publisher:	Z. Fijavž
Year:	2023
Number of pages:	[44] str.
PID:	20.500.12556/RUL-148594
UDC:	165.194(043.2)
DOI:	20.500.12556/RUL-148594
COBISS.SI-ID:	162459139
Publication date in RUL:	27.08.2023
Views:	1348
Downloads:	75
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Towards Slovene Word Sense Disambiguation through Transfer Learning
Word sense disambiguation in the field of computational linguistics determines which of the possible word meanings is used in a text. It is useful for information retrieval, machine translation, text mining, and computational lexicography. Word sense disambiguation remains an open research question despite recent improvements under the influence of general advances of natural language processing and artificial intelligence. Until recently, the development of models for Slovene was limited by the lack of semantically annotated datasets. That has changed with a new Slovene dataset as well as multilingual models that enable cross-lingual transfer. This thesis encompasses an interdisciplinary overview of semantic disambiguation and the development of a disambiguation prediction model for Slovene. The review highlights conceptual differences in the understanding of ambiguity and disambiguation between several disciplines. Compared to standard procedures and datasets in the field of natural language processing, psycholinguistics provides a richer and more precise typology of polysemy, while linguistic pragmatics questions the assumption that disambiguation is primarily a semantic process. The learning task we used was the prediction of sense equivalence in sentence pairs for a target lemma. Using sense annotated Slovene and English datasets, we constructed seven training sets that differed in size (the number of included examples per sense) and in the languages included. For each dataset we fine-tuned the multilingual CroSloEngual BERT transformer model. The highest F1 test score was achieved using the combined English-Slovene training set (81.6). Alternative testing revealed that the final classification architecture played an important role in the model’s success, as other models have achieved higher or comparable prediction results using transformer layers directly. Additional out-of-vocabulary testing demonstrated a negative relationship between the number of included training examples and successful match prediction on new vocabulary, measured by the Matthews correlation coefficient. This was true for all models, with only the model trained on multilingual data obtaining both a high F1 score on the test set as well as a high correlation coefficient on the out-of-vocabulary set.
Keywords:	word sense disambiguation, natural language processing, polysemy, psycholinguistics, pragmatics, large language models, cross-lingual transfer

Similar works from RUL:
Similar works from other Slovenian collections:

Secondary language

Similar documents