Podrobno

Strojna kategorizacija parafraz z velikimi jezikovnimi modeli : magistrsko delo
ID Žumer, Alenka (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

.pdfPDF - Predstavitvena datoteka, prenos (2,60 MB)
MD5: 7D8F5BE4BDF624AADB1364999CE8DB54

Izvleček
Kategorizacija parafraz sistematično razvršča različne tipe jezikovnih transformacij, ki ob spreminjanju površinske oblike ohranjajo pomen besedila. Samodejna kategorizacija parafraz prispeva k boljšemu razumevanju jezikovnih struktur ter izboljšuje interpretabilnost sistemov obdelave naravnega jezika. V tej nalogi smo razvili prvi sistematični pristop k ontološko vodeni kategorizaciji parafraz za slovenščino, ki temelji na velikih jezikovnih modelih. Zaradi specifičnosti slovenščine kot jezika z omejenimi viri smo za kategorizacijo testirali specializirani model GaMS-1B ter večjezični model LLaMA-3.1-8B. Oba temeljita na arhitekturi transformerja, ki trenutno prevladuje na področju obdelave naravnega jezika. Iz štirih angleških korpusov parafraz smo pridobili primere, jih prevedli v slovenščino in tako ustvarili učno množico s 372 označenimi parafraznimi pari. Množica je uporabna za nadaljnje raziskave ter gradnjo modelov kategorizacije slovenskih parafraz. Razvili smo dvonivojsko ontološko shemo s štirimi glavnimi kategorijami in dvanajstimi podkategorijami za kategorizacijo učnih primerov in vodenje prilagoditve modelov. Na tej osnovi smo evalvacijo izvedli kvantitativno z metrikami podobnosti in uspešnosti ter kvalitativno s človeško presojo. Model GaMS je dosegel boljše rezultate pri sintaktičnem in pragmatičnem parafraziranju, LLaMA pa pri leksikalnem in semantičnem. Z analizo rezultatov smo opredelili primerne velikosti učnih množic ter pokazali, da veliki jezikovni modeli za uspešno kategorizacijo potrebujejo na kategorijo le šest do osem primerov.

Jezik:Slovenski jezik
Ključne besede:Kognitivna znanost, Parafraza, parafraziranje, obdelava naravnega jezika, veliki jezikovni modeli, ontologije, kategorizacija
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:PEF - Pedagoška fakulteta
Kraj izida:Ljubljana
Založnik:A. Žumer
Leto izida:2025
Št. strani:71 str.
PID:20.500.12556/RUL-174979 Povezava se odpre v novem oknu
UDK:81'42:004.89(043.2)
COBISS.SI-ID:253336579 Povezava se odpre v novem oknu
Datum objave v RUL:11.10.2025
Število ogledov:193
Število prenosov:41
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Automatic categorization of paraphrases with large language models
Izvleček:
Paraphrase categorization involves systematic classification of different types of linguistic transformations that preserve text meaning while changing surface form. Automatic paraphrase categorization contributes to better understanding of linguistic structures and improves interpretability of natural language processing systems. In this work, we developed the first systematic approach to ontology-driven paraphrase categorization for Slovenian, based on large language models. Due to the specificity of Slovenian as a less-resourced language, we tested the specialized GaMS-1B model and the multilingual LLaMA-3.1-8B model. Both are based on transformer architecture, which currently dominates the field of natural language processing. From four English paraphrase corpora, we obtained examples, translated them into Slovenian, and thus created a training dataset with 372 annotated paraphrase pairs. The dataset is useful for further research and building models for Slovenian paraphrase categorization. We developed a two-level ontological schema with four main categories and twelve subcategories to categorize the training examples and guide the model adaptation. Based on this, we conducted the evaluation quantitatively using similarity and performance metrics, and qualitatively through human judgment. The GaMS model achieved better results in syntactic and pragmatic paraphrasing, while LLaMA performed better in lexical and semantic paraphrasing. Through analysis of the results, we identified suitable training set sizes and showed that large language models require only 6-8 examples per category for successful categorization.

Ključne besede:paraphrasing, natural language processing, large language models, ontologies, categorization

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj