Podrobno

Prilagajanje in vrednotenje jezikovnih modelov pri zamenjavah imenskih entitet za anonimizacijo besedil
ID Kokalj, Nina (Avtor), ID Žitnik, Slavko (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Erik, Novak (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (3,78 MB)
MD5: 7F96BA6ECDB2269D380A0E7B44E5A886

Izvleček
V diplomski nalogi raziskujemo uporabo velikih jezikovnih modelov za psevdonimizacijo imenskih entitet v različnih vrstah besedil z občutljivimi podatki. Osredotočimo se na generiranje ustreznih zamenjav, ki ohranjajo pomen in berljivost besedila brez razkritja osebnih podatkov. Primerjamo več odprtokodnih jezikovnih modelov različnih velikosti in jih vrednotimo z modelom GLiNER. Dodatno poskusimo izboljšati uspešnost dveh manjših modelov s pomočjo nadzorovanega prilagajanja in učenja v kontekstu. Rezultati pokažejo, da nekateri modeli že brez dodatnega prilagajanja uspešno generirajo zamenjave, prilagojeni manjši modeli pa predstavljajo obetavno rešitev za uporabo v okoljih z omejenimi viri.

Jezik:Slovenski jezik
Ključne besede:anonimizacija, prepoznavanje imenskih entitet, veliki jezikovni modeli, prilagajanje
Vrsta gradiva:Diplomsko delo/naloga
Tipologija:2.11 - Diplomsko delo
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2025
PID:20.500.12556/RUL-170955 Povezava se odpre v novem oknu
COBISS.SI-ID:243976195 Povezava se odpre v novem oknu
Datum objave v RUL:23.07.2025
Število ogledov:262
Število prenosov:65
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Fine-tuning and evaluating language models for named entity replacement in text anonymization
Izvleček:
In this thesis, we explore the application of large language models for the pseudonymization of named entities in various types of texts containing sensitive information. We focus on generating suitable replacements that preserve the meaning and readability of the text while protecting personal data. We compare several open-source language models of different sizes and evaluate them using the GLiNER model. Additionally, we attempt to improve the performance of two smaller models through supervised fine-tuning and in-context learning. The results show that some models can successfully generate replacements without additional fine-tuning, while the adapted smaller models represent a promising solution for use in resource-constrained environments.

Ključne besede:anonymization, named entity recognition, large language models, fine-tuning

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj