Podrobno

Fine-tuning large language models for target-based summarization in less-resourced languages
ID Đuranović, Vuk (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

.pdfPDF - Predstavitvena datoteka, prenos (838,71 KB)
MD5: 33B8E94F501458528C56FB1F483E5239

Izvleček
State-of-the-art large language models demonstrate strong performance in text summarization, yet their effectiveness varies significantly across languages with restricted training resources. This work addresses the challenge of query-focused summarization in Slovene, a language with limited availability of labeled datasets and evaluation tools. We present a novel query-focused summarization (QFS) framework, QFS-Composer, which integrates query decomposition, question generation (QG), question answering (QA), and abstractive summarization to increase factual alignment of a summary with user intent. To enable high-quality supervision and evaluation, we develop the Slovenian QA and QG models based on large language model (LLM) GaMS-9B-Instruct, and adapt evaluation approaches for reference-free summary evaluation in the Slovenian language. Experimental results show that the QA-guided summarization pipeline yields improved consistency and relevance over baseline LLMs. This research establishes an extensible methodology for advancing QFS in less-resourced languages.

Jezik:Angleški jezik
Ključne besede:summarization, large language models, less-resourced languages, question answering based evaluation, Slovene
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2025
PID:20.500.12556/RUL-177208 Povezava se odpre v novem oknu
COBISS.SI-ID:262745859 Povezava se odpre v novem oknu
Datum objave v RUL:17.12.2025
Število ogledov:131
Število prenosov:42
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Prilagajanje velikih jezikovnih modelov za ciljno povzemanje besedil v jezikih z manj viri
Izvleček:
Sodobni veliki jezikovni modeli kažejo visoko zmogljivost pri povzemanju besedil, vendar se njihova učinkovitost med jeziki z omejenimi viri precej razlikuje. To delo obravnava izziv ciljnega povzemanja besedil v slovenščini, jeziku z omejeno razpoložljivostjo označenih učnih množic in orodij za vrednotenje. Predstavljamo novo ogrodje za ciljno povzemanje besedil (QFS - query-focused summarization), QFS-Composer, ki združuje dekompozicijo poizvedb, generiranje vprašanj (QG), odgovarjanje na vprašanja (QA) in abstraktno povzemanje za povečanje skladnosti povzetka s ciljem povzemanja. Da bi omogočili kakovosten nadzor in vrednotenje učenja, smo razvili slovenske modele QA in QG na podlagi velikega jezikovnega modela GaMS-9B-Instruct, in prilagojene metrike QAGS, QuestEval in RQUGE za vrednotenje povzetkov v slovenščini. Eksperimentalni rezultati kažejo, da sistem za povzemanje, usmerjen z QA, zagotavlja izboljšano doslednost in ustreznost v primerjavi z osnovnimi velikimi jezikovnimi modeli. Raziskava vzpostavlja razširljivo metodologijo za izboljšanje QFS v jezikih z manj viri.

Ključne besede:povzemanje besedil, veliki jezikovni modeli, jeziki z manj viri, evaluacija na podlagi vprašanj in odgovorov, slovenščina

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj