Uporaba s poizvedovanjem obogatenega generiranja za iskanje po zgodovinskih parlamentarnih korpusih

FORTUN, JOŽE

Podrobno

Uporaba s poizvedovanjem obogatenega generiranja za iskanje po zgodovinskih parlamentarnih korpusih
ID FORTUN, JOŽE (Avtor), ID Marolt, Matija (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (2,04 MB)
MD5: 781098D7DBBBB01C898FCE1D85C5E170

Izvleček

Zgodovinski parlamentarni zapisniki so dragoceni viri za razumevanje političnih in družbenih procesov preteklosti, vendar je raziskovanje po obsežnih korpusih časovno zahtevno. V diplomski nalogi raziskujemo uporabo s poizvedovanjem obogatenega generiranja (RAG) za iskanje in odgovarjanje na vprašanja nad korpusom zapisnikov kranjskega deželnega zbora (1861–1913) in narodnega predstavništva Kraljevine Jugoslavije (1919–1939). Korpus vsebuje besedila v slovenščini, nemščini, hrvaščini in srbščini. Primerjali smo različne strategije segmentacije besedila, metode vektorskega vstavljanja, tehnike iskanja in generativne modele z odprtimi licencami. Rezultati kažejo, da model qwen3:8b dosega najboljšo kakovost odgovorov tako za slovenska kot angleška vprašanja, medtem ko modeli gemma3:4b in llama3.1:8b ponujajo dobro razmerje med kakovostjo in hitrostjo. Ugotavljamo tudi, da večina modelov bolje podpira angleščino, kar predstavlja izziv pri uporabi RAG za manjše jezike.

Jezik:	Slovenski jezik
Ključne besede:	s poizvedovanjem obogateno generiranje, zgodovina, parlamentarni dokumenti
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2026
PID:	20.500.12556/RUL-179421
COBISS.SI-ID:	270184963
Datum objave v RUL:	13.02.2026
Število ogledov:	207
Število prenosov:	62
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Retrieval-augmented generation for exploring historical parliamentary corpora
Historical parliamentary records are valuable sources for understanding political and social processes of the past, yet exploring large corpora remains time-consuming. This thesis investigates the use of Retrieval-Augmented Generation (RAG) for querying and answering questions over a corpus of session records from the Carniolan Provincial Assembly (1861–1913) and the National Assembly of the Kingdom of Yugoslavia (1919–1939). The corpus contains texts in Slovenian, German, Croatian, and Serbian. We compared various text segmentation strategies, vector embedding methods, retrieval techniques, and open-source generative models. Results show that qwen3:8b achieves the best answer quality for both Slovenian and English questions, while gemma3:4b and llama3.1:8b offer a good balance between quality and speed. We also find that most models provide better support for English, which presents a challenge when applying RAG to less-resourced languages.
Ključne besede:	retrieval-augmented generation, history, parliamentary documents

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj