S poizvedovanjem obogatene tehnike generiranja pravnih besedil

Mušič, Rok

S poizvedovanjem obogatene tehnike generiranja pravnih besedil
ID Mušič, Rok (Avtor), ID Žitnik, Slavko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (2,39 MB)
MD5: 72F6BE5E630EE2613E3E4302A5BE32FD

Izvleček

Slovenska zakonodaja je obsežna in pravni delavci porabijo veliko časa vsak dan za iskanje ustrezne literature. V ta namen smo raziskali uspešnost velikih jezikovnih modelov (VJM) kot pravnih asistentov. VJM-ji so uspešni v številnih nalogah, a zahtevna domenska vprašanja so ena izmed njihovih večjih pomanjkljivosti; pogosto pride do halucinacij. S poizvedovanjem obogateno generiranje besedil (RAG) je tehnika, ki zaobide pomanjkanje domenskega znanja VJM-jev tako, da na podlagi vprašanja v zakonodaji najde vsebino, s katero lahko pravilno odgovori na vprašanje. Z najdenim znanjem VJM pravilno odgovori in ne halucinira. Raziskali in implementirali smo več različnih tehnik RAG. Vse metode smo preizkusili na ročno izdelani testni množici, ki vsebuje 4 testne scenarije, s katerimi preverimo, kako uspešne so metode v različnih situacijah. Naprednejše različice RAG-a, napredni in modularen RAG, kažejo dobro uspešnost pri direktnih vprašanjih, a nižjo uspešnost za bolj splošna vprašanja kot so npr. dejanski primeri.

Jezik:	Slovenski jezik
Ključne besede:	velik jezikovni model, s poizvedovanjem obogateno generiranje besedil, obdelava naravnega jezika
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2024
PID:	20.500.12556/RUL-162823
COBISS.SI-ID:	213404931
Datum objave v RUL:	27.09.2024
Število ogledov:	121
Število prenosov:	755
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Retrieval-augmented generation of law texts
Slovenian legislation is extensive, causing legal professionals to spend a significant amount of time each day searching for relevant literature. To address this, we explored the effectiveness of large language models (LLMs) as legal assistants. LLMs have been successful in various tasks, but handling complex domain-specific questions remains one of their major weaknesses; often producing hallucinations. Retrieval-Augmented Generation (RAG) is a technique that bypasses the lack of domain knowledge in LLMs by retrieving content from legislation based on the question, allowing for accurate responses. With the retrieved knowledge, the LLM can correctly answer the question without hallucinating. We explored and implemented several different RAG techniques. All methods were tested on a manually crafted test set containing four test scenarios to evaluate how successful the methods are in various situations. More advanced versions of RAG, such as advanced and modular RAG, show good performance in direct questions but lower success in more general questions, such as real-world examples.
Ključne besede:	large language model, retrieval augmented generation, natural language processing

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj