S poizvedovanjem obogateno dopolnjevanje programske kode za lokalne projekte z velikimi jezikovnimi modeli : magistrsko delo

Hostnik, Marko

Podrobno

S poizvedovanjem obogateno dopolnjevanje programske kode za lokalne projekte z velikimi jezikovnimi modeli : magistrsko delo
ID Hostnik, Marko (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (1,28 MB)
MD5: 3CECA9D8B05BF4E03E75046B29E2A1B0

Izvleček

Programiranje s pomočjo velikih jezikovnih modelov postaja vse bolj razširjeno. Pojavljajo se pomisleki glede zasebnosti kode pri uporabi komercialnih rešitev. Težava je tudi vse močnejša strojna oprema, potrebna za izvajanje velikih modelov. V delu se zato osredotočimo na uporabo modelov velikosti 160 milijonov parametrov, ki so primerni za lokalno izvajanje, in jih obogatimo z uporabo poizvedovanja iz lokalnih projektov. Na odprtokodnih Python datotekah učimo modela GPT-2 in RETRO, ju eksperimentalno primerjamo in potrdimo korist poizvedovanja na podlagi vektorskih vložitev. Uspešnost modelov izboljšamo s kontekstnim poizvedovanjem, ki primerne kontekste izbere na podlagi Jaccardovega koeficienta podobnosti žetonov. Doprinos kontekstnega poizvedovanja preverimo na večjih modelih in ugotovimo, da je pristop kljub enostavnosti koristnejši od arhitekture RETRO. Izpostavimo tudi ključno vlogo primerne tokenizacije za doseganje dobrih rezultatov velikih jezikovnih modelov.

Jezik:	Slovenski jezik
Ključne besede:	veliki jezikovni modeli, dopolnjevanje kode, s poizvedovanjem obogateno dopolnjevanje, kontekstno poizvedovanje
Vrsta gradiva:	Magistrsko delo/naloga
Tipologija:	2.09 - Magistrsko delo
Organizacija:	FMF - Fakulteta za matematiko in fiziko
Leto izida:	2024
PID:	20.500.12556/RUL-158958
UDK:	004.42
COBISS.SI-ID:	200036099
Datum objave v RUL:	23.06.2024
Število ogledov:	1190
Število prenosov:	247
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Retrieval-augmented code completion for local projects using large language models
The use of large language models is becoming increasingly widespread among developers. However, privacy and computational requirements are problematic with commercial solutions and the use of large models. In this work, we focus on using large language models with 160 million parameters that are suitable for local execution and augmentation with retrieval from local projects. We train GPT-2 and RETRO models on open-source Python files, experimentally compare them and confirm the benefits of vector embedding based retrieval. Additionally, we improve our models' performance with in-context retrieval, which retrieves the context based on the Jaccard similarity of tokens. We further evaluate in-context retrieval on larger models and conclude that, despite its simplicity, the approach is better than using the RETRO architecture. We highlight the key role of proper tokenization in achieving the full potential of large language models.
Ključne besede:	large language models, code completion, retrieval-augmented generation, in-context retrieval

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj