Vaš brskalnik ne omogoča JavaScript!
JavaScript je nujen za pravilno delovanje teh spletnih strani. Omogočite JavaScript ali pa uporabite sodobnejši brskalnik.
Repozitorij Univerze v Ljubljani
Nacionalni portal odprte znanosti
Odprta znanost
DiKUL
slv
|
eng
Iskanje
Napredno
Novo v RUL
Kaj je RUL
V številkah
Pomoč
Prijava
Podrobno
Retrieval-augmented code completion for local projects using large language models
ID
Hostnik, Marko
(
Avtor
),
ID
Robnik Šikonja, Marko
(
Avtor
)
PDF - Predstavitvena datoteka,
prenos
(2,82 MB)
MD5: B2EEDC5CC010223F3B81D36A1CFE2040
URL - Izvorni URL, za dostop obiščite
https://www.sciencedirect.com/science/article/pii/S0957417425022158
Galerija slik
Izvleček
The use of large language models (LLMs) is becoming increasingly widespread among software developers. However, privacy and computational requirements are problematic with commercial solutions and the use of LLMs. In this work, we focus on using relatively small and efficient LLMs with 160M parameters that are suitable for local execution and augmentation with retrieval from local projects. We train two open transformer-based models, the generative GPT-2 and the retrieval-adapted RETRO, on open-source Python files, and empirically compare them, confirming the benefits of embedding-based retrieval. Furthermore, we improve our models’ performance with In-context retrieval-augmented generation (RAG), which retrieves code snippets using the Jaccard similarity of tokens. We evaluate In-context RAG on larger models and determine that, despite its simplicity, the approach is more suitable than using the RETRO architecture. Experimental results indicate that In-context RAG improves the code completion baseline by over 26 %, while RETRO improves over the similarly sized GPT-2 baseline by 12 %. We highlight the key role of proper tokenization in achieving the full potential of LLMs in code completion.
Jezik:
Angleški jezik
Ključne besede:
large language models
,
code completion
,
retrieval-augmented generation
,
in-context retrieval
Vrsta gradiva:
Članek v reviji
Tipologija:
1.01 - Izvirni znanstveni članek
Organizacija:
FRI - Fakulteta za računalništvo in informatiko
FMF - Fakulteta za matematiko in fiziko
Status publikacije:
Objavljeno
Različica publikacije:
Objavljena publikacija
Leto izida:
2025
Št. strani:
15 str.
Številčenje:
Vol. 292, art. 128596
PID:
20.500.12556/RUL-174280
UDK:
004.85:81'322
ISSN pri članku:
0957-4174
DOI:
10.1016/j.eswa.2025.128596
COBISS.SI-ID:
242180867
Datum objave v RUL:
30.09.2025
Število ogledov:
326
Število prenosov:
96
Metapodatki:
Citiraj gradivo
Navadno besedilo
BibTeX
EndNote XML
EndNote/Refer
RIS
ABNT
ACM Ref
AMA
APA
Chicago 17th Author-Date
Harvard
IEEE
ISO 690
MLA
Vancouver
:
Kopiraj citat
Objavi na:
Gradivo je del revije
Naslov:
Expert systems with applications
Skrajšan naslov:
Expert syst. appl.
Založnik:
Elsevier
ISSN:
0957-4174
COBISS.SI-ID:
171291
Licence
Licenca:
CC BY 4.0, Creative Commons Priznanje avtorstva 4.0 Mednarodna
Povezava:
http://creativecommons.org/licenses/by/4.0/deed.sl
Opis:
To je standardna licenca Creative Commons, ki daje uporabnikom največ možnosti za nadaljnjo uporabo dela, pri čemer morajo navesti avtorja.
Sekundarni jezik
Jezik:
Slovenski jezik
Ključne besede:
obdelava naravnega jezika
,
veliki jezikovni modeli
,
programsko inženirstvo
,
generiranje kode
Projekti
Financer:
ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:
P6-0411
Naslov:
Jezikovni viri in tehnologije za slovenski jezik
Financer:
ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:
GC-0002
Naslov:
Veliki jezikovni modeli za digitalno humanistiko
Financer:
EC - European Commission
Program financ.:
HE
Številka projekta:
101186647
Naslov:
Centre of Excellence in Artificial Intelligence for Digital Humanities
Akronim:
AI4DH
Financer:
EC - European Commission
Številka projekta:
C3.K8.IB
Naslov:
Project PoVeJMo
Podobna dela
Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:
Nazaj