Zmanjševanje velikosti jezikovnih modelov s kvantizacijo

Premuš, Luka

Podrobno

Zmanjševanje velikosti jezikovnih modelov s kvantizacijo
ID Premuš, Luka (Avtor), ID Hočevar, Tomaž (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (958,35 KB)
MD5: 38BDDE13BC6DCE81EDECB6245A7984AC

Izvleček

Veliki jezikovni modeli, kot je BERT, so preobrazili obdelavo naravnega jezika, vendar njihova velika velikost in računska zahtevnost ovirata njihovo širšo uporabo, zlasti na napravah z omejenimi viri. Ta diplomska naloga obravnava problem zmanjševanja velikosti jezikovnih modelov z uporabo kvantizacije, tehnike, ki zmanjšuje številsko predstavitev uteži in aktivacij modela. Osredotoča se na metode kvantizacije po učenju (PTQ), natančneje na dinamično in statično kvantizacijo, ki sta implementirani in ovrednoteni na klasifikacijskem modelu BERT z uporabo knjižnice ONNX Runtime. Teoretično je predstavljena tudi kvantizacija med učenjem (QAT), ter ostale pogosto uporabljene metode zmanjševanja velikosti jezikovnih modelov. Analiziran je vpliv tehnike PTQ na velikost modela, hitrost sklepanja in napovedno natančnost. Rezultati kažejo, da kvantizacija znatno zmanjša velikost modela in pospeši sklepanje. Dinamična kvantizacija pri modelu BERT doseže dobro ravnovesje med kompresijo in ohranjanjem natančnosti, medtem ko osnovna statična kvantizacija povzroči opazno poslabšanje zmogljivosti. Delo tako ponuja pregled tehnik kvantizacije in praktično oceno kompromisov pri uporabi kvantizacije po treniranju na modelu BERT.

Jezik:	Slovenski jezik
Ključne besede:	jezikovni model, BERT, kvantizacija po učenju, kvantizacija med učenjem, zmanjševanje porabe pomnilnika, pohitritev sklepanja
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2025
PID:	20.500.12556/RUL-170762
COBISS.SI-ID:	243967747
Datum objave v RUL:	15.07.2025
Število ogledov:	252
Število prenosov:	54
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Reducing the size of language models through quantization
Large language models such as BERT have transformed natural language processing, but their large size and computational complexity hinder their widespread use, especially on resource-constrained devices. This thesis addresses the problem of reducing the size of language models using quantization, a technique that reduces the numerical representation of model weights and activations. It focuses on post-training quantization (PTQ) methods, specifically dynamic and static quantization, implemented and evaluated on the BERT classification model using the ONNX Runtime Library. Quatization aware training (QAT) is also theoretically presented, as well as other commonly used methods for reducing the size of language models. The impact of implemented PTQ methods on model size, inference speed and predictive accuracy is analyzed. The results show that quantization significantly reduces model size and speeds up inference. Dynamic quantization in the BERT model achieves a good balance between compression and accuracy preservation, while basic static quantization results in a noticeable performance degradation. The work thus provides an overview of quantization techniques and a practical assessment of the trade-offs in applying quantization after training on the BERT model.
Ključne besede:	language Model, BERT, post training quantization, quantization aware training, lower memory usage, faster inference

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj