Generative model for less-resourced language with 1 billion parameters

Vreš, Domen; Božič, Martin; Potočnik, Aljaž; Martinčič, Tomaž; Robnik Šikonja, Marko

Podrobno

Generative model for less-resourced language with 1 billion parameters
ID Vreš, Domen (Avtor), ID Božič, Martin (Avtor), ID Potočnik, Aljaž (Avtor), ID Martinčič, Tomaž (Avtor), ID Robnik Šikonja, Marko (Avtor)

	PDF - Predstavitvena datoteka, prenos (626,28 KB) MD5: A0A044C23F57A6991DF3139236A00FE9
	URL - Izvorni URL, za dostop obiščite https://zenodo.org/records/13912515

Izvleček

Large language models (LLMs) are a basic infrastructure for modern natural language processing. Many commercial and open-source LLMs exist for English,e.g., ChatGPT, Llama, Falcon, and Mistral. As these models are trained on mostly English texts, their fluency and knowledge of low-resource languages and societies are superficial. We present the development of large generative language models for a less-resourced language. GaMS1B - Generative Model for Slovene with 1 billion parameters was created by continuing pretraining of the existing English OPT model. We developed a new tokenizer adapted to Slovene, Croatian, and English languages and used embedding initialization methods FOCUS and WECHSEL to transfer the embeddings from the English OPTmodel. We evaluate our models on several classification datasets from the Slovene suite of benchmarks and generative sentence simplification task SENTA. We only used af ew-shot in-context learning of our models, which are not yet instruction-tuned. For classification tasks, in this mode, the generative models lag behind the existing Slovene BERT-type models fine-tuned for specific tasks. On a sentence simplification task, the GaMS models achieve comparable or better per formance than the GPT-3.5-Turbo model.

Jezik:	Angleški jezik
Ključne besede:	large language models, generative models, knowledge transfer, OPT model, language adaptation
Vrsta gradiva:	Drugo
Tipologija:	1.08 - Objavljeni znanstveni prispevek na konferenci
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Status publikacije:	Objavljeno
Različica publikacije:	Objavljena publikacija
Leto izida:	2024
Št. strani:	Str. 485-511
PID:	20.500.12556/RUL-164282
UDK:	004.8:81'322
COBISS.SI-ID:	212016131
Datum objave v RUL:	18.10.2024
Število ogledov:	865
Število prenosov:	148
Metapodatki:
:	Kopiraj citat
Objavi na:

Gradivo je del monografije

Naslov:	Jezikovne tehnologije in digitalna humanistika : zbornik konference
Uredniki:	Špela Arhar Holdt, Tomaž Erjavec
Kraj izida:	Ljubljana
Založnik:	Inštitut za novejšo zgodovino, = Institute of Contemporary History
Leto izida:	2024
ISBN:	978-961-7104-40-0
COBISS.SI-ID:	211315971

Licence

Licenca:	CC BY-SA 4.0, Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by-sa/4.0/deed.sl
Opis:	Ta licenca Creative Commons je zelo podobna običajni licenci Priznanje avtorstva, vendar zahteva, da so materialne avtorske pravice na izpeljanih delih upravljane z enako licenco.

Sekundarni jezik

Izvleček:
Jezik:	Slovenski jezik
Naslov:	Generativni model z milijardo parametrov za jezik z manj viri
Veliki jezikovni modeli so osnovna infrastruktura za sodobno obdelavo naravnega jezika. Za angleščino obstajajo številni komercialni in odprtokodni modeli, na primer ChatGPT, Llama, Falconin Mistral. Ker so ti modeli učeni večinoma na angleških besedilih, sta njihovo znanje in poznavanje jezikov ter družb z manj viri površna. Predstavljamo razvoj novega generativnega velikega jezikovnega modela za jezik z malo viri. Za slovenski model, imenovan GaMS1B (Generativni Model za Slovenščino),z 1 milijardo parametrov smo razvili nov tokenizator, prilagojen slovenščini, hrvaščini in angleščini, ter uporabili metodi inicializacije vektorskih vložitev FOCUS in WECHSEL za prenos vložitev iz obstoječega angleškega modela OPT. Zgrajene modele smo ovrednotili na slovenski zbirki klasifikacijskih učnih množic in na generativni nalogi poenostavljanja stavkov SENTA. Pri evalvaciji smo uporabili le učenje v kontekstu z nekaj učnimi primeri ter modele, ki še niso prilagojeni za sledenje navodilom. Pri takih nastavitvah so na klasifikacijskih nalogah zgrajeni generativni modeli zaostali za obstoječimi slovenskimi modeli tipa BERT, ki so bili prilagojeni za dane naloge. Pri nalogi poenostavljanja stavkov modeli GaMS dosegajo primerljive ali boljše rezultate kot modelGPT-3.5-Turbo.
Ključne besede:	veliki jezikovni modeli, generativni modeli, prenos znanja, OPT model, GaMS model, jezikovno prilagajanje

Projekti

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Naslov:	Adaptive Natural Language Processing with the Help of Large Language Models

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	P6-0411
Naslov:	Jezikovni viri in tehnologije za slovenski jezik

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	J7-3159
Naslov:	Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	L2-50070
Naslov:	Tehnike vektorskih vložitev za medijske aplikacije

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj