Veliki jezikovni modeli so osnovna infrastruktura za sodobno obdelavo naravnega
jezika. Za angleščino obstajajo številni komercialni in odprtokodni modeli, na
primer ChatGPT, Llama, Falconin Mistral. Ker so ti modeli učeni večinoma na
angleških besedilih, sta njihovo znanje in poznavanje jezikov ter družb z manj viri
površna. Predstavljamo razvoj novega generativnega velikega jezikovnega modela
za jezik z malo viri. Za slovenski model, imenovan GaMS1B (Generativni Model
za Slovenščino),z 1 milijardo parametrov smo razvili nov tokenizator, prilagojen
slovenščini, hrvaščini in angleščini, ter uporabili metodi inicializacije vektorskih
vložitev FOCUS in WECHSEL za prenos vložitev iz obstoječega angleškega modela
OPT. Zgrajene modele smo ovrednotili na slovenski zbirki klasifikacijskih učnih
množic in na generativni nalogi poenostavljanja stavkov SENTA. Pri evalvaciji
smo uporabili le učenje v kontekstu z nekaj učnimi primeri ter modele, ki še niso
prilagojeni za sledenje navodilom. Pri takih nastavitvah so na klasifikacijskih
nalogah zgrajeni generativni modeli zaostali za obstoječimi slovenskimi modeli
tipa BERT, ki so bili prilagojeni za dane naloge. Pri nalogi poenostavljanja stavkov
modeli GaMS dosegajo primerljive ali boljše rezultate kot modelGPT-3.5-Turbo.
|