<?xml version="1.0" encoding="utf-8"?>
<Gradivo ID="164282" NadgradivoID="5365" NRID="25326266" OceID="0" DomainUrl="https://repozitorij.uni-lj.si/" IzpisPolniUrl="https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&amp;id=164282" StOgledov="1045" StPrenosov="176" StOcen="0" VsotaOcen="0" DatumIzvoza="2026-04-10 15:17:19" OcenaSkupna="0" StPodgradiv="0" StudijskiProgramEvsID="" JeIndeksirano="0" JeVecAvtorjev="0" DovoliZahtevkeZaDostop="0">
  <PID Url="http://hdl.handle.net/20.500.12556/RUL-164282">20.500.12556/RUL-164282</PID>
  <Naslov>Generative model for less-resourced language with 1 billion parameters</Naslov>
  <Podnaslov></Podnaslov>
  <TujJezik_Naslov>Generativni model z milijardo parametrov za jezik z manj viri</TujJezik_Naslov>
  <TujJezik_Podnaslov></TujJezik_Podnaslov>
  <Opis>Large language models (LLMs) are a basic infrastructure for modern natural language processing. Many commercial and open-source LLMs exist for English,e.g., ChatGPT, Llama, Falcon, and Mistral. As these models are trained on mostly English texts, their fluency and knowledge of low-resource languages and societies are superficial. We present the development of large generative language models for a less-resourced language. GaMS1B - Generative Model for Slovene with 1 billion parameters was created by continuing pretraining of the existing English OPT model. We developed a new tokenizer adapted to Slovene, Croatian, and English languages and used embedding initialization methods FOCUS and WECHSEL to transfer the embeddings from the English OPTmodel. We evaluate our models on several classification datasets from the Slovene suite of benchmarks and generative sentence simplification task SENTA. We only used af ew-shot in-context learning of our models, which are not yet instruction-tuned. For classification tasks, in this mode, the generative models lag behind the existing Slovene BERT-type models fine-tuned for specific tasks. On a sentence simplification task, the GaMS models achieve comparable or better per formance than the GPT-3.5-Turbo model.</Opis>
  <TujJezik_Opis>Veliki jezikovni modeli so osnovna infrastruktura za sodobno obdelavo naravnega
jezika. Za angleščino obstajajo številni komercialni in odprtokodni modeli, na
primer ChatGPT, Llama, Falconin Mistral. Ker so ti modeli učeni večinoma na
angleških besedilih, sta njihovo znanje in poznavanje jezikov ter družb z manj viri
površna. Predstavljamo razvoj novega generativnega velikega jezikovnega modela
za jezik z malo viri. Za slovenski model, imenovan GaMS1B (Generativni Model
za Slovenščino),z 1 milijardo parametrov smo razvili nov tokenizator, prilagojen
slovenščini, hrvaščini in angleščini, ter uporabili metodi inicializacije vektorskih
vložitev FOCUS in WECHSEL za prenos vložitev iz obstoječega angleškega modela
OPT. Zgrajene modele smo ovrednotili na slovenski zbirki klasifikacijskih učnih
množic in na generativni nalogi poenostavljanja stavkov SENTA. Pri evalvaciji
smo uporabili le učenje v kontekstu z nekaj učnimi primeri ter modele, ki še niso
prilagojeni za sledenje navodilom. Pri takih nastavitvah so na klasifikacijskih
nalogah zgrajeni generativni modeli zaostali za obstoječimi slovenskimi modeli
tipa BERT, ki so bili prilagojeni za dane naloge. Pri nalogi poenostavljanja stavkov
modeli GaMS dosegajo primerljive ali boljše rezultate kot modelGPT-3.5-Turbo.</TujJezik_Opis>
  <KljucneBesede>
    <Beseda>large language models</Beseda>
    <Beseda>generative models</Beseda>
    <Beseda>knowledge transfer</Beseda>
    <Beseda>OPT model</Beseda>
    <Beseda>language adaptation</Beseda>
  </KljucneBesede>
  <TujJezik_KljucneBesede>
    <Beseda>veliki jezikovni modeli</Beseda>
    <Beseda>generativni modeli</Beseda>
    <Beseda>prenos znanja</Beseda>
    <Beseda>OPT model</Beseda>
    <Beseda>GaMS model</Beseda>
    <Beseda>jezikovno prilagajanje</Beseda>
  </TujJezik_KljucneBesede>
  <Potrjeno>true</Potrjeno>
  <JeZaklenjeno>false</JeZaklenjeno>
  <JeRecenzirano>true</JeRecenzirano>
  <Zaloznik></Zaloznik>
  <Izvor></Izvor>
  <Jezik ID="1033" ISO639-3="eng">Angleški jezik</Jezik>
  <TujJezik ID="1060" ISO639-3="slv">Slovenski jezik</TujJezik>
  <Povezave></Povezave>
  <Pokrivanje></Pokrivanje>
  <CasovnoPokritje></CasovnoPokritje>
  <AvtorskePravice></AvtorskePravice>
  <VrstaGradiva ID="9" DRIVER="info:eu-repo/semantics/other">Drugo</VrstaGradiva>
  <DatumVstavljanja>2024-10-18 13:04:55</DatumVstavljanja>
  <DatumObjave>2024-10-18 13:04:57</DatumObjave>
  <DatumSpremembe>2024-10-19 04:25:47</DatumSpremembe>
  <DatumTrajnegaHranjenja>0000-00-00 00:00:00</DatumTrajnegaHranjenja>
  <LetoIzida>2024</LetoIzida>
  <LetoIzidaDo>0</LetoIzidaDo>
  <KrajIzida></KrajIzida>
  <LetoIzvedbe>0</LetoIzvedbe>
  <KrajIzvedbe></KrajIzvedbe>
  <Opomba></Opomba>
  <StStrani>Str. 485-511</StStrani>
  <StevilcenjeNivo1></StevilcenjeNivo1>
  <StevilcenjeNivo2></StevilcenjeNivo2>
  <Kronologija></Kronologija>
  <Patent_Stevilka></Patent_Stevilka>
  <Patent_DatumVeljavnosti>0000-00-00</Patent_DatumVeljavnosti>
  <VerzijaDokumenta>Zaloznikova</VerzijaDokumenta>
  <StatusObjaveDrugje>Objavljeno</StatusObjaveDrugje>
  <VrstaStroskaObjave>NiDoloceno</VrstaStroskaObjave>
  <DatumPoslanoVRecenzijo>0000-00-00</DatumPoslanoVRecenzijo>
  <DatumSprejetjaClanka>0000-00-00</DatumSprejetjaClanka>
  <DatumObjaveClanka>0000-00-00</DatumObjaveClanka>
  <Licence>
    <Licenca ID="5" Kratica="CC BY-SA 4.0" Naziv="Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna" URL="http://creativecommons.org/licenses/by-sa/4.0/deed.sl" Logo="by-sa.png" LogoPolniUrl="https://repozitorij.uni-lj.si/teme/rulDev/img/licence/by-sa.png" DatumZacetkaLicenciranja="" VezanoNa="" VezanoNaAng="" Besedilo="" BesediloAng=""></Licenca>
  </Licence>
  <EmbargoDo></EmbargoDo>
  <VrstaEmbarga ID="1" Naziv="Takojšnja javna objava" OpenAIREDostop="openAccess"></VrstaEmbarga>
  <Osebe>
    <Oseba ID="140140" Ime="Domen" Priimek="Vreš" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="269487459" Afiliacija="" ArrsID="58381" ORCID=""></Oseba>
    <Oseba ID="140389" Ime="Martin" Priimek="Božič" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="388931587" Afiliacija="" ArrsID="" ORCID=""></Oseba>
    <Oseba ID="140390" Ime="Aljaž" Priimek="Potočnik" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="427626755" Afiliacija="" ArrsID="" ORCID=""></Oseba>
    <Oseba ID="140391" Ime="Tomaž" Priimek="Martinčič" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="390092547" Afiliacija="" ArrsID="00465" ORCID=""></Oseba>
    <Oseba ID="2857" Ime="Marko" Priimek="Robnik Šikonja" AltIme="Marko Robnik Šikonja; Marko Robnik- Šikonja; Marko Robnik-Šikonja; Marko Robnik; Marko Robnik-Sikonja; Marko Robnik- Sikonja" VlogaID="70" VlogaNaziv="Avtor" ConorID="4190307" Afiliacija="" ArrsID="15295" ORCID=""></Oseba>
  </Osebe>
  <Identifikatorji>
    <Identifikator ID="4" Sifra="UDK" Naziv="UDK" URL="">004.8:81&#039;322</Identifikator>
    <Identifikator ID="3" Sifra="CobissID" Naziv="COBISS_ID" URL="https://plus.cobiss.net/cobiss/si/sl/bib/212016131">212016131</Identifikator>
    <Identifikator ID="13" Sifra="OceCobissID" Naziv="OceCobissID" URL="https://plus.cobiss.net/cobiss/si/sl/bib/211315971">211315971</Identifikator>
  </Identifikatorji>
  <Datoteke>
    <Datoteka ID="194584" DatotekaNRID="13965996" NamenDatotekeID="2" NamenDatoteke="Predstavitvena datoteka" FormatDatotekeID="2" FormatDatoteke=".pdf" MIME="application/pdf" IkonaFormata="pdf.png" IkonaFormataPolniUrl="https://repozitorij.uni-lj.si/teme/rulDev/img/fileTypes/pdf.png" VelikostDatoteke="641306" VelikostDatotekeKratko="626,28 KB" DatumVstavljanja="2024-10-18 14:34:45" JeZbrisana="false" JeJavnoVidna="true" JeIndeksirana="true" JeVidno="true" VidnoOd="01.01.1970" Zaporedje="0">
      <Naziv>RAZ_Vres_Domen_2024.pdf</Naziv>
      <OrgNaziv>RAZ_Vres_Domen_2024.pdf</OrgNaziv>
      <URL></URL>
      <Opis></Opis>
      <OpisTujJezik></OpisTujJezik>
      <UrlObdelave></UrlObdelave>
      <FrekvencaAzuriranjaID>1</FrekvencaAzuriranjaID>
      <Verzija></Verzija>
      <MD5>A0A044C23F57A6991DF3139236A00FE9</MD5>
      <SHA256>435c568e532dbf259590f71341a556416112e6d1e673736d4b164d472340f340</SHA256>
      <UUID>18bf2a6b-8d4d-11ef-b232-0050569b8976</UUID>
      <PID></PID>
      <PrenosPolniUrl>https://repozitorij.uni-lj.si/Dokument.php?lang=slv&amp;id=194584</PrenosPolniUrl>
      <Vsebine>
        <Vsebina TipVsebine="GoloBesedilo" JezikID="1033" Oznaka="" Dolzina="66055"></Vsebina>
      </Vsebine>
    </Datoteka>
    <Datoteka ID="194581" DatotekaNRID="0" NamenDatotekeID="5" NamenDatoteke="Izvorni URL" FormatDatotekeID="56" FormatDatoteke="URL" MIME="text/url" IkonaFormata="url.png" IkonaFormataPolniUrl="https://repozitorij.uni-lj.si/teme/rulDev/img/fileTypes/url.png" VelikostDatoteke="0" VelikostDatotekeKratko="0,00 KB" DatumVstavljanja="2024-10-18 13:05:00" JeZbrisana="false" JeJavnoVidna="true" JeIndeksirana="false" JeVidno="true" VidnoOd="01.01.1970" Zaporedje="1">
      <Naziv></Naziv>
      <OrgNaziv></OrgNaziv>
      <URL>https://zenodo.org/records/13912515</URL>
      <Opis></Opis>
      <OpisTujJezik></OpisTujJezik>
      <UrlObdelave></UrlObdelave>
      <FrekvencaAzuriranjaID>1</FrekvencaAzuriranjaID>
      <Verzija></Verzija>
      <MD5></MD5>
      <SHA256></SHA256>
      <UUID>8f1c3472-8d40-11ef-b232-0050569b8976</UUID>
      <PID></PID>
      <PrenosPolniUrl>https://repozitorij.uni-lj.si/Dokument.php?lang=slv&amp;id=194581</PrenosPolniUrl>
      <Vsebine>
      </Vsebine>
    </Datoteka>
  </Datoteke>
  <Organizacije>
    <Organizacija OrganizacijaID="25" Kratica="FRI" ZavodEvsID="0000066" Logo="" LogoPolniUrl="https://repozitorij.uni-lj.si/teme/rulDev/img/logo/">Fakulteta za računalništvo in informatiko</Organizacija>
  </Organizacije>
  <OrganizacijeVira>
  </OrganizacijeVira>
  <MetodeZbiranjaPodatkov>
  </MetodeZbiranjaPodatkov>
  <TipologijaDela ID="1.08" Koda="1.08" Naziv="Objavljeni znanstveni prispevek na konferenci" SchemaOrg="Article"></TipologijaDela>
  <OpenAIRE>
    <OpenAIRE ProjektID="" Stevilka="" Naslov="Adaptive Natural Language Processing with the Help of Large Language Models" Akronim="" Delez="0"></OpenAIRE>
    <OpenAIRE ProjektID="info:eu-repo/grantAgreement/ARIS//P6-0411" Stevilka="P6-0411" Naslov="Jezikovni viri in tehnologije za slovenski jezik" Akronim="" Delez="0"></OpenAIRE>
    <OpenAIRE ProjektID="info:eu-repo/grantAgreement/ARIS//J7-3159" Stevilka="J7-3159" Naslov="Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti" Akronim="" Delez="0"></OpenAIRE>
    <OpenAIRE ProjektID="info:eu-repo/grantAgreement/ARIS//L2-50070" Stevilka="L2-50070" Naslov="Tehnike vektorskih vložitev za medijske aplikacije" Akronim="" Delez="0"></OpenAIRE>
  </OpenAIRE>
  <Ostalo>
    <StIrodsDatotek>0</StIrodsDatotek>
    <StDatotekPodTrajnimEmbargom>0</StDatotekPodTrajnimEmbargom>
    <StDatotekZOmejenimDostopom>0</StDatotekZOmejenimDostopom>
  </Ostalo>
</Gradivo>
