First steps toward the compilation of a safety dataset for Slovene large language models

Čibej, Jaka

First steps toward the compilation of a safety dataset for Slovene large language models
ID Čibej, Jaka (Avtor)

	PDF - Predstavitvena datoteka, prenos (356,00 KB) MD5: 1128E5BFA14C0BF2F179E29FD28AEBD5
	URL - Izvorni URL, za dostop obiščite https://zenodo.org/records/13912515

Izvleček

In the paper, we present the initial preparatory phase of the compilation of a Slovene safety dataset containing harmful or offensive prompts and safe responses to them. The dataset will be used to fine-tune Slovene large language models in order to prevent unwanted model behavior and misuse by malicious actors for a diverse range of harmful activities, such as scams, toxic or offensive content generation, automated political campaigning, vandalism, and terrorism. We provide an overview of existing safety datasets for other languages and describe the different methods used to compile them, as well as the harm areas typically covered in similar datasets. We continue by listing the most frequent vulnerabilities of existing LLMs and how to take them in to account when designing a safety dataset that covers not only the general harm areas, but also those specific to Slovenia. Wep ropose a framework for the manual generation of Slovene prompts and responses based on an initial taxonomy of relevant topics, along with additional instructions to provide for more linguistic diversity with in the dataset and account forpotential frequent jailbreaks.

Jezik:	Angleški jezik
Ključne besede:	large language models, responsible artificial intelligence, safety datasets, Slovene
Vrsta gradiva:	Drugo
Tipologija:	1.08 - Objavljeni znanstveni prispevek na konferenci
Organizacija:	FRI - Fakulteta za računalništvo in informatiko FF - Filozofska fakulteta
Status publikacije:	Objavljeno
Različica publikacije:	Objavljena publikacija
Leto izida:	2024
Št. strani:	Str. 47-65
PID:	20.500.12556/RUL-164271
UDK:	81'322:004.8
COBISS.SI-ID:	212026627
Datum objave v RUL:	18.10.2024
Število ogledov:	98
Število prenosov:	12
Metapodatki:
:	Kopiraj citat
Objavi na:

Gradivo je del monografije

Naslov:	Jezikovne tehnologije in digitalna humanistika : zbornik konference
Uredniki:	Špela Arhar Holdt, Tomaž Erjavec
Kraj izida:	Ljubljana
Založnik:	Inštitut za novejšo zgodovino, = Institute of Contemporary History
Leto izida:	2024
ISBN:	978-961-7104-40-0
COBISS.SI-ID:	211315971

Licence

Licenca:	CC BY-SA 4.0, Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by-sa/4.0/deed.sl
Opis:	Ta licenca Creative Commons je zelo podobna običajni licenci Priznanje avtorstva, vendar zahteva, da so materialne avtorske pravice na izpeljanih delih upravljane z enako licenco.

Sekundarni jezik

Izvleček:
Jezik:	Slovenski jezik
Naslov:	Prvi koraki pri izgradnji varnostne učne množice za slovenske velike jezikovne modele
V prispevku predstavljamo začetne korake pri izgradnji slovenske varnostne učne množice s škodljivimi ali žaljivimi navodili in varnimi odgovori nanje. Množica bo uporabljena za prilagajanje slovenskih velikih jezikovnih modelov (VJM), kar bo preprečilo neželeno ravnanje modelov in zlorabo s strani negativnih akterjev pri različnih škodljivih dejavnostih, kot so prevare, generiranje žaljivih ali toksičnih vsebin, avtomatsko politično lobiranje, vandalizem in terorizem. Opravimo pregled obstoječih varnostnih učnih množic in opišemo, kako so bile zgrajene, ter najpogostejša tematska področja, ki jih podobne množice pokrivajo. Naštejemo tudi najpogostejše ranljivosti obstoječih VJM in kako jih upoštevati pri zasnovi varnostne učne množice, ki pokriva ne le splošna tematska področja, temveč tudi tista, ki so specifična za Slovenijo. Opišemo predlog delotoka za ročno tvorjenje slovenskih navodil in odgovorov na podlagi začetne različice taksonomije tematik, vključno s predlogi, kako poskrbeti za večjo jezikovno raznovrstnost znotraj množice in upoštevati potencialne načine zaobhajanja varnostnih omejitev modelov.
Ključne besede:	veliki jezikovni modeli, odgovorna umetna inteligenca, varnostne učne množice, slovenščina

Projekti

Financer:	Drugi - Drug financer ali več financerjev
Naslov:	Prilagodljiva obdelava naravnega jezika s pomočjo velikih jezikovnih modelov

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Naslov:	Načrt za okrevanje in odpornost

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	P6-0411
Naslov:	Jezikovni viri in tehnologije za slovenski jezik

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj