First steps toward the compilation of a safety dataset for Slovene large language models

Čibej, Jaka

Repository of the University of Ljubljana

Details

First steps toward the compilation of a safety dataset for Slovene large language models
ID Čibej, Jaka (Author)

	PDF - Presentation file, Download (356,00 KB) MD5: 1128E5BFA14C0BF2F179E29FD28AEBD5
	URL - Source URL, Visit https://zenodo.org/records/13912515

Abstract

In the paper, we present the initial preparatory phase of the compilation of a Slovene safety dataset containing harmful or offensive prompts and safe responses to them. The dataset will be used to fine-tune Slovene large language models in order to prevent unwanted model behavior and misuse by malicious actors for a diverse range of harmful activities, such as scams, toxic or offensive content generation, automated political campaigning, vandalism, and terrorism. We provide an overview of existing safety datasets for other languages and describe the different methods used to compile them, as well as the harm areas typically covered in similar datasets. We continue by listing the most frequent vulnerabilities of existing LLMs and how to take them in to account when designing a safety dataset that covers not only the general harm areas, but also those specific to Slovenia. Wep ropose a framework for the manual generation of Slovene prompts and responses based on an initial taxonomy of relevant topics, along with additional instructions to provide for more linguistic diversity with in the dataset and account forpotential frequent jailbreaks.

Language:	English
Keywords:	large language models, responsible artificial intelligence, safety datasets, Slovene
Work type:	Other
Typology:	1.08 - Published Scientific Conference Contribution
Organization:	FRI - Faculty of Computer and Information Science FF - Faculty of Arts
Publication status:	Published
Publication version:	Version of Record
Year:	2024
Number of pages:	Str. 47-65
PID:	20.500.12556/RUL-164271
UDC:	81'322:004.8
COBISS.SI-ID:	212026627
Publication date in RUL:	18.10.2024
Views:	212
Downloads:	32
Metadata:
:	Copy citation
Share:

Record is a part of a monograph

Title:	Jezikovne tehnologije in digitalna humanistika : zbornik konference
Editors:	Špela Arhar Holdt, Tomaž Erjavec
Place of publishing:	Ljubljana
Publisher:	Inštitut za novejšo zgodovino, = Institute of Contemporary History
Year:	2024
ISBN:	978-961-7104-40-0
COBISS.SI-ID:	211315971

Licences

License:	CC BY-SA 4.0, Creative Commons Attribution-ShareAlike 4.0 International

Link:	http://creativecommons.org/licenses/by-sa/4.0/
Description:	This Creative Commons license is very similar to the regular Attribution license, but requires the release of all derivative works under this same license.

Secondary language

Abstract:
Language:	Slovenian
Title:	Prvi koraki pri izgradnji varnostne učne množice za slovenske velike jezikovne modele
V prispevku predstavljamo začetne korake pri izgradnji slovenske varnostne učne množice s škodljivimi ali žaljivimi navodili in varnimi odgovori nanje. Množica bo uporabljena za prilagajanje slovenskih velikih jezikovnih modelov (VJM), kar bo preprečilo neželeno ravnanje modelov in zlorabo s strani negativnih akterjev pri različnih škodljivih dejavnostih, kot so prevare, generiranje žaljivih ali toksičnih vsebin, avtomatsko politično lobiranje, vandalizem in terorizem. Opravimo pregled obstoječih varnostnih učnih množic in opišemo, kako so bile zgrajene, ter najpogostejša tematska področja, ki jih podobne množice pokrivajo. Naštejemo tudi najpogostejše ranljivosti obstoječih VJM in kako jih upoštevati pri zasnovi varnostne učne množice, ki pokriva ne le splošna tematska področja, temveč tudi tista, ki so specifična za Slovenijo. Opišemo predlog delotoka za ročno tvorjenje slovenskih navodil in odgovorov na podlagi začetne različice taksonomije tematik, vključno s predlogi, kako poskrbeti za večjo jezikovno raznovrstnost znotraj množice in upoštevati potencialne načine zaobhajanja varnostnih omejitev modelov.
Keywords:	veliki jezikovni modeli, odgovorna umetna inteligenca, varnostne učne množice, slovenščina

Projects

Funder:	Other - Other funder or multiple funders
Name:	Prilagodljiva obdelava naravnega jezika s pomočjo velikih jezikovnih modelov

Funder:	ARIS - Slovenian Research and Innovation Agency
Name:	Načrt za okrevanje in odpornost

Funder:	ARIS - Slovenian Research and Innovation Agency
Project number:	P6-0411
Name:	Jezikovni viri in tehnologije za slovenski jezik

Similar works from RUL:
Similar works from other Slovenian collections:

Details

Record is a part of a monograph

Licences

Secondary language

Projects

Similar documents