Obramba pred sovražnimi napadi na perturbacijske razlage modelov strojnega učenja

VREŠ, DOMEN

Obramba pred sovražnimi napadi na perturbacijske razlage modelov strojnega učenja
ID VREŠ, DOMEN (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (2,24 MB)
MD5: 7A74FB5145021452D8A31D12165120A1

Izvleček

Modeli strojnega učenja se uporabljajo na različnih področjih. Poleg točnosti napovednih modelov je pomembna tudi njihova razumljivost, ki omogoča zaupanje vanje. S pomočjo razumevanja napovednega modela ugotavljamo njegovo pristranskost ter vzroke za napake. Kompleksni modeli, kot so naključni gozdovi, nevronske mreže in metoda podpornih vektorjev, niso enostavno razumljivi in delujejo kot črna škatla, zato za njihovo razlago uporabljamo post-hoc razlagalne metode, ki so neodvisne od modela in za razlago posameznega primera uporabljajo perturbacijsko vzorčenje. Robustnost perturbacijskih metod razlage je do zdaj dokaj slabo raziskana. Nedavna raziskava Slacka in sod. je pokazala, da je zaradi slabega perturbacijskega vzorčenja s temi metodami mogoče manipulirati tako, da ne pokažejo pristranskosti klasifikatorja. V diplomskem delu predlagamo uporabo boljšega vzorčenja, ki prepreči možnost takšnih manipulacij z razlago modelov strojnega učenja. Namesto običajnega perturbacijskega vzorčenja predlagamo vzorčenje, ki deluje s pomočjo modernih generatorjev podatkov, ki bolje zajamejo distribucijo učne množice. V eskperimentu pokažemo, da z izboljšanim vzorčenjem povečamo robustnost razlagalnih metod LIME in SHAP ter pohitrimo konvergenco razlagalne metode IME.

Jezik:	Slovenski jezik
Ključne besede:	razložljiva umetna inteligenca, sovražni napadi, generatorji podatkov, perturbacije, LIME, SHAP, IME, MCD--VAE, RBF kot generator, naključni gozd kot generator
Vrsta gradiva:	Diplomsko delo/naloga
Tipologija:	2.11 - Diplomsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko FMF - Fakulteta za matematiko in fiziko
Leto izida:	2020
PID:	20.500.12556/RUL-119408
COBISS.SI-ID:	28861955
Datum objave v RUL:	08.09.2020
Število ogledov:	1824
Število prenosov:	228
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Protection against adversarial attacks on perturbation based explanations of machine learning models
Machine learning models are used in various areas. In addition to the accuracy of predictive models, their comprehensibility is also important. Understanding the machine learning model provides confidence in it. By understanding the predictive model, we can determine its bias and causes of errors. Complex models such as random forests, neural networks and support vector machines are not easy to understand and act as black box models; therefore, for their explanations we use post-hoc explanation methods that are model-independent and use perturbation sampling to explain each instance. The robustness of perturbation explanation methods has so far been poorly researched. Recent research has shown that due to poor perturbation sampling, these methods can be manipulated so that they do not recognize a biased classifier. In this work, we propose the use of better sampling, which prevents such manipulations. The proposed sampling uses data generators that better capture the training set distribution. We show that improved sampling increases the robustness of the LIME and SHAP explanation methods and speeds up the convergence of the IME explanation method.
Ključne besede:	explainable AI, adversarial attacks, data generators, perturbations, LIME, SHAP, IME, MCD--VAE, RBF as data generator, random forest as data generator

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj