Ker je področje umetne inteligence (UI) v zadnjem času vse bolj popularno, se povečuje tudi potreba po tem, da so odločitve, ki jih naredi sistem UI razumljive. Razložljiva umetna inteligenca (Explainable Artificial Intelligence - XAI) je razvijajoče se področje, katerega cilj je obravnavati problem „črne škatle“ v arhitekturah globokega učenja in narediti procese, ki vodijo do odločitev, bolj razložljive/interpretabilne za ljudi. Zaradi različnih pravnih določb, kot je Splošna uredba o varstvu podatkov (GDPR), se zahteva, da so sistemi umetne inteligence ne le natančni, temveč tudi razložljivi/interpetabilni. To je še posebej pomembno v scenarijih, v katerih mora sistem UI sprejeti odločitev o identiteti osebe, pri čemer imajo lahko napačne odločitve večje posledice.
V tem delu uporabljamo simbolične predstavitve za interpretacijo kodiranih informacij o obraznih atributih v obraznih predlogah, ki so lažje razumljive nestrokovnjakom na tem področju. Za dosego tega cilja uporabljamo dve strategiji. Kot prvo, uporabimo model CLIP za ustvarjanje opisov izluščenih obraznih predlog v naravnem jeziku. Obrazne predloge so sprva ustvarjene s CLIP-ovim kodirnikom slik, nato pa kot osnovo za pridobivanje obraznih predlog uporabimo najsodobnejša modela za razpoznavanje in analizo obrazov AdaFace in SwinFace. Generirane obrazne predloge pozneje interpretiramo s CLIP-ovim kodirnikom besedila. Razlike v teh arhitekturah nam omogočajo analizirati njihov vpliv na vsebino kodiranih informac
Druga strategija vključuje uporabo modelov AdaFace in SwinFace kot osnove za binarne razvrščevalnike za napovedovanje prisotnosti obraznih atributov, kot so „Moški“, „Mlad“, „Privlačen“, „Rjavi_lasi“, „Nošenje_čepice“ itd., v izluščenih obraznih predlogah. S tem pristopom želimo kodirano informacijsko vsebino predstaviti z zelo osnovnimi simboličnimi predstavitvami. Poleg tega s tem pristopom primerjamo uspešnost modelov, ki temelijo na CLIP.
Te različice modelov še uglašujemo (angl. fine-tune) in ovrednotimo z uporabo nabora podatkov VGGFace2 in anotiranih oznak atributov iz nabora podatkov MAADFace. Rezultati kažejo, da uglaševanje modela CLIP na specifični domenski nalogi izboljša njegovo zmožnost boljše predstavitve informacij, kodiranih v obraznih predlogah, in poravnave kodiranih besedilnih opisov. Poleg tega rezultati kažejo, da je SwinFace boljši od AdaFace pri klasifikacijskem pristopu na podlagi CLIP. To pomeni, da SwinFace boljše kodira informacije o atributih v pridobljenih obraznih predlogah. Vendar nobeden od modelov, ki temeljijo na CLIP, ni boljši od osnovnih razvrščevalnikov.
|