izpis_h1_title_alt

Interpreting Face Recognition Templates using Symbolic Representations
ID Manojlovska, Anastasija (Avtor), ID Štruc, Vitomir (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Grm, Klemen (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (31,47 MB)

Izvleček
As the field of Artificial Intelligence (AI) is gaining popularity, there is an increasing demand for making the decisions of AI systems transparent and understandable. Explainable Artificial Intelligence (XAI) is an emerging field, which aims to address the "black box" challenge in deep learning architectures and make the processes that lead to the decisions more explainable/interpretable to humans. It is particularly important to make the AI systems more transparent due to various legal regulations, such as the General Data Protection Regulation (GDPR), which requires the AI systems to be not only accurate, but also explainable/interpetable. This is specifically relevant in scenarios where the AI system has to make decisions about a person's identity, since the wrong verdict might have huge consequences. In this thesis, we use symbolic representations to interpret the encoded facial attribute information in face templates, which are easier to understand by non-experts in this field. To achieve this goal, two strategies are developed. First, we employ the CLIP model to generate natural language descriptions of the extracted face templates. The face templates are initially generated with CLIP's Image Encoder. We further implement state-of-the-art face recognition and face analysis models AdaFace and SwinFace as the backbones to extract face templates, which we later interpret using CLIP's Text Encoder. The differences in these architectures allow us to analyze the impact they have on the encoded information content. The second strategy involves implementing the AdaFace and SwinFace models as the backbones to binary and multi-label classifiers to predict the presence of the facial attributes, such as "Male", "Young", "Attractive", "Brown_Hair", "Wearing_Hat", etc. in the extracted face templates. By using this approach we aim to represent the encoded information content using very basic symbolic representatons. Moreover, this strategy serves as a baseline for the CLIP-based models, to which we compare the performance. We further fine-tune and evaluate various model variants using the VGGFace2 dataset and the annotated attribute labels from the MAADFace dataset. The results indicate that fine-tuning the CLIP model on a domain-specific task improves its ability to better represent the information encoded in face templates and align encoded text descriptions with these templates, which allows for natural language interpretation. Furthermore, the results show that SwinFace outperforms AdaFace both in the CLIP-based and classification approaches, indicating that SwinFace is more effective at encoding the attribute information in the extracted face templates. Moreover, neither of the CLIP-based models outperform the baseline classifiers.

Jezik:Angleški jezik
Ključne besede:Interpretable Artificial Intelligence, Symbolic Representations, Face Templates, Attribute Recognition, Deep Learning, Natural Language Processing, Computer Vision, CLIP, AdaFace, SwinFace
Vrsta gradiva:Magistrsko delo/naloga
Organizacija:FE - Fakulteta za elektrotehniko
Leto izida:2024
Datum objave v RUL:12.09.2024
Število ogledov:29
Število prenosov:14
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Interpretacija predlog za prepoznavanje obrazov z uporabo simboličnih predstavitev
Izvleček:
Ker je področje umetne inteligence (UI) v zadnjem času vse bolj popularno, se povečuje tudi potreba po tem, da so odločitve, ki jih naredi sistem UI razumljive. Razložljiva umetna inteligenca (Explainable Artificial Intelligence - XAI) je razvijajoče se področje, katerega cilj je obravnavati problem „črne škatle“ v arhitekturah globokega učenja in narediti procese, ki vodijo do odločitev, bolj razložljive/interpretabilne za ljudi. Zaradi različnih pravnih določb, kot je Splošna uredba o varstvu podatkov (GDPR), se zahteva, da so sistemi umetne inteligence ne le natančni, temveč tudi razložljivi/interpetabilni. To je še posebej pomembno v scenarijih, v katerih mora sistem UI sprejeti odločitev o identiteti osebe, pri čemer imajo lahko napačne odločitve večje posledice. V tem delu uporabljamo simbolične predstavitve za interpretacijo kodiranih informacij o obraznih atributih v obraznih predlogah, ki so lažje razumljive nestrokovnjakom na tem področju. Za dosego tega cilja uporabljamo dve strategiji. Kot prvo, uporabimo model CLIP za ustvarjanje opisov izluščenih obraznih predlog v naravnem jeziku. Obrazne predloge so sprva ustvarjene s CLIP-ovim kodirnikom slik, nato pa kot osnovo za pridobivanje obraznih predlog uporabimo najsodobnejša modela za razpoznavanje in analizo obrazov AdaFace in SwinFace. Generirane obrazne predloge pozneje interpretiramo s CLIP-ovim kodirnikom besedila. Razlike v teh arhitekturah nam omogočajo analizirati njihov vpliv na vsebino kodiranih informac Druga strategija vključuje uporabo modelov AdaFace in SwinFace kot osnove za binarne razvrščevalnike za napovedovanje prisotnosti obraznih atributov, kot so „Moški“, „Mlad“, „Privlačen“, „Rjavi_lasi“, „Nošenje_čepice“ itd., v izluščenih obraznih predlogah. S tem pristopom želimo kodirano informacijsko vsebino predstaviti z zelo osnovnimi simboličnimi predstavitvami. Poleg tega s tem pristopom primerjamo uspešnost modelov, ki temelijo na CLIP. Te različice modelov še uglašujemo (angl. fine-tune) in ovrednotimo z uporabo nabora podatkov VGGFace2 in anotiranih oznak atributov iz nabora podatkov MAADFace. Rezultati kažejo, da uglaševanje modela CLIP na specifični domenski nalogi izboljša njegovo zmožnost boljše predstavitve informacij, kodiranih v obraznih predlogah, in poravnave kodiranih besedilnih opisov. Poleg tega rezultati kažejo, da je SwinFace boljši od AdaFace pri klasifikacijskem pristopu na podlagi CLIP. To pomeni, da SwinFace boljše kodira informacije o atributih v pridobljenih obraznih predlogah. Vendar nobeden od modelov, ki temeljijo na CLIP, ni boljši od osnovnih razvrščevalnikov.

Ključne besede:Interpretabilna umetna inteligenca, simbolične predstavitve, obrazne predloge, prepoznavanje atributov, globoko učenje, procesiranje naravnega jezika, CLIP, AdaFace, SwinFace.

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj