Naraščajoča kvaliteta obrazov sintetiziranih z umetno inteligenco ogroža zanesljivost biometičnih sistemov za verifikacijo identitete. Sodobni generativni modeli zlahka ustvarijo izjemno prepričljive ponaredke, ki jih obstoječe detekcijske metode pogosto spregledajo. Med njimi so posebej nevarni t.i. napadi z zlivanjem obrazov oz. obrazne zlitine: z digitalnim spajanjem obrazov dveh ali več oseb v eno samo sliko lahko sistem za prepoznavanje obraza takšno sliko napačno pripiše več identitetam, kar odpira možnosti za zlorabo identitete in druge zlonamerne dejavnosti.
Večina obstoječih pristopov za zaznavanje teh napadov temelji na nadzorovanem učenju na omejenem naboru znanih tehnik zlivanja obrazov. Takšni modeli sicer učinkovito zaznajo napade, ustvarjene z istimi algoritmi kot so bili prisotni v učnem naboru, a se pogosto opirajo na artefakte, specifične za posamezno metodo, zato se slabo posplošijo na primere iz še nevidenih tehnik ali drugih domen. Nenadzorovani (enorazredni) pristopi se temu prekomernemu prileganju sicer izognejo, vendar jim pogosto primanjkuje občutljivosti za prefinjene, razpršene artefakte, značilne za visokokakovostne zlitine.
Kot odgovor na te izzive, je v tej nalogi predstavljeno ogrodje za zaznavanje tovrstnih obraznih ponaredkov. Uporablja samonadzorovano učenje na sintetično generiranih artefaktih. V jedru predlaganega modela je fuzijski mehanizem, ki združuje dva komplementarna informacijska toka: visokonivojske semantične značilke iz slikovno-jezikovnega modela ter natančne prostorske značilke iz visokoločljivostne konvolucijske mreže.
Semantična veja temelji na slikovno-jezikovnem modelu CLIP; LoRA-adaptacija prilagodi njegove slikovno-jezikovne vložitve nalogi zaznavanja ponaredkov ter omogoči razločevanje med pristnimi in manipuliranimi obrazi. Visokoločljivostna konvolucijska veja na osnovi HRNet ohranja podrobne prostorske informacije in združuje večrazločljivostne značilke za zajem subtilnih artefaktov. Pomožni segmentacijski modul usmerja učenje modela na ravni pikslov: razmejuje pristna obrazna območja od verjetno manipuliranih in s tem regularizira učenje. Fuzija globalnega konteksta semantične veje in lokalne občutljivosti konvolucijske veje tvori uravnoteženo, diskriminativno predstavitev za zaznavanje obraznih ponaredkov. Učenje poteka s sestavljeno kriterijsko funkcijo, ki hkrati optimizira slikovno-jezikovno uskladitev, skladnost segmentacije in klasifikacijsko točnost.
Na raznolikih evalvacijskih zbirkah predlagan pristop preseže rezultate najsodobnejših detektorjev, tako nadzorovanih kot nenadzorovanih. Doseže povprečni EER 0,85\%, pri čemer so izboljšave posebej izrazite pri visokokakovostnih napadih, ustvarjenih z naprednimi GAN- in difuzijskimi modeli, kar potrjuje odpornost na tehnike naslednje generacije.
|