Napadi zlitih obrazov (angl. face morphing attacks) predstavljajo resno grožnjo biometričnim varnostnim sistemom, saj omogočajo, da se z enim kompromitiranim poverilom, tj. obrazno sliko, overi več oseb. Čeprav obstoječe metode za zaznavanje napadov zlitih obrazov (MAD) kažejo obetavne rezultate,se soočajo z omejitvami pri posploševanju na različne tehnike zlivanja (angl. morphing techniques), pomanjkanja razložljivosti in odvisnosti od specializiranih učnih podatkov. V tej magistrski nalogi raziskujemo nov pristop, uporabo večmodalnih velikih jezikovnih modelov (MLLM) za zaznavanje napadov zlitih obrazov, pri čemer izhajamo iz domneve, da temeljni modeli, učeni na podatkih internetnega obsega (angl. internet-scale data), vsebujejo latentne forenzične analitične sposobnosti, ki jih je mogoče prilagoditi za specializirane varnostne naloge.
Predstavljamo evalvacijo odprtokodnih večmodalnih velikih jezikovnih modelov za zaznavanje zlitih obrazov, pri čemer obravnavamo štiri najsodobnejše modele: Gemma-3 27B, Qwen2.5-VL 32B, Llama-4-Scout 17B in Mistral Small 3.1 24B. Z obsežnimi eksperimenti na sedmih različnih podatkovnih zbirkah, ki vključujejo metode za generiranje zlitih obrazov na osnovi značilnih točk, GAN modelov, ter z difuzijskimi metodami, pokažemo, da ti modeli dosegajo merljive zmožnosti zaznavanja tudi brez dodatne optimizacije prednaučenega modela. Naš pristop brez optimizacije prednaučenega modela (angl. zero-shot) je pokazal, da je Gemma-3 27B najučinkovitejši model, saj je dosegel povprečno enako stopnjo napake (EER) 32,09 %, z izjemnimi rezultati pri difuzijskih napadih (6,15 % EER na podatkovni zbirki Greedy-DiM).
Za izboljšanje zaznavnih sposobnosti smo razvili strukturiran forenzični poziv (angl. prompt), ki večmodalne jezikovne modele vodi skozi sistematičen šeststopenjski postopek zaznavanja vizualnih artefaktov, nastalih kot posledica zlivanja obrazov. V vsaki stopnji model oceni prisotnost značilnih anomalij in jim dodeli oceno zaupanja na lestvici od 0 do 10.000, pri čemer višja vrednost pomeni večjo gotovost v zaznavo artefakta. Ta pristop načrtovanje pozivov (angl. prompt engineering) je v povprečju izboljšal točnost zaznavanja za 10.3 %, ter zagotovil razložljive, strukturirane izpise, ki pojasnjujejo utemeljitev vsake odločitve, s čimer se večmodalni jezikovni modeli preoblikujejo iz “črnih škatel” v pregledna forenzična orodja.
Osrednji prispevek je uspešna prilagoditev splošnonamenskih večmodalnih jezikovnih modelov z učinkovitim učenjem parametrov. Z uporabo Low-Rank Adaptation (LoRA) in zgolj 0,61 % učljivih parametrov smo doučili model Gemma-3 12B na slikah sintetično zlitih obrazov, ki posnemajo napade zlitih obrazov. Rezultirajoči model je dosegel zelo dobre rezultate v različnih scenarijih ovrednotenja, v določenih kategorijah pa je celo presegel obstoječe najsodobnejše modele.
Model smo preizkusili na več podatkovnih zbirkah, ki zajemajo različne tipe morfiranih obrazov, in pokazali, da doučeni model Gemma-3 12B-MAD dosega konkurenčno učinkovitost v primerjavi z obstoječimi pristopi. Rezultati kažejo, da dosežemo nižje stopnje napak kot klasične metode zaznavanja zlitih obrazov, pri čemer se prednost še poveča pri strožjih operativnih pragovih, kjer močno zmanjšamo število lažnih zavrnitev. Posebej izstopa uspešnost pri zaznavanju zlitih obrazov narejenih na osnovi značilnih točk, kjer na podatkovni zbirki FRLL dosegamo skoraj popolne rezultate.
Ob primerjavi z metodami, ki se učijo na nenadzorovan ali samonadzorovan način, se naš pristop uvršča med najsodobnejše, saj zagotavlja stabilno in konkurenčno zaznavanje tudi v zahtevnejših primerih, kjer ohranja nizko stopnjo lažnih zavrnitev (BPCER). Poleg tega rezultati potrjujejo, da učinkovitost ne določa zgolj velikost uporabljenega modela, temveč predvsem ciljno učenje modela na specifično področje zaznavanja zlitih obrazov.
Z vidika praktične uporabe ponuja doučeni model pomembne prednosti. Sistem omogoča do 30-kratno pohitritev inferenciranja v primerjavi z pristopom brez optimizacije prednaučenega modela (iz 30 sekund na manj kot 1 sekundo na sliko). Ta drastična optimizacija je posledica uporabe manjšega modela (12B namesto 27B), precej enostavnejšega poziva (angl. prompt), ki ne zahteva kompleksnega razmišljanja, in predvsem spremembe naloge iz generiranja besedila v klasifikacijo. Poleg tega sistem deluje na eni sami grafični kartici, kar ga naredi primernega za uporabo v realnih varnostnih okoljih.
Raziskava dokazuje, da so večmodalni veliki jezikovni modeli učinkovit pristop za zaznavanje napadov zlitih obrazov ter da jih je mogoče uspešno doučiti za specializirane biometrične varnostne naloge, pri čemer dosegajo primerljivo učinkovitost z najsodobnejšimi metodami. Delo odpira nove poti za izkoriščanje predhodnega učenja na podatkih internetnega obsega v domeno varnostnih aplikacij, ter ponuja okvir za prilagajanje večmodalnih jezikovnih modelov tudi za druge izzive zaznavanja biometričnih napadov.
|