Details

Morphing attack detection using multimodal large language models
ID Marić, Nikola (Author), ID Štruc, Vitomir (Mentor) More about this mentor... This link opens in a new window, ID Ivanovska Preskar, Marija (Comentor)

.pdfPDF - Presentation file, Download (4,23 MB)
MD5: 456AD806370B8FC0E6E24DA2C9161899

Abstract
Face morphing attacks pose a significant threat to biometric security systems by enabling multiple individuals to authenticate with a single compromised credential i.e., a morphed face image. This thesis investigates the use of multimodal large language models (MLLMs) for morphing attack detection, demonstrating that foundation models trained on large-scale, heterogeneous data possess latent forensic capabilities that can be adapted for specialized security tasks. We evaluate four open-source models in a zero-shot setting, including Gemma3 27B, Qwen2.5-VL 32B, Llama-4 Scout 17B, and Mistral Small 3.1 24B, across diverse datasets covering landmark-based, GAN-based, and diffusion-based morphing attacks. Even without task-specific training, these models achieve measurable detection performance, confirming that multimodal language models inherently encode useful representations. To improve zero-shot detection reliability, we developed a structured forensic prompt, which guides the models through a systematic six-step procedure for detecting visual artifacts created during the blending of facial images. This structured prompting approach enhances both detection accuracy and interpretability of the outputs. The primary contribution of the thesis lies in parameter-efficient fine-tuning through Low-Rank Adaptation (LoRA). Using only 0.61% of trainable parameters, we fine-tuned Gemma-3 12B. This fine-tuned model substantially outperformed its zero-shot counterpart, reducing the average Equal Error Rate by more than half. It achieved near-perfect detection on landmark-based morphs, competitive results on challenging GAN-based and diffusion-based morphs. Overall, this research establishes multimodal large language models as a viable and promising direction for morphing attack detection, combining generalization and interpretability with competitive performance against state-of-the-art approaches.

Language:English
Keywords:computer vision, deep learning, artificial intelligence, face analysis, morphing attack detection
Work type:Master's thesis/paper
Typology:2.09 - Master's Thesis
Organization:FE - Faculty of Electrical Engineering
Year:2025
PID:20.500.12556/RUL-171940 This link opens in a new window
COBISS.SI-ID:256762115 This link opens in a new window
Publication date in RUL:04.09.2025
Views:350
Downloads:108
Metadata:XML DC-XML DC-RDF
:
Copy citation
Share:Bookmark and Share

Secondary language

Language:Slovenian
Title:Uporaba večmodalnih velikih jezikovnih modelov za zaznavanje napadov zlivanja obrazov
Abstract:
Napadi zlitih obrazov (angl. face morphing attacks) predstavljajo resno grožnjo biometričnim varnostnim sistemom, saj omogočajo, da se z enim kompromitiranim poverilom, tj. obrazno sliko, overi več oseb. Čeprav obstoječe metode za zaznavanje napadov zlitih obrazov (MAD) kažejo obetavne rezultate,se soočajo z omejitvami pri posploševanju na različne tehnike zlivanja (angl. morphing techniques), pomanjkanja razložljivosti in odvisnosti od specializiranih učnih podatkov. V tej magistrski nalogi raziskujemo nov pristop, uporabo večmodalnih velikih jezikovnih modelov (MLLM) za zaznavanje napadov zlitih obrazov, pri čemer izhajamo iz domneve, da temeljni modeli, učeni na podatkih internetnega obsega (angl. internet-scale data), vsebujejo latentne forenzične analitične sposobnosti, ki jih je mogoče prilagoditi za specializirane varnostne naloge. Predstavljamo evalvacijo odprtokodnih večmodalnih velikih jezikovnih modelov za zaznavanje zlitih obrazov, pri čemer obravnavamo štiri najsodobnejše modele: Gemma-3 27B, Qwen2.5-VL 32B, Llama-4-Scout 17B in Mistral Small 3.1 24B. Z obsežnimi eksperimenti na sedmih različnih podatkovnih zbirkah, ki vključujejo metode za generiranje zlitih obrazov na osnovi značilnih točk, GAN modelov, ter z difuzijskimi metodami, pokažemo, da ti modeli dosegajo merljive zmožnosti zaznavanja tudi brez dodatne optimizacije prednaučenega modela. Naš pristop brez optimizacije prednaučenega modela (angl. zero-shot) je pokazal, da je Gemma-3 27B najučinkovitejši model, saj je dosegel povprečno enako stopnjo napake (EER) 32,09 %, z izjemnimi rezultati pri difuzijskih napadih (6,15 % EER na podatkovni zbirki Greedy-DiM). Za izboljšanje zaznavnih sposobnosti smo razvili strukturiran forenzični poziv (angl. prompt), ki večmodalne jezikovne modele vodi skozi sistematičen šeststopenjski postopek zaznavanja vizualnih artefaktov, nastalih kot posledica zlivanja obrazov. V vsaki stopnji model oceni prisotnost značilnih anomalij in jim dodeli oceno zaupanja na lestvici od 0 do 10.000, pri čemer višja vrednost pomeni večjo gotovost v zaznavo artefakta. Ta pristop načrtovanje pozivov (angl. prompt engineering) je v povprečju izboljšal točnost zaznavanja za 10.3 %, ter zagotovil razložljive, strukturirane izpise, ki pojasnjujejo utemeljitev vsake odločitve, s čimer se večmodalni jezikovni modeli preoblikujejo iz “črnih škatel” v pregledna forenzična orodja. Osrednji prispevek je uspešna prilagoditev splošnonamenskih večmodalnih jezikovnih modelov z učinkovitim učenjem parametrov. Z uporabo Low-Rank Adaptation (LoRA) in zgolj 0,61 % učljivih parametrov smo doučili model Gemma-3 12B na slikah sintetično zlitih obrazov, ki posnemajo napade zlitih obrazov. Rezultirajoči model je dosegel zelo dobre rezultate v različnih scenarijih ovrednotenja, v določenih kategorijah pa je celo presegel obstoječe najsodobnejše modele. Model smo preizkusili na več podatkovnih zbirkah, ki zajemajo različne tipe morfiranih obrazov, in pokazali, da doučeni model Gemma-3 12B-MAD dosega konkurenčno učinkovitost v primerjavi z obstoječimi pristopi. Rezultati kažejo, da dosežemo nižje stopnje napak kot klasične metode zaznavanja zlitih obrazov, pri čemer se prednost še poveča pri strožjih operativnih pragovih, kjer močno zmanjšamo število lažnih zavrnitev. Posebej izstopa uspešnost pri zaznavanju zlitih obrazov narejenih na osnovi značilnih točk, kjer na podatkovni zbirki FRLL dosegamo skoraj popolne rezultate. Ob primerjavi z metodami, ki se učijo na nenadzorovan ali samonadzorovan način, se naš pristop uvršča med najsodobnejše, saj zagotavlja stabilno in konkurenčno zaznavanje tudi v zahtevnejših primerih, kjer ohranja nizko stopnjo lažnih zavrnitev (BPCER). Poleg tega rezultati potrjujejo, da učinkovitost ne določa zgolj velikost uporabljenega modela, temveč predvsem ciljno učenje modela na specifično področje zaznavanja zlitih obrazov. Z vidika praktične uporabe ponuja doučeni model pomembne prednosti. Sistem omogoča do 30-kratno pohitritev inferenciranja v primerjavi z pristopom brez optimizacije prednaučenega modela (iz 30 sekund na manj kot 1 sekundo na sliko). Ta drastična optimizacija je posledica uporabe manjšega modela (12B namesto 27B), precej enostavnejšega poziva (angl. prompt), ki ne zahteva kompleksnega razmišljanja, in predvsem spremembe naloge iz generiranja besedila v klasifikacijo. Poleg tega sistem deluje na eni sami grafični kartici, kar ga naredi primernega za uporabo v realnih varnostnih okoljih. Raziskava dokazuje, da so večmodalni veliki jezikovni modeli učinkovit pristop za zaznavanje napadov zlitih obrazov ter da jih je mogoče uspešno doučiti za specializirane biometrične varnostne naloge, pri čemer dosegajo primerljivo učinkovitost z najsodobnejšimi metodami. Delo odpira nove poti za izkoriščanje predhodnega učenja na podatkih internetnega obsega v domeno varnostnih aplikacij, ter ponuja okvir za prilagajanje večmodalnih jezikovnih modelov tudi za druge izzive zaznavanja biometričnih napadov.

Keywords:računalniški vid, globoko učenje, umetna inteligenca, analiza obrazov, napadi zlitih obrazov

Similar documents

Similar works from RUL:
Similar works from other Slovenian collections:

Back