Iris Segmentation with Multi-task Learning

KREHO, ADNAN

Iris Segmentation with Multi-task Learning
ID KREHO, ADNAN (Avtor), ID Štruc, Vitomir (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (9,59 MB)
MD5: 003BA2060B685AA68C0736E00310A33C

Izvleček

Ocular biometrics are heavily utilized today, especially in security systems. There are multiple ocular features that can be used for efficient recognition and identification: from the iris to the periocular region. In this thesis, we adress the problem of iris segmentation, which is the first step of an iris recognition system that affects the performance of all downstream tasks. We design a novel approach that utilizes multi-task learning in order to build a robust model capable of segmenting the iris area from a gray-scale image. Specifically, the developed models aim at simultaneously segmenting the iris area and at performing image colorization of the input gray-scale ocular image. By learning to solve these tasks jointly, the model leverages task correlations and domain-specific knowledge to improve performance of both tasks. We consider two architectures in our experiments, UNet and UNet2, which are similar in structure. However, UNet2 has half the number of feature channels in every convolutional layer except the last one. Because of this, UNet2 has a significantly lower number of trainable parameters. We experiment with two models to test which architecture is more efficient with respect to the iris segmentation task, and which is faster to train. Also, for multi-task learning, we test how different sets of loss weights affect the quality of iris segmentation. The models are trained, evaluated and tested on the MOBIUS and UBIRIS.v2 datasets. The developed models are also compared to the IrisParseNet networks trained on UBIRIS.v2 and MICHE datasets. We note at this point that the IrisParseNet networks are the current state-of-the-art in solving the iris segmentation task. Based on the evaluation results we conclude that models utilizing multi-task learning perform better than models utilizing the single-task learning approach. We also show that models, that use a higher loss weight for the iris segmentation task, prove to be better-performing, which is expected given that most of the attention during training is given to the iris segmentation task. Additionally, our models perform better than the IrisParseNet models in most of our experiments. The observed results are very encouraging for future work on this topic, and point to multi-task learning as the go-to approach for solving the iris segmentation task.

Jezik:	Angleški jezik
Ključne besede:	iris segmentation, image colorization, multi-task learning, UNet architecture
Vrsta gradiva:	Magistrsko delo/naloga
Organizacija:	FE - Fakulteta za elektrotehniko
Leto izida:	2021
PID:	20.500.12556/RUL-132753
COBISS.SI-ID:	83104515
Datum objave v RUL:	02.11.2021
Število ogledov:	847
Število prenosov:	141
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Slovenski jezik
Naslov:	Segmentacija očesne šarenice z večopravilnim učenjem
Z napredkom tehnologije se vse bolj pogosto soočamo z vprašanji varnosti in zasebnosti. Preprosto odklepanje pametnega telefona, verodostojnost identifikacijskih dokumentov, dvig denarja z bankomata in zaščita osebne identitete so le nekatera izmed področij, kjer je ključno zagotoviti verodostojne, učinkovite in predvsem varne mehanizme za istovetenje posameznikov. V ta namen se danes veliko pozornosti namenja področju biometričnega razpoznavanja oseb, ki lahko na podlagi različnih biometrični lastnosti, kot so prstni odtis, glas, obraz, oko, itd. zagotovi učinkovito računalniško podprto istovetenj posameznikov. V pričujočem magistrskem delu se posvetimo problemom, povezanim s področjem biometrije, pri čemer se osredotočimo na postopke povezane z razpoznavanjem šarenice. Šarenica ima relativno preprosto funkcijo. Deluje kot diafragma za zenico, kar ji omogoča krčenje ali širjenje, pri čemer nadzoruje količino svetlobe, ki vstopa v oko. Z vidika biometrije pa je šarenica pomemben del očesa. Šarenica je zelo bogata s podrobnostmi in teksturo in zato predstavlja bogat vir informacij za razpoznavanje oseb. Sčasoma je bilo razvitih več algoritmov za razpoznavanje šarenice, za vse pa je ključnega pomena, da je slika očesa pravilno posneta in da je šarenica pravilno segmentirana. Zaradi tega se raziskovalci nenehno trudijo izboljšati učinkovitost algoritmov za segmentacijo šarenice. Obstaja veliko različnih pristopov: od zgodnjih prizadevanj z integro-diferencialnim operaterjem, Houghove transformacije in aktivnih kontur, do sodobnejših pristopov s konvolucijskimi nevronskimi omrežji. Pri večini teh metod se uporabljajo slike posnete z bližnje infrardečimi kamerami. Bližnje infrardeče kamere lahko zajamejo le svetlobo valovne dolžine v razponu od 0.7 - 1,6 μm, kar je izven območja, ki ga zaznavajo ljudje. Razlog za uporabo bližnje infrardečih slik za razpoznavanje šarenice je ta, da so slike, zajete v infrardečem spektru, osredotočene na teksturo šarenice in ne na pigmentacijo. Zato se učinki okluzije, odboja in zamegljenosti bistveno zmanjšajo v primerjavi s slikami, zajetimi v vidnem spektru. Tudi odtenek teksture temno obarvanih šarenic je bolje opaziti v bližnje infrardečem spektru. Zaradi tega je lažje in učinkoviteje izvesti segmentacijo šarenice na bližnje infrardečih slikah kot na slikah vidnega spektra. Vendar pa se v zadnjih letih zaradi različnih razlogov vse več pozornosti posveča segmentaciji šarenice na slikah vidnega spektra. Prvi pomemben razlog je, da senzorji bližnje infrardečega spektra ne morejo dobro ujeti šarenice na daljavo in bi bilo zato nemogoče pridobiti informacije o šarenici neposredno iz nadzornih kamer, ki delujejo v vidnem spektru. Drugi razlog je, da slike vidnega spektra ponujajo več informacij o pigmentaciji šarenice in periokularnem območju, ki jih je mogoče uporabiti za boljše razpoznavanje, še posebej, če šarenice ni mogoče pravilno zajeti. Zaradi zgoraj naštetih razlogov, v tem magistrskem delu predlagamo novo metodo segmentacije šarenice, ki temelji na globokem učenju in deluje na slikah, zajetih v vidnem spektru. V okviru našega dela razvijemo nov pristop, ki uporablja večopravilno učenje za izgradnjo robustnega modela, ki je sposoben segmentirati šarenico iz sivinskih slik posnetih s kamerami vidnega spektra. Večopravilno učenje se obravnava kot način za izboljšanje učinkovitosti enoopravilnega učenja, tako da model hkrati učimo na več podobnih nalogah. Tako lahko naloge med seboj delijo informacije, ki se lahko izkoriščajo za izboljšanje učinkovitosti vseh upoštevanih nalog. V magistrskem delu združujemo naloge segmentacije šarenice in barvanja slike v proces večopravilnega učenja, s poudarkom na segmentaciji šarenice. Barvanje slik je proces, v katerem moramo predvideti barvne slike iz sivinskih slik, tako da se barve čim bolj prilegajo resničnemu stanju. V delu tako učimo nevronske modele, ki na vhodu sprejemajo enokanalne sivinske slike človeškega očesa, na izhodu pa generirajo štiri kanale, ki predstavljajo segmentacijsko masko ter barvne kanale B, G in R barvnega prostora RGB. Da bi preverili, kakšen vpliv imajo posamezne naloge na kakovost segmentacije očesne šarenice, udejanimo tri različne modele, ki temeljijo na treh različnih kriterijih učenja. Kot arhitekturo modelov, uporabljamo konvolucijsko nevronsko mrežo UNet. Ta arhitektura daje dobre rezultate pri nalogah segmentacije slike na različnih področjih uporabe. Poleg tega uporabljamo arhitekturo, ki je podobna arhitekturi UNet, vendar je število konvolucijskih filtrov v vseh konvolucijskih plasteh, razen v zadnji, prepolovljeno. To arhitekturo v magistrskem delu naslavljamo z imenom UNet2. UNet2 ima bistveno manj parametrov za učenje v primerjavi z UNet arhitekturo. Cilj uporabe arhitekture UNet2 pa je preizkusiti, kako manjše število parametrov vpliva na učinkovitost in čas učenja. Da bi primerjali večopravilne modele z enoopravilnimi modeli, naučimo še enoopravilne modele, ki za vhodno sivinsko sliko človeškega očesa, na izhodu podajajo samo segmentacijsko masko. Tudi v tem primeru uporabimo arhitekturi UNet in UNet2. Nevronska omrežja so učena in preizkušena na podatkovnih zbirkah MOBIUS in UBIRIS.v2. Zbirka MOBIUS vsebuje 3542 slik, zbirka UBIRIS.v2 pa 2250 slik. Iz vsake zbirke se 64 % slik uporabi za učenje, 20 % za preizkušanje in 16 % za nadzor nad postopkom učenja. Poleg izbranih 20 % slik za preizkušanje, za testiranje robustnosti modela, iz slikovne zbirke, ki ni bila uporabljena za učenje, vzamemo še dodatnih 500 naključno izbranih slik. Teh dodatnih 500 slik uporabimo za preizkus dveh referenčnih modelov IrisParseNet, naučenih na UBIRIS.v2 in MICHE podatkovnih zbirkah. Te rezultate uporabimo za primerjavo naših modelov z modeloma IrisParseNet, ki predstavljata najsodobnejša pristopa reševanja naloge segmentacije šarenice. Pri ocenjevanju modelov med učenjem uporabljamo natančnost in povprečni presek nad unijo (IoU) pri pragu 0.5, med preizkušanjem pa natančnost, priklic, mero F1 ter povprečni presek nad unijo (IoU). Na podlagi rezultatov lahko zaključimo, da modeli, naučeni z večopravilnim učenjem, delujejo boljše, kot modeli naučeni z enoopravilnim učenjem. Pokažemo tudi, da modeli pri katerih izguba naloge segmentacije šarenice najbolj prispeva k celotni izgubi modela, dosegajo boljše rezultate. Razviti modeli se v večini primerov odrežejo bolje kot IrisParseNet, kar predstavlja vzpodbudne rezultate za nadaljnje raziskovanje. Magistrsko delo je organizirano na naslednji način: v prvem poglavju predstavljamo motivacijo za magistrsko nalogo, njene cilje in strukturo. V drugem poglavju pregledamo relevantna dela v zvezi z očesno biometrijo in segmentacijo šarenice, obarvanjem slike in večopravilnim učenjem. Poglavje 3 služi kot teoretični uvod v umetna nevronska omrežja, konvolucijske nevronske mreže in nekatere rešitve, ki se uporabljajo pri nalogah segmentacije slik s poudarkom na arhitekturi UNet. V četrtem poglavju podrobno opišemo našo rešitev, od uporabljenih arhitektur, aktivacijskih funkcij, funkcij izgube itd. V petem poglavju opišemo dva nabora slik, ki se uporabljata za učenje, potrjevanje in testiranje, predstavimo uporabljene meritve vrednotenja ter strojno in programsko opremo, ki se uporablja za učenje modelov. Na koncu predstavimo še rezultate, jih primerjamo z rezultati modelov IrisParseNet in podamo pripadajoče komentarje. V zadnjem poglavju še enkrat na kratko povzamemo magistrsko delo in naredimo končni zaključek. Predlagamo tudi nekaj možnih prihodnjih iztočnic za prihodnje delo na tem področju.
Ključne besede:	segmentacija šarenice, obarvanje slik, večopravilno učenje, UNet arhitektura

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj