Segmentacija rok za obogateno resničnost

Vodopivec, Tadej

Segmentacija rok za obogateno resničnost
ID Vodopivec, Tadej (Avtor), ID Peer, Peter (Mentor) Več o mentorju... Povezava se odpre v novem oknu

, ID Lepetit, Vincent (Komentor)

PDF - Predstavitvena datoteka, prenos (20,02 MB)
MD5: 486145EC12C65C2B383DF75CB3A83EE3
PID: 20.500.12556/rul/1cca9349-50fb-432b-89e3-322dc15b92e8

Izvleček

Zaznavanje prekrivanj je pomemben del obogatene resničnosti, ker omogoča izris prepričljivih kompozicij resničnih in navideznih predmetov. Najtežji del izdelave takih kompozicij je zaznavanje kdaj resnični predmeti ležijo med uporabnikom in navideznim predmetom. Ker so roke pogosto v uporabnikovem vidnem polju, je pomembno, da se natančno določi njihovo pozicijo in kateri deli navideznih predmetov bi morali biti vidni. Razpoznavanje rok je zelo zahtevna naloga, saj so roke lahko različnih oblik in barv, lahko izgledajo zelo različno iz različnih vidnih kotov, imajo lahko odprto ali zaprto dlan in različne položaje prstov, so lahko delno prekrite in lahko oprijemajo različne predmete. Barva kože je ena izmed očitnejših lastnosti, a se v praksi izkaže, da ni dovolj zanesljiva, saj obstaja veliko predmetov podobne barve in tudi barva na sliki, zaradi različnih svetlobnih pogojev in ne-optimalne nastavitve beline ni vedno zanesljiva. Kot se izkaže, se pri naši množici slik ta metoda izkaže celo slabše kot metoda večinskega razreda. Podobne metode uporabljajo kamere z detekcijo globine, so uporabne le v kontroliranem okolju z več predpostavkami na katere v resničnem svetu ne moremo računati, ali zaznajo samo položaj roke, ne pa tudi njenih robov. V tej nalogi je opisana metoda za segmentacijo rok na osnovi konvolucijske nevronske mreže. S to metodo smo na slikah, posnetih iz prvo-osebnega pogleda, natančno in učinkovito zaznali področje, kjer roke zasedajo del vidnega polja. Slike zajemajo različne okoliščine znotraj stavbe in izven nje, a največji poudarek je na pisarniškem okolju. Pričakujemo, da bo ta metoda najbolj uporabna na področju obogatene resničnosti, kjer uporabnik nosi sistem za navidezno resničnost na osnovi očal in z resničnim svetom upravlja z rokami, ki jih vidi direktno skozi delno prosojna očala, ali kot sliko zajeto s kamero. Metoda uporablja konvolucijske nevronske mreže, ki so različica umetnih nevronskih mrež, prilagojena za delo s slikami. Umetne nevronske mreže so simulirana mreža nevronov po vzoru možganov in se uporablja za izračunavanje funkcij, ki so odvisne od velikega števila vhodnih podatkov. Mreže so sestavljene iz logičnih nevronov, ki so med seboj povezani in si izmenjujejo informacije. Nevroni so razporejeni v plasti, kjer je vsak nevron v neki plasti povezan z vsakim nevronom v predhodni plasti. Na prvi plasti se vnesejo vhodni podatki, na zadnji plasti se razberejo izhodni podatki, vmesne plasti so pa skrite. Informacije potujejo samo v eno smer in to od vhodne plasti proti izhodni. Ko podajamo število plasti, po navadi štejemo vse plasti razen vhodne. Tako mreža z eno plastjo predstavlja izhodno plast povezano z vhodno plastjo, brez vmesnih skritih plasti, mreža z dvema plastema pa vsebuje vhodno plast, eno skrito plast in eno izhodno plast. Izhod nevrona predstavlja vrednost, ki se izračuna kot utežena vsota njegovih vhodov in dodano konstanto. Uteži vsake povezave in konstante je mogoče prilagoditi in s tem naučiti nove odvisnosti. Velikost mreže se po navadi opiše s številom nevronov ali številom parametrov. Konvolucijske nevronske mreže so prilagojene za delo s slikami in izkoriščajo nekatere lastnosti slik, kot na primer dejstvo, da je slikovna točka sestavljena iz treh barv, in s tem omogočajo učinkovitejše računanje. Delujejo tako, da na vsaki plasti izračunajo zemljevide značilnosti, iz katerih lahko na zadnji plasti razberemo rezultat. Vsaka točka na zemljevidu značilnosti se izračuna na podlagi vrednosti točk v njeni okolici na prejšnji plasti, na vseh zemljevidih značilnosti. Za potrebe učenja nevronske mreže smo posneli množico slik. Za vsako sliko v množici smo pripravili željen pravilen rezultat segmentacije tako, da smo ročno označili posamezne slikovne točke, ki na sliki predstavljajo del rok. Skupno smo posneli in označili 348 slik, od katerih je bilo 191 posnetih v pisarniškem okolju in 157 pri vsakodnevnih opravilih. Slike so bile posnete na 6 različnih lokacijah pri različnih svetlobnih pogojih. Metoda, ki smo jo razvili, je sestavljena iz dvostopenjskega klasifikatorja, kjer se na prvi stopnji izvede groba segmentacija pri nizki resoluciji, na drugi stopnji pa se s pomočjo rezultata prve stopnje izvede končna segmentacija pri polni resoluciji. Pri obeh stopnjah se sliki dodata tudi njeni kopiji polovične in četrtinske resolucije in za vsako od treh resolucij je zgrajena konvolucijska mreža iz treh konvolucijskih plasti. Rezultat zadnje plasti vsake izmed treh resolucij je nato vhodni podatek ene popolnoma povezane regresijske plasti, ki vrne končni rezultat. Razlika med stopnjama je v tem, da prva stopnja dela s sliko s četrtino resolucije originalne slike, druga stopnja pa deluje s sliko na polni resoluciji. Druga stopnja ima poleg originalne slike na razpolago tudi povečan rezultat prve stopnje. Za tako razdelitev smo se odločili, saj je na ta način mogoče pri nižji resoluciji izračunati več zemljevidov značilnosti in tako zaznati kompleksnejše odvisnosti. Učenje mreže se izvaja s pomočjo učne in testne množice. S pomočjo učne množice se določijo uteži in konstante na nevronih, namen testne množice je pa preveriti ali so te vrednosti specifične samo za uporabljene učne primere, ali so zaključki enaki tudi pri še ne videnih primerih. Postopek se večkrat ponovi in vsakič popravi vrednosti uteži in konstant. Učenje se ponavlja dokler je mogoče najti kombinacije vrednosti uteži in konstant, ki omogočajo boljše rezultate. Končna metoda je sposobna z visoko zanesljivostjo v realnem času določiti območje rok v pogojih, ki so podobni pogojem na slikah iz naše množice. S pomočjo večje in raznolikejše množice slik bi bilo mogoče rezultate dodatno izboljšati in klasifikator natrenirati za uporabo v še več različnih okoljih.

Jezik:	Angleški jezik
Ključne besede:	segmentacija, obogatena resničnost, konvolucijske nevronske mreže, računalniški vid, zaznavanje rok.
Vrsta gradiva:	Magistrsko delo/naloga
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2016
PID:	20.500.12556/RUL-83725
Datum objave v RUL:	24.06.2016
Število ogledov:	2179
Število prenosov:	409
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Slovenski jezik
Naslov:	Hand Segmentation for Augmented Reality
Occlusion detection is a very important part of augmented reality because it allows us to render convincing compositions of real and virtual objects. The hardest part of creating such composition is to detect when real objects lie between the user and the virtual object. Because hands are often in our field of view, it is important to accurately detect their position to determine which parts of the virtual objects should be visible. In this paper we describe a method for hand segmentation based on a convolutional neural network. With this method we were able to efficiently and accurately detect the area where the hands were directly visible in a set of first-person view images. The images ranged from outdoors to an office-like environment. We expect the method to make the biggest impact in the field of augmented reality, where the user wears glasses-based AR system and interacts with the world with his hands.
Ključne besede:	segmentation, augmented reality, convolutional neural networks, computer vision, hand detection.

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj