Generativna nevronska omrežja in njihova zmožnost samostojnega ustvarjanja vsebin (slik, zvoka, besedil) na osnovi naučenih vzorcev iz obsežnih naborov učnih podatkov je ena izmed najbolj aktualnih tematik na področju umetne inteligence. Zadnjih nekaj let je posebno veliko pozornosti prejelo področje generiranja slik na podlagi opisov, kjer so v hitrem razvoju čedalje bolj zmogljivi algoritmi, ki so sposobni generirati vse bolj prepričljive, celo fotorealistične slike. Z razvojem novih tehnologij se ravno tako vzbudi zanimanje za praktično uporabo le-teh na različnih področjih, med katerimi je tudi modna industrija, ki teži proti individualizirani uporabniški izkušnji pri nakupovanju, prav tako pa je možnost modnega oblikovanja ob pomoči umetne inteligence vse bolj zanimiva tematika.
Trenutno večina obstoječih aplikacij generiranja oblačil temelji na tem, da na podlagi opisa generiramo oblačila skupaj z modelom, ki jih nosi, kar vodi do številnih težav. Prva, morebiti najbolj moteča napaka, je to, da niti najbolj zmogljiva nevronska omrežja niso popolnoma uspešna pri generiranju človeških obrazov, opazovalci pa smo ravno nanje najbolj občutljivi; tudi zelo majhna popačenja in nepravilnosti, ki bi bila komaj opazna pri drugih upodobitvah, lahko vodijo do neprijetnih, nerealističnih obrazov, ki bistveno pokvarijo vtis slike kot celote. Generiranje slik ljudi je po drugi strani nekoliko sporna tema, ker lahko nastale podobe spominjajo na resnične osebe, ki niso privolile k takšni upodobitvi, kar omogoča tudi zlorabo te tehnologije. Težava, ki je vezana specifično na področje modnih slik pa je to, da pri naključno generiranih osebah uporabnik oz. stranka ne prejme informacije, kako bodo zamišljena oblačila izgledala na njej, kar pa je eden izmed kjučnih kriterijev, po katerih si posamezniki izbirajo oblačila. Posledica tega je tudi vpliv modne industrije na okolje: zavržena in neprodana oblačila predstavljajo velik vir svetovnih odpadkov, ki si ga danes številni prizadevajo vsaj delno odpraviti.
S predlagano aplikacijo, predstavljeno v tej nalogi, se lotevamo opisanih težav tako, da na obstoječi sliki človeškega modela spremenimo le oblačila, ki jih ta nosi, vse ostalo pa ohranimo enako, kot je bilo na izvirni sliki. S tem združujemo tehnično zmogljivost modela Stable Diffusion, globokega generativnega nevronskega omrežja, ki spada v skupino difuzijskih modelov, s konceptom virtualnega pomerjanja oblačil, ki ga je populariziralo spletno nakupovanje. To je doseženo s pomočjo maskiranja določenih regij na slik, ki jih generativno nevronsko omrežje nato »zapolni« z želeno vsebino, pri čemer skuša ohraniti enovit videz končne slike (princip »vrisovanja« - angl. inpainting). Predlagani algoritem je sestavljen iz večih faz; priprave vhodnih podatkov, zaznave in segmentacije človeškega telesa na sliki, ustvarjanja mask, generiranja nove slike z upoštevanjem prostorskih in vsebinskih omejitev, in končno urejanja in izboljševanja izhodnih podatkov. Slednje vključuje popravljanje obraza osebe na originalni sliki, saj lahko kljub maskiranju pride do manjših popačenj, ki so na območju obraza izredno opazna.
Delovanje algoritma smo preizkusili s slikami iz dveh različnih naborov podatkov, med katerima imajo slike, ki izvirajo iz prvega, vse razmeroma enakomerno ozadje, isto osvetlitev, velikost, itd., drugo zbirko pa sestavljajo fotografije, pridobljene z različnih dogodkov in okoliščin, zaradi česar se bistveno bolj medsebojno razlikujejo. Rezultate smo ocenjevali na več načinov. Ker je človeški odziv na generirane slike verjetno ena izmed najbolj ključnih meril uspešnosti tovrstnega modela aplikacije, smo v prvi vrsti izvedli kvalitativno analizo rezultatov, kjer prikažemo bolj in manj uspešne generirane slike, in poskušamo prepoznati vzorce, ki vodijo do poglavitnih vzrokov za opažano kvaliteto posamezne slike. Za temeljit pregled smo izvedli vrsto eksperimentov, kjer opazujemo vpliv velikosti maske na sliko, spremenljivost rezulatov, vpliv drugih ljudi v ozadju, itd.
Prav tako delo vključuje manjšo uporabniško študijo, kjer so anketiranci ocenjevali slike glede na to, kako realističen je njihov videz, in do kakšne mere je vhodni podatek, opis ciljnih oblačil, skladen z ustvarjeno sliko. Glede na zbrane rezultate študije smo uspeli generirati rezultate, ki se relativno dobro skladajo z izvirnim opisom in so razmeroma realistične, kljub raznolikosti kvalitete vhodnih slik in zahtevnosti opisov željenih oblačil. Pridobljene rezultate primerjamo tudi s podobnim preteklim delom, kjer ugotavljamo, da so naši rezultati bistveno bolj realistični in skladni z vnesenimi opisi.
Težave, na katere smo naleteli, se lahko pojavijo v različnjih stopnjah opisanega procesa; ker je ustrezna maska ključnega pomena za delovanje aplikacije, ob neustrezni segmentaciji telesa, preveliki ali premajhni maski ali izbiri vhodne slike, ki ni povsem združljiva z zasnovanim programom, nastali rezultati odstopajo od želenih, pogosto v smislu premajhnega upoštevanja opisa oblačil, ki jih je uporabnik želel generirati. Prav tako se lahko pojavijo odstopanja zaradi težav z ustreznim razumevanjem besedila; model namreč običajno slabo loči lastnosti posameznega kosa oblačil, če besedilo predstavlja opis kombinacije različnih kosov. Nekoliko redkeje pa se pojavi težava, da posamezne besede niso ustrezno zastopane v učni množici modela za pravilno generiranje nekaterih lastnosti. Nazadnje se je potrebno zavedati tudi tega, da lahko pri uporabi kakršnega koli generativnega modela občasno naletimo na nepričakovane rezultate. Vsekakor je priporočljivo za vsako kombinacijo vhodnih podatkov generirati več slik in naknadno izbrati najboljšo. V splošnem menimo, da je predstavljen algoritem zmogljiva in robustna rešitev, zmožna generiranja izjemno raznolikih oblačil z zadostno ohranitvijo človeškega modela in ozadja slike, tudi če je to kompleksno (t.j. posneto izven studija). Ker je rezultat našega pristopa aplikacija, ki zahteva manj uporabnikove predpriprave in hkrati omogoča, da uporabnik pri izbiri vhodnega besedila razmeroma prosto uporablja lastno domišljijo, menimo, da je nastali model primeren za uporabo tako modnih oblikovalcev kot naročnikov po meri izdelanih oblačil, kot orodje za lažjo predstavitev raznolikih idej v procesu oblikovanja oblačil, prav tako pa za hitro preizkušanje in primerjanje različnih oblačil, tudi če ta še niso bila izdelana.
|