Fashion Image Editing Through Text Descriptions

Stopar, Julija

Fashion Image Editing Through Text Descriptions
ID Stopar, Julija (Author), ID Štruc, Vitomir (Mentor) More about this mentor... This link opens in a new window

, ID Omachi, Shinichiro (Comentor)

PDF - Presentation file, Download (7,22 MB)
MD5: 7D6D25487149CADEC53FD6533BD16689

Abstract

As the performance of text-to-image generative neural networks keeps improving, much attention has been paid to potential uses of this technology. One industry that currently has great interest in innovations through artificial intelligence is the fashion industry. However, applications with more practical useability and an ability to provide assistance to creatives rather than threatening to replace them need to be designed carefully and include imposing additional constraints to out-of-the-box generative models. In addition to that, special care must be taken when designing applications that include depictions of people, as this raises a number of ethical as well as purely technical and aesthetic concerns due to the complexity of this task. For these reasons, we choose to instead combine the capabilities of Stable Diffusion, a diffusion probabilistic model capable of generating highly convincing images based on textual descriptions, with the principle of virtual try-on, a practice popularized in e-commerce which aims to realistically edit input images of people by changing the clothes they are wearing while preserving the rest of the image, most importantly the wearer. This thesis presents a possible implementation of a text-to-image generating pipeline, which provides the user with a photorealistic depiction of clothing, described in text, worn by the model whose image was provided as an input into the system, by editing only certain regions of an image using an inpainting technique. We design a robust framework, where in-the-wild images are also supported, capable of generating a wide range of clothing types with varying styles and silhouettes, which allows for creative use by designers and potential fashion customers alike. A key contribution of our approach is also that the end user does not have to provide additional input data (such as a mask, pose information, etc.) aside from the input image and textual description, written in natural language, as the area to be modified is determined automatically through human body segmentation using the DensePose algorithm. We display and comment on a large number of successful and less successful instances of produced images, identify the strengths and limitations of our approach, present the results of an anonymous survey that aims to evaluate the generated images using public perception, and compare our results to those obtained by a similar application developed prior to ours both qualitatively and quantitatively using a CLIP score. Although the findings of our experimentation are generally encouraging and the performance of the model is fairly consistent in terms of text-image alignment and the perceived realism of the generated images, we finally reflect on possible improvements to the application based on the common errors discovered through observing the results.

Language:	English
Keywords:	diffusion models, text-to-image generation, human body segmentation, inpainting, virtual try-on
Work type:	Master's thesis/paper
Organization:	FE - Faculty of Electrical Engineering
Year:	2023
PID:	20.500.12556/RUL-151240
COBISS.SI-ID:	169853955
Publication date in RUL:	02.10.2023
Views:	879
Downloads:	118
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	Slovenian
Title:	Urejanje modnih slik z jezikovnimi opisi
Generativna nevronska omrežja in njihova zmožnost samostojnega ustvarjanja vsebin (slik, zvoka, besedil) na osnovi naučenih vzorcev iz obsežnih naborov učnih podatkov je ena izmed najbolj aktualnih tematik na področju umetne inteligence. Zadnjih nekaj let je posebno veliko pozornosti prejelo področje generiranja slik na podlagi opisov, kjer so v hitrem razvoju čedalje bolj zmogljivi algoritmi, ki so sposobni generirati vse bolj prepričljive, celo fotorealistične slike. Z razvojem novih tehnologij se ravno tako vzbudi zanimanje za praktično uporabo le-teh na različnih področjih, med katerimi je tudi modna industrija, ki teži proti individualizirani uporabniški izkušnji pri nakupovanju, prav tako pa je možnost modnega oblikovanja ob pomoči umetne inteligence vse bolj zanimiva tematika. Trenutno večina obstoječih aplikacij generiranja oblačil temelji na tem, da na podlagi opisa generiramo oblačila skupaj z modelom, ki jih nosi, kar vodi do številnih težav. Prva, morebiti najbolj moteča napaka, je to, da niti najbolj zmogljiva nevronska omrežja niso popolnoma uspešna pri generiranju človeških obrazov, opazovalci pa smo ravno nanje najbolj občutljivi; tudi zelo majhna popačenja in nepravilnosti, ki bi bila komaj opazna pri drugih upodobitvah, lahko vodijo do neprijetnih, nerealističnih obrazov, ki bistveno pokvarijo vtis slike kot celote. Generiranje slik ljudi je po drugi strani nekoliko sporna tema, ker lahko nastale podobe spominjajo na resnične osebe, ki niso privolile k takšni upodobitvi, kar omogoča tudi zlorabo te tehnologije. Težava, ki je vezana specifično na področje modnih slik pa je to, da pri naključno generiranih osebah uporabnik oz. stranka ne prejme informacije, kako bodo zamišljena oblačila izgledala na njej, kar pa je eden izmed kjučnih kriterijev, po katerih si posamezniki izbirajo oblačila. Posledica tega je tudi vpliv modne industrije na okolje: zavržena in neprodana oblačila predstavljajo velik vir svetovnih odpadkov, ki si ga danes številni prizadevajo vsaj delno odpraviti. S predlagano aplikacijo, predstavljeno v tej nalogi, se lotevamo opisanih težav tako, da na obstoječi sliki človeškega modela spremenimo le oblačila, ki jih ta nosi, vse ostalo pa ohranimo enako, kot je bilo na izvirni sliki. S tem združujemo tehnično zmogljivost modela Stable Diffusion, globokega generativnega nevronskega omrežja, ki spada v skupino difuzijskih modelov, s konceptom virtualnega pomerjanja oblačil, ki ga je populariziralo spletno nakupovanje. To je doseženo s pomočjo maskiranja določenih regij na slik, ki jih generativno nevronsko omrežje nato »zapolni« z želeno vsebino, pri čemer skuša ohraniti enovit videz končne slike (princip »vrisovanja« - angl. inpainting). Predlagani algoritem je sestavljen iz večih faz; priprave vhodnih podatkov, zaznave in segmentacije človeškega telesa na sliki, ustvarjanja mask, generiranja nove slike z upoštevanjem prostorskih in vsebinskih omejitev, in končno urejanja in izboljševanja izhodnih podatkov. Slednje vključuje popravljanje obraza osebe na originalni sliki, saj lahko kljub maskiranju pride do manjših popačenj, ki so na območju obraza izredno opazna. Delovanje algoritma smo preizkusili s slikami iz dveh različnih naborov podatkov, med katerima imajo slike, ki izvirajo iz prvega, vse razmeroma enakomerno ozadje, isto osvetlitev, velikost, itd., drugo zbirko pa sestavljajo fotografije, pridobljene z različnih dogodkov in okoliščin, zaradi česar se bistveno bolj medsebojno razlikujejo. Rezultate smo ocenjevali na več načinov. Ker je človeški odziv na generirane slike verjetno ena izmed najbolj ključnih meril uspešnosti tovrstnega modela aplikacije, smo v prvi vrsti izvedli kvalitativno analizo rezultatov, kjer prikažemo bolj in manj uspešne generirane slike, in poskušamo prepoznati vzorce, ki vodijo do poglavitnih vzrokov za opažano kvaliteto posamezne slike. Za temeljit pregled smo izvedli vrsto eksperimentov, kjer opazujemo vpliv velikosti maske na sliko, spremenljivost rezulatov, vpliv drugih ljudi v ozadju, itd. Prav tako delo vključuje manjšo uporabniško študijo, kjer so anketiranci ocenjevali slike glede na to, kako realističen je njihov videz, in do kakšne mere je vhodni podatek, opis ciljnih oblačil, skladen z ustvarjeno sliko. Glede na zbrane rezultate študije smo uspeli generirati rezultate, ki se relativno dobro skladajo z izvirnim opisom in so razmeroma realistične, kljub raznolikosti kvalitete vhodnih slik in zahtevnosti opisov željenih oblačil. Pridobljene rezultate primerjamo tudi s podobnim preteklim delom, kjer ugotavljamo, da so naši rezultati bistveno bolj realistični in skladni z vnesenimi opisi. Težave, na katere smo naleteli, se lahko pojavijo v različnjih stopnjah opisanega procesa; ker je ustrezna maska ključnega pomena za delovanje aplikacije, ob neustrezni segmentaciji telesa, preveliki ali premajhni maski ali izbiri vhodne slike, ki ni povsem združljiva z zasnovanim programom, nastali rezultati odstopajo od želenih, pogosto v smislu premajhnega upoštevanja opisa oblačil, ki jih je uporabnik želel generirati. Prav tako se lahko pojavijo odstopanja zaradi težav z ustreznim razumevanjem besedila; model namreč običajno slabo loči lastnosti posameznega kosa oblačil, če besedilo predstavlja opis kombinacije različnih kosov. Nekoliko redkeje pa se pojavi težava, da posamezne besede niso ustrezno zastopane v učni množici modela za pravilno generiranje nekaterih lastnosti. Nazadnje se je potrebno zavedati tudi tega, da lahko pri uporabi kakršnega koli generativnega modela občasno naletimo na nepričakovane rezultate. Vsekakor je priporočljivo za vsako kombinacijo vhodnih podatkov generirati več slik in naknadno izbrati najboljšo. V splošnem menimo, da je predstavljen algoritem zmogljiva in robustna rešitev, zmožna generiranja izjemno raznolikih oblačil z zadostno ohranitvijo človeškega modela in ozadja slike, tudi če je to kompleksno (t.j. posneto izven studija). Ker je rezultat našega pristopa aplikacija, ki zahteva manj uporabnikove predpriprave in hkrati omogoča, da uporabnik pri izbiri vhodnega besedila razmeroma prosto uporablja lastno domišljijo, menimo, da je nastali model primeren za uporabo tako modnih oblikovalcev kot naročnikov po meri izdelanih oblačil, kot orodje za lažjo predstavitev raznolikih idej v procesu oblikovanja oblačil, prav tako pa za hitro preizkušanje in primerjanje različnih oblačil, tudi če ta še niso bila izdelana.
Keywords:	difuzijski modeli, generiranje slik na podlagi besedila, segmentacija človeškega telesa, dopoljnevanje slik, virtualno pomerjanje

Similar works from RUL:
Similar works from other Slovenian collections:

Secondary language

Similar documents