izpis_h1_title_alt

Samodejno urejanje slik z generativnimi modeli nevronskih omrežij na podlagi jezikovnih opisov
ID PERNUŠ, MARTIN (Avtor), ID Dobrišek, Simon (Mentor) Več o mentorju... Povezava se odpre v novem oknu

.pdfPDF - Predstavitvena datoteka, prenos (26,91 MB)
MD5: 7A9FB13EFDBBC405C4CD6BDEC9AA8E35

Izvleček
Področje računalniškega vida in umetne inteligence je v zadnjih letih z metodami globokega učenja doseglo velike uspehe na področju ustvarjanja slik. V ozadju teh rezultatov so generativni modeli globokih nevronskih omrežij, ki so zmožni ustvarjanja fotorealističnih in vizualno prepričljivih slik različnih objektov in celo kompleksnih scen. Kljub napredkom v ustvarjanju slik pa sta razumevanje in uporaba generativnih modelov za urejanje slik še vedno omejena. Pri tem z izrazom razumevanje označujemo omogočanje stabilnega učenja generativnih modelov in povezavo med latentno ter ustvarjeno (slikovno) ciljno verjetnostno porazdelitvijo podatkov. Nad urejanjem vsakdanjih slik še ne obstaja avtomatiziran mehanizem upravljanja, ki bi omogočal urejanje le točno določenih slikovnih lastnosti. Sistemi, ki bi omogočali urejanje slik z generativnimi modeli na podlagi jezikovnih opisov, bi bistveno prispevali k namenom uporabe na različnih področjih, kot so avtonomna vožnja, robotika, proizvodna industrija, oblikovanje, zabavna industrija in animacija. V takšnih sistemih bi lahko uporabnik s pomočjo besedilnega oziroma govornega opisa vidnega prizora vplival na videz in semantično vsebino slike. Glavna tematika doktorske disertacije je razvoj sistema generativnega nevronskega omrežja v kombinaciji z jezikovnim opisom, pri čemer je cilj izluščiti informacijo o želenih lastnostih oz. spremembah slik iz jezikovnih opisov in to informacijo uporabiti za urejanje slik. Izhodišče za naše raziskave so generativna nevronska omrežja, ki jih gradimo tako, da glede na jezikovno ali bolj strukturirano informacijo ustvarimo oziroma uredimo ˇzeleno sliko. V sklopu doktorske disertacije predstavimo več različnih izvirnih prispevkov. Prvi izvirni prispevek je nova metoda za urejanje obraznih lastnosti, imenovana MaskFaceGAN. Predstavljena metoda glede na generativni model slik omogoča manipulacijo različnih obraznih lastnosti (npr. barvo las, tip obrvi, velikost nosu). Ciljno jezikovno informacijo, ki je zahtevana za urejanje obraza, podamo v obliki izbire in intenzivnosti določene obrazne lastnosti. S posebnim procesom invertiranja generativnega omrežja predlagana rešitev omogoča visokoločljivostno urejanje obrazov, ki omogoča tudi hkratno urejanje več lastnosti in spremembo velikosti posameznih delov obraza. Na različnih podatkovnih zbirkah opravimo eksperimente in uporabniško študijo, ki kažejo na prednosti predlagane metode MaskFaceGAN v primerjavi s konkurenčnimi tehnologijami. Naslednji izvirni prispevek je metoda ChildNet, model, ki lahko napove videz otrok glede na slike staršev. ChildNet omogoča sintezo slike otroka glede na vhodni sliki staršev, pri čemer lahko modelu dodamo tudi jezikovno informacijo v obliki dodatnih zahtev glede videza otroka (starost in spol). Prav tako predstavimo novo visokoločljivostno podatkovno zbirko, namenjeno učenju modelov za sintezo slik glede na sorodstvena razmerja. ChildNet ovrednotimo v primerjavi s konkurenčnimi tehnologijami, pri tem pa naša metoda natančneje oceni videz otroka, pri čemer je nastala slika visoke kakovosti in ločljivosti. Zadnji izvirni prispevek predstavlja metodo FICE, ki se osredotoča na besedilno pogojeno urejanje modnih slik. Jezikovna informacije je pri tem podana v najbolj surovi obliki, tj. v obliki besedilnega opisa. Metoda je sposobna obdelave besedilnih opisov, ki lahko izražajo širok besedni zaklad. Koncept urejanja slike temelji na invertiranju generativnega omrežja, ki ga nadgradimo z več omejitvami, kot so semantična omejitev, omejitev slikovne kompozicije, omejitev drže in regularizacija latentne kode. Omejitve so realizirane s prednaučenimi odvedljivimi nevronskimi omrežji, pri katerih je sam model specializiran za urejanje modnih slik. Za oceno kakovosti metode predlagamo več različnih metrik, ki se osredotočajo na kakovost slik, ohranitev drže osebe, semantično ustreznost in ohranitev identitete. Metode primerjamo z drugimi tehnologijami besedilno pogojenega urejanja slik, kjer se izkaže, da je metoda FICE boljša v vseh testiranih metrikah. Če povzamemo, se vsi izvirni prispevki osredotočajo na razumevanje in gradnjo generativnih modelov oziroma razvoj sistemov, pri katerih ciljno jezikovno informacijo vnesemo v naš model za ustvarjanje želene slike. Rezultati raziskav kažejo na potencial generativnih modelov za urejanje slik in pomen razumevanja povezave med latentnimi in ciljnimi verjetnostnimi porazdelitvami. Predlagane metode in sistemi lahko pomembno prispevajo k široki paleti namenom uporabe na različnih področjih.

Jezik:Slovenski jezik
Ključne besede:globoko učenje, nevronska omrežja, generativna nasprotniška omrežja, urejanje slik
Vrsta gradiva:Doktorsko delo/naloga
Organizacija:FE - Fakulteta za elektrotehniko
Leto izida:2023
PID:20.500.12556/RUL-152763 Povezava se odpre v novem oknu
COBISS.SI-ID:177848067 Povezava se odpre v novem oknu
Datum objave v RUL:06.12.2023
Število ogledov:632
Število prenosov:72
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Automatic image editing with generative neural network models based on linguistic descriptions
Izvleček:
In recent years, the fields of computer vision and artificial intelligence have made mgreat strides in the field of image generation using deep-learning methods. Behind these results are generative deep neural network models that are capable of generating photorealistic and visually convincing images of different objects and meven complex scenes. Despite advances in image generation, the understanding of generative models and their application to image editing is still limited. Here, we use the term understanding to denote the ability of robust learning of generative models and the link between latent and target (image) probability distributions of the data. There is not yet an automated management mechanism over general image editing that would allow editing only specific image properties. Systems that would allow image editing with generative models based on linguistic descriptions would contribute significantly to applications in various fields such as autonomous driving, robotics, manufacturing, design, entertainment, animation, and others. In such systems, the user could influence the appearance and semantic content of an image by means of a textual or speech description of the visual scene. The main topic of the PhD thesis is building a generative neural network system in combination with linguistic description, where the goal is to extract information about desired features or changes of images from linguistic descriptions and then use this information for image editing. The starting point for our research is a generative neural network, which is built in a way that enables creating or editing a desired image given linguistic or more structured information. We present several different original contributions as part of our PhD thesis. The first original contribution is a new method for editing facial attributes called MaskFaceGAN. Given a generative image model, the presented method allows the manipulation of different facial features (e.g. hair colour, eyebrow type, nose size). The target linguistic information required for face editing is given in the form of the selection and intensity of a particular facial feature. By designing a special generative network inverting process, the proposed solution enables high-resolution face editing, which also allows simultaneous editing of multiple features and resizing of individual facial parts. Experiments and a user study are performed on different datasets, which show the advantages of the proposed MaskFaceGAN method over competing technologies. The next original contribution is the ChildNet method, a model that is able to predict the appearance of children given the images of their parents. ChildNet is able to synthesize an image of a child given an input image of the parents, where additional linguistic information can be added to the model in the form of additional requirements on the child’s appearance (age and gender). We also present a new high-resolution dataset that is designed to learn models for image synthesis given sibling relationships. We evaluate ChildNet against other competing technologies, where our method is shown to more accurately estimate the appearance of the child, producing images of high quality and resolution. The last original paper presents the FICE method, which addresses text-based fashion image editing. The linguistic information here is given in its most raw form, i.e. in the form of text. The method is capable of processing textual descriptions that can express a wide vocabulary. The concept of image editing is based on the inversion of a generative network, where the model itself is specialised for editing fashion images. To evaluate the quality of the method, we propose several different metrics focusing on image quality, person pose preservation, semantic relevance and identity preservation. We compare the methods with other textbased image editing technologies, where the FICE method is shown to outperform in all tested metrics. In summary, all the original contributions focus on understanding and building generative models or developing systems where the target linguistic information is fed in some way into our model to generate the desired image. The results of the research demonstrate the potential of generative models for image editing and the importance of understanding the link between latent and target probability distributions. The proposed methods and systems have the potential to contribute significantly to a wide range of applications in various fields.

Ključne besede:Deep learning, neural networks, generative adversarial networks, image editing

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj