Difuzijski modeli se pogosto uporabljajo za dosledno generiranje subjektov, vendar so trenutne metode večinoma osredotočene na doslednost enega subjekta na sliki, medtem ko dosledno generiranje več subjektov ostaja neraziskan problem. Predlagamo metodo, ki združuje difuzijske modele z IP-Adapterji za doslednost obrazov, ControlNet-om za zagotavljanje variabilnosti slik ter Face Inpaint-om za izboljšanje kakovosti in doslednosti obraza. Uvedli smo tudi lasten modul za ujemanje obrazov, ki izboljša ujemanje slik in pripadajočega teksta v primerih, ko se starost referenčnih subjektov bistveno razlikuje ali je spol subjektov različen. Naša metoda generira slike visoke kakovosti, kjer je skladnost obrazov omejena zgolj z uporabljenimi metodami IP-Adapter.
|