Podatkovne baze so večinoma relacijske, sestavljene iz povezanih tabel in z zapletenimi strukturnimi in statističnimi odvisnostmi. Učenje generativnih modelov na relacijskih bazah ima velik potencial za generiranje sintetičnih podatkov. Ti so uporabni pri modeliranju in analizi občutljivih podatkov ter tako omogočajo dostop do še neizkoriščenih virov podatkov. Obstoječe metode za generiranje sintetičnih relacijskih baz problem običajno poenostavijo na pogojno generiranje posameznih tabel, kar vsili dodatne predpostavke in fiksno zaporedje tabel, kjer vrstni red ne obstaja. Da bi odpravili te omejitve, predstavimo RelDiff, nov generativni model, ki hkrati sintetizira vse tabele v relacijski bazi z eksplicitnim modeliranjem njihove strukture preko grafa tujih ključev. RelDiff definira skupni difuzijski proces za sintezo atributov vseh tabel in generator grafa, ki temelji na stohastičnih bločnih modelih. Delitev generiranja strukture grafa in atributov omogoča visoko verodostojnost podatkov in referenčno integriteto, dva ključna vidika sintetičnih relacijskih podatkov. Rezultati na 11 relacijskih bazah podatkov kažejo, da RelDiff deluje bolje od obstoječih metod za generiranje verodostojnih sintetičnih relacijskih baz.
|