Ocenjevanje uporabnosti sintetičnih relacijskih baz podatkov je zahtevno, saj obstoječi pristopi temeljijo na ročnem ustvarjanju značilk ali združevanju tabel v eno samo, kar zakriva relacijsko strukturo in zmanjšuje razširljivost. Ta magistrska naloga uvaja RDL-utility, splošni pristop, ki relacijske baze podatkov pretvori v heterogene grafe in na njih neposredno trenira grafovske nevronske mreže (GNN). Z uporabo standardizirane prediktivne naloge AutoComplete, RDL-utility meri, kako dobro modeli, naučeni na sintetičnih podatkih, delujejo na resničnih, ločenih testnih podatkih. Eksperimenti na petih realnih podatkovnih bazah, vključno s študijo preko šestih GNN arhitektur, kažejo, da generativni pristopi, ki bazirajo na difuziji, dosegajo najvišjo uporabnost, čeprav noben posamezen pristop dosledno ne prekaša vseh drugih. RDL-utility zagotavlja reproducibilno, na strukturo občutljivo ocenjevanje ter postavlja temelje za prihodnje raziskave in aplikacije.
|