Glavni izziv pri zaznavanju globoko ponarejenih video vsebin je slaba generalizacija na nove in razvijajoče se metode manipulacij. To delo težavo naslavlja z vpeljavo človeške percepcije kot dodatne informacijo za usmerjanje učenja. Za ta namen smo pripravili neodvisno podatkovno zbirko, ki združuje sintetično ustvarjene ponaredke slik obrazov, generirane z metodo SBI. Podatkovna zbirka je bila razširjena s podatki človeške percepcije slik vključno z mapami intenzivnosti pomembnih regij ter tipi nepravilnosti, značilnimi za globoke ponaredke. Model na osnovi nevronske mreže EfficientNet je treniran kot večopravilni model za hkratno izvajanje klasifikacije globokih ponaredkov in nalog, ki temeljijo na človeški percepciji. Eksperimenti na več neodvisnih referenčnih podatkovnih zbirkah kažejo, da model z zaporednim dekoderjem map intenzivnosti naučen na naši podatkovni zbirki bolje posplošuje kot osnovni razpoznavalniki. Lokalizirana človeška pozornost pomaga nevronski mreži, da se osredotoči na perceptivno pomembne značilke namesto na nepravilnosti značilne za metodo, s katero je bila vsebina generirana.
|