Vizualno sledenje je proces ocenjevanja položaja objekta v video posnetku, pri čemer je znan le začetni izgled objekta. Zaradi številnih faktorjev, kot so zakrivanja, spremembe osvetlitve, hitri premiki objekta ali kamere, deformacije objekta, podobnost objekta z ozadjem in izginjanje objekta iz vidnega polja kamere je vizualno sledenje zahteven problem. V disertaciji se osredotočamo na metodologijo, ki temelji na diskriminativnih korelacijskih filtrih, saj kaže velik potencial v vizualnem sledenju in predlagamo štiri prispevke k znanosti. Prvi trije prispevki naslavljajo problem kratkoročnega sledenja deformabilnih objektov, v četrtem prispevku pa naslovimo problem dolgoročnega sledenja, kjer lahko objekt izgine iz vidnega polja kamere tudi za daljše časovno obdobje. V prvem prispevku naslovimo problem sledenja deformabilnih objektov tako, da predlagamo vizualni model z deli, ki tarčo predstavi na dveh nivojih podrobnosti. Na prvem nivoju je izgled objekta predstavljen s holističnim modelom, ki kombinira segmentacijo in diskriminativni korelacijski filter. Glavna naloga prvega nivoja je približna ocena položaja objekta. Na drugem nivoju objekt predstavimo z množico diskriminativnih korelacijskih filtrov, ki natančno določijo položaj objekta. Vizualne podobnosti posameznih delov in geometrijske omejitve med deli na drugem nivoju modeliramo z enotnim sistemom vzmeti. Predlagamo tudi učinkovito optimizacijsko metodo za minimizacijo energije več-dimenzionalnega sistema vzmeti, ki jo uporabimo za oceno maksimalne aposteriorne verjetnosti stanja sistema. Vizualni modeli z deli lahko modelirajo le omejen nabor deformacij, med sledenjem pa ocenjujejo veliko število parametrov deformacije, kar se odraža v slabšem sledenju, še posebej kadar se objekt ne deformira in je vizualna informacija nezanesljiva. V drugem prispevku predlagamo holistični vizualni model, ki temelji na diskriminativnih korelacijskih filtrih in med slednjem oceni kateri slikovni elementi pripadajo objektu s pomočjo zanesljivostne mape. Mapa je ocenjena na podlagi barvne segmentacije in se uporabi kot omejitev pri učenju korelacijskega filtra. Predlagamo tudi metodo za učinkovito učenje korelacijskega filtra z omejitvami, ter metodo za ocenjevanje informativnosti kanalov med učenjem filtra. Predlagan sledilnik je sposoben delovati v realnem času na centralno procesni enoti, pri čemer dosega visoko stopnjo robustnosti. Barvna segmentacija se je izkazala kot dovolj dobra za potrebe zanesljivostne mape pri učenju korelacijskega filtra z omejitvami, ni pa dovolj natančna za predstavitev lokacije objekta. V zadnjih letih se je z napredkom globokih nevronskih mrež natančnost segmentacije precej izboljšala. V tretjem prispevku predlagamo diskriminativni segmentacijski model za vizualno sledenje, ki temelji na globokih nevronskih mrežah. Predlagan sledilnik oceni segmentacijsko masko z enim prehodom skozi nevronsko mrežo, tako da kombinira rezultat korelacijskega filtra in neparametrični vizualni model. Nevronsko mrežo učimo le za oceno segmentacije, kljub temu pa dosega rezultate, ki so primerljivi s trenutno najuspešnejšimi metodami za vizualno sledenje. Predlagana nevronska mreža kaže tudi odlično sposobnost prilagajanja na zelo širok nabor tipov objektov. V četrtem prispevku predlagamo dolgoročni sledilnik, ki temelji na diskriminativnih korelacijskih filtrih. Sledilnik je sestavljen iz kratkoročne komponente, ki skrbi za lokalizacijo tarče med zaporednimi slikami, ter detektorja, ki se uporabi za ponovno detekcijo tarče na celotni sliki in je aktiviran po izgubi tarče. Obe komponenti predstavimo z enotnim vizualnim modelom – množico diskriminativnih korelacijskih filtrov, učenih z omejitvami. Predlagamo tudi učinkovit mehanizem za preklapljanje med obema komponentama. Poleg dolgoročnega sledilnika predlagamo še metodologijo za evalvacijo dolgoročnih sledilnikov, ki obsega podatkovno zbirko, način razvrščanja dolgoročnih sledilnikov in mere uspešnosti dolgoročnega sledenja. Podatkovna zbirka se osredotoča na izginjanje objektov iz vidnega polja kamere, skupaj s celotno metodologijo pa sta uporabljeni v največjem tekmovanju vizualnih sledilnikov VOT.
|