V magistrski nalogi raziskujemo uporabo temeljnih 3D-modelov sveta za potrebe vizualnega sledenja objektov, natančneje za nalogo splošnega sledenja točk.
Razvijemo metodo, ki temelji na robustnih značilkah, pridobljenih iz temeljnega 3D-modela sveta MASt3R.
Z uporabo križne korelacije med značilkami iz različnih slik dosežemo natančno sledenje točk v zaporedju slik.
Za sledenje skozi daljše videoposnetke uporabimo koncept sidrnih slik, ki se uporabijo pri napovedi lokacije točk v novih slikah.
Z uporabo izboljševalnega modela po vzoru metode LocoTrack izboljšamo natančnost napovedi in napovemo vidnost točk.
Metodo učimo na sintetičnih podatkovnih zbirkah za sledenje točk in jo evalviramo na merilih uspešnosti TAP-Vid.
Rezultate primerjamo z dvema najsodobnejšima pristopoma na področju sledenja točk, kjer naša metoda dosega primerljive rezultate.
Na podmnožici prvih 100 videoposnetkov iz podatkovne zbirke TAP-Vid Kinetics naša metoda dosega najvišjo natančnost lokacije, in sicer 66,3, kar je za 0,9 več od metode LocoTrack in za 1,5 več od metode CoTracker3, vendar za sledenje potrebuje bistveno več časa.
|