Model Segment Anything 2 (SAM2) je nedavno pritegnil veliko pozornosti zaradi svoje visoke zmogljivosti pri nalogah segmentacije, saj dosega vodilne rezultate na številnih podatkovnih naborih. Čeprav SAM2 predstavlja močno osnovo za segmentacijo v posnetku, njegova arhitektura ni povsem prilagojena vizualnemu sledenju objektom. V tej magistrski nalogi kot ključno omejitev izpostavimo distraktorje, ki skozi čas zmanjšujejo robustnost sledenja. Zato izboljšamo pomnilniški mehanizem SAM2 in predlagamo novo zasnovo pomnilnika, ki za posodabljanje uporablja informacije o prisotnih distraktorjih. Prispevek je v celoti združljiv s SAM2, kar vodi do različice modela, ki jo poimenujemo DAM4SAM. Predlagana zasnova pomnilnika uspešno zmanjšuje negotovost sledenja ob distraktorjih ter izboljša ponovno zaznavo po zakritju objekta. Za poglobljeno analizo sledenja v prisotnosti distraktorjev konstruiramo DiDi -- podatkovno zbirko, ki vsebuje le sekvence z distraktorji. DAM4SAM preseže SAM2.1 na trinajstih podatkovnih zbirkah in postavi nove najboljše rezultate na desetih. Poleg tega predlagana zasnova pomnilnika izboljša nedavni sledilnik za sledenje v realnem času, EfficientTAM, za 11% na zbirki DiDi, in dosega primerljive rezultate z modelom SAM2.1-L na več podtkovnih naborih za sledenje in segmentacijo, kar kaže na močno sposobnost posploševanja.
|