Podrobno

A distractor-aware memory-based visual object tracking
ID Videnović, Jovana (Avtor), ID Kristan, Matej (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Lukežič, Alan (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (11,67 MB)
MD5: D3A3D38C6558C2352E6CE215EAC75AD5

Izvleček
The Segment Anything Model 2 (SAM2) has recently gained significant attention for its strong performance in segmentation tasks, achieving leading results on numerous benchmarks. However, while SAM2 serves as a powerful foundation for video segmentation, its architecture is not fully optimized for visual object tracking. Specifically, we identify distractors as a key limitation that decreases tracking robustness over time. In this thesis, we refine SAM2’s memory mechanism and propose DAM4SAM: a distractor-aware drop-in memory model for SAM2 paired with an introspection-based management. The memory design successfully reduces tracking drifts to the distractors and improves redetection capability after object occlusion. To fascilate deeper analysis of tracking in the presence of distractors, we construct DiDi, a Distractor-Distilled dataset. DAM4SAM outperforms SAM2.1 on thirteen benchmarks and sets new state-of-the-art results on ten. Moreover, the proposed distractor-aware memory improves the recent SAM2-based realtime tracker EfficientTAM by 11% on DiDi, and also matches SAM2.1-L performance on multiple tracking and segmentation benchmarks, demonstrating strong generalization capabilities.

Jezik:Angleški jezik
Ključne besede:computer vision, visual object tracking, video object segmentation
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2025
PID:20.500.12556/RUL-171187 Povezava se odpre v novem oknu
COBISS.SI-ID:247327747 Povezava se odpre v novem oknu
Datum objave v RUL:18.08.2025
Število ogledov:456
Število prenosov:151
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Vizualno sledenje objektom na podlagi pomnilnika z upoštevanjem distraktorjev
Izvleček:
Model Segment Anything 2 (SAM2) je nedavno pritegnil veliko pozornosti zaradi svoje visoke zmogljivosti pri nalogah segmentacije, saj dosega vodilne rezultate na številnih podatkovnih naborih. Čeprav SAM2 predstavlja močno osnovo za segmentacijo v posnetku, njegova arhitektura ni povsem prilagojena vizualnemu sledenju objektom. V tej magistrski nalogi kot ključno omejitev izpostavimo distraktorje, ki skozi čas zmanjšujejo robustnost sledenja. Zato izboljšamo pomnilniški mehanizem SAM2 in predlagamo novo zasnovo pomnilnika, ki za posodabljanje uporablja informacije o prisotnih distraktorjih. Prispevek je v celoti združljiv s SAM2, kar vodi do različice modela, ki jo poimenujemo DAM4SAM. Predlagana zasnova pomnilnika uspešno zmanjšuje negotovost sledenja ob distraktorjih ter izboljša ponovno zaznavo po zakritju objekta. Za poglobljeno analizo sledenja v prisotnosti distraktorjev konstruiramo DiDi -- podatkovno zbirko, ki vsebuje le sekvence z distraktorji. DAM4SAM preseže SAM2.1 na trinajstih podatkovnih zbirkah in postavi nove najboljše rezultate na desetih. Poleg tega predlagana zasnova pomnilnika izboljša nedavni sledilnik za sledenje v realnem času, EfficientTAM, za 11% na zbirki DiDi, in dosega primerljive rezultate z modelom SAM2.1-L na več podtkovnih naborih za sledenje in segmentacijo, kar kaže na močno sposobnost posploševanja.

Ključne besede:računalniški vid, vizualno sledenje objektom, segmentacija objektov v posnetku

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj