Podrobno

Visual point tracking using a 3D world foundational model
ID Urbas, Matej (Avtor), ID Kristan, Matej (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Horst, Possegger (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (22,82 MB)
MD5: DE49121002F8CF3E87D1739A778903B7

Izvleček
In this master's thesis, we explore the use of 3D world foundational models for the purpose of visual object tracking, specifically for the task of tracking arbitrary points across video sequences. We develop a method that leverages the pixel-wise feature extracting capabilities of the MASt3R architecture. When cross-correlated, these features provide robust estimates of the point's new location in subsequent frames. To propagate point locations across multiple frames, we employ a chaining mechanism based on the concept of anchor frames. To refine point predictions and estimate occlusion probabilities, we utilize a transformer-based refinement module inspired by LocoTrack. The method is trained on synthetic point tracking datasets, and evaluated on the TAP-Vid benchmark, where it achieves performance comparable to the state-of-the-art. On a subset of the first 100 TAP-Vid Kinetics videos, our method achieves the highest position accuracy of 66.3, surpassing LocoTrack by 0.9 and CoTracker3 by 1.5, albeit at a significantly lower processing speed.

Jezik:Angleški jezik
Ključne besede:Visual object tracking, point tracking, 3D foundational model, computer vision
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2025
PID:20.500.12556/RUL-174662 Povezava se odpre v novem oknu
COBISS.SI-ID:255386627 Povezava se odpre v novem oknu
Datum objave v RUL:08.10.2025
Število ogledov:238
Število prenosov:75
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Vizualno sledenje točk s pomočjo temeljnega 3D-modela sveta
Izvleček:
V magistrski nalogi raziskujemo uporabo temeljnih 3D-modelov sveta za potrebe vizualnega sledenja objektov, natančneje za nalogo splošnega sledenja točk. Razvijemo metodo, ki temelji na robustnih značilkah, pridobljenih iz temeljnega 3D-modela sveta MASt3R. Z uporabo križne korelacije med značilkami iz različnih slik dosežemo natančno sledenje točk v zaporedju slik. Za sledenje skozi daljše videoposnetke uporabimo koncept sidrnih slik, ki se uporabijo pri napovedi lokacije točk v novih slikah. Z uporabo izboljševalnega modela po vzoru metode LocoTrack izboljšamo natančnost napovedi in napovemo vidnost točk. Metodo učimo na sintetičnih podatkovnih zbirkah za sledenje točk in jo evalviramo na merilih uspešnosti TAP-Vid. Rezultate primerjamo z dvema najsodobnejšima pristopoma na področju sledenja točk, kjer naša metoda dosega primerljive rezultate. Na podmnožici prvih 100 videoposnetkov iz podatkovne zbirke TAP-Vid Kinetics naša metoda dosega najvišjo natančnost lokacije, in sicer 66,3, kar je za 0,9 več od metode LocoTrack in za 1,5 več od metode CoTracker3, vendar za sledenje potrebuje bistveno več časa.

Ključne besede:Vizualno sledenje objektov, sledenje točk, temeljni 3D-model sveta, računalniški vid

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj