Podrobno

A method for object detection by text prompting
ID Rot, Žiga (Avtor), ID Kristan, Matej (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Pelhan, Jer (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (6,03 MB)
MD5: 9C8534907F8695B5AF0C92A891B8D993

Izvleček
The increasing diversity and scale of object detection datasets have highlighted the limitations of closed-set detectors with fixed vocabularies. Open-set object detection addresses this by enabling the detection of arbitrary classes via text prompts. Grounding DINO is a prominent zero-shot detector, but its training code is not fully open-source, and its implementation is outdated. In this work, we reimplement Grounding DINO, achieving ~20% speedup, and extend it for text-based object counting, though these modifications do not consistently improve FSCD-147 performance. To enable training from scratch, we optimize the model further, achieving an additional ~30% speedup, and develop an edge-oriented variant inspired by a closed-source model. Training on 1.3 million images from scratch, we evaluate the model on COCO and LVIS datasets, where it performs comparably to other open-source models, but remains below the closed-source baseline, likely due to a much smaller training set.

Jezik:Angleški jezik
Ključne besede:object detection, computer vision, deep learning
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2025
PID:20.500.12556/RUL-175070 Povezava se odpre v novem oknu
COBISS.SI-ID:255569667 Povezava se odpre v novem oknu
Datum objave v RUL:14.10.2025
Število ogledov:237
Število prenosov:48
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Metoda za detekcijo objektov s tekstovnim poizvedovanjem
Izvleček:
Naraščajoča raznolikost in obseg podatkovnih nizov za zaznavanje objektov je razkrila omejitve zaprto-množničnih detektorjev s fiksiranimi besednjaki. Zaznavanje objektov odprtih množic to rešuje tako, da omogoča zaznavanje poljubnih razredov prek tekstovnih poizvedb. Grounding DINO je uveljavljeni odprto-množični detektor, a njegova koda za učenje ni povsem odprtokodna, njegova implementacija pa zastarela. V tem delu reimplementiramo Grounding DINO, kar prinese približno ~20% pohitritev, in ga spremenimo za štetje objektov na podlagi tekstovnih poizvedb, a spremembe dosledno ne izboljšajo zmogljivosti na FSCD-147. Da bi lahko naučili model od začetka, ga še bolj optimiziramo, kar prinese dodatnih ~30% pohitritev, in razvijemo različico za robne naprave, na podlagi zaprto-kodne različice. Model učimo na 1,3 milijona slik od začetka in ga evalviramo na naborih COCO in LVIS, kjer dosega primerljive rezultate z drugimi odprtokodnimi modeli, vendar zaostaja za zaprto-kodnim osnovnim modelom, verjetno zaradi bistveno manjšega učnega nabora.

Ključne besede:detekcija objektov, računalniški vid, globoko učenje

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj