Naraščajoča raznolikost in obseg podatkovnih nizov za zaznavanje objektov je razkrila omejitve zaprto-množničnih detektorjev s fiksiranimi besednjaki. Zaznavanje objektov odprtih množic to rešuje tako, da omogoča zaznavanje poljubnih razredov prek tekstovnih poizvedb. Grounding DINO je uveljavljeni odprto-množični detektor, a njegova koda za učenje ni povsem odprtokodna, njegova implementacija pa zastarela. V tem delu reimplementiramo Grounding DINO, kar prinese približno ~20% pohitritev, in ga spremenimo za štetje objektov na podlagi tekstovnih poizvedb, a spremembe dosledno ne izboljšajo zmogljivosti na FSCD-147. Da bi lahko naučili model od začetka, ga še bolj optimiziramo, kar prinese dodatnih ~30% pohitritev, in razvijemo različico za robne naprave, na podlagi zaprto-kodne različice. Model učimo na 1,3 milijona slik od začetka in ga evalviramo na naborih COCO in LVIS, kjer dosega primerljive rezultate z drugimi odprtokodnimi modeli, vendar zaostaja za zaprto-kodnim osnovnim modelom, verjetno zaradi bistveno manjšega učnega nabora.
|