Pasti pri ocenjevanju točnosti klasifikatorjevTupkušić, Mirza (Avtor) Blagus, Rok (Mentor) uvrščanje podatkovpasti naloge uvrščanjapreoptimistične ocenestatistične metodeugnezdeno navzkrižno preverjanjepopravki neravnotežjaZaradi raznolikosti praktičnih nalog, pomanjkanja izkušenj in znanja pogosto naletimo na težave, ki jih sploh ne opazimo. Glede na konkreten problem lahko napake zanemarljivo vplivajo na pravilnost rezultatov ali precej škodljivo. V vsakem primeru, ker neustrezno ravnanje s praktičnimi problemi neizogibno vpliva na statistične sklepe, je vedno treba biti pozoren na pravilnost uporabljenih postopkov. V ta namen so predstavljene štiri pasti pri izgradnji in ocenjevanju točnosti modelov, ki se uvrščajo med najpogostejše naloge, pri katerih prihaja do napak v praksi. Prikazani so rezultati treh statističnih metod na simuliranih ter realnih podatkih. Pri prvi pasti, ki se nanaša na izbiro spremenljivk, smo pokazali, da so modeli v simuliranih in realnih primerih ob izbiri spremenljivk pred uporabo navzkrižnega preverjanja za oceno točnosti pogosto izkazovali prekomerno optimistično delovanje. Analiza različnih podatkovnih prostorov je pokazala zanemarljiv vpliv pristranskosti na modele, zgrajene v nizkorazsežnem prostoru in precejšen v visokorazsežnem prostoru. Rezultati so pokazali, da lahko izbira spremenljivk pred uporabo navzkrižnega preverjanja tudi v primeru, ko ni dejanske razlike med skupinami, ustvari modele z oceno točnosti enaki idealni. Kar se tiče druge pasti, ki je povezana z optimizacijo vrednosti parametrov, so rezultati pokazali podoben vpliv pristranskosti na oceno točnosti modelov, vendar v manjši meri kot pri izbiri spremenljivk. Rezultati tretje pasti, vezani na napačno oceno točnosti izbranih modelov, v primerjavi s prejšnjima dvema, poleg negativnega vpliva napačne izvedbe poudarjajo na pomembnost informativnosti podatkov. Z večanjem informativnosti podatkov se namreč zmanjšuje pristranskost. V simulacijah je predstavljeno ugnezdeno navzkrižno preverjanje kot postopek za izbiro modela in nepristransko oceno točnosti. Ugnezdeno navzkrižno preverjanje, kljub dolgotrajni izvedbi v povprečju zagotavlja pravilne ocene točnosti. Rezultati simulacij enako razkrivajo, da enkratno izvajanje ugnezdenega navzkrižnega preverjanja ne zagotavlja pravilne ocene. Rezultati četrte pasti, vezani na uravnoteženje podatkov, enako prikazujejo pristranskost, ki nastane zaradi uravnoteženja podatkov pred uporabo navzkrižnega preverjanja, kot tudi uspešnost različnih popravkov neravnotežja na izboljšanje točnosti modelov. Ob upoštevanju vseh mer točnosti podvzorčenje deluje bolje kot SMOTE in prevzorčenje. V simulacijah in večini realnih primerov popravki niso imeli pomembnejšega vpliva na uspešnost metod kot navadno neupoštevanje problema neravnotežja s popravkom praga uvrščanja.20242024-06-10 09:04:05Magistrsko delo/naloga158423VisID: 62685COBISS_ID: 199607555sl