Izbira značilk je ključna naloga v procesu izgradnje vsakega napovednega modela v strojnem učenju. Razumevanje, kateri podatki so pomembni za naš problem in katera metoda izbire značilk je najbolj kompatibilna z našimi podatki, je bistvenega pomena za doseganje dobrih rezultatov pri vsakem problemu nadzorovanega učenja.
Cilj te naloge je bil razviti in implementirati programsko opremo za izbiro značilk pri nalogi strojnega učenja, natančneje klasifikaciji, na podlagi pristopa največje pomembnosti in najmanjše redundance (MRMR). Naš cilj je ustvariti programsko opremo, ki se lahko uporablja za izbiro značilk različnimi merami relevantnosti in redundance.
To programsko opremo smo nato uporabili za primerjavo uspešnosti razvitega pristopa, kjer k značilk, izberemo z MRMR, z uspešnostjo pristopa filtriranja, pri katerem se izbere k najpomembnejših značilk z največjo pomembnostjo (in se ne upošteva njihova redundanca). Analiziramo rezultate, primerjamo in iz njih potegnemo zaključke. z ustrezno izbiro mer pomembnosti in redundance lahko metoda MRMR deluje veliko boljše.
|