Na področju strojnega učenja se pogosto soočamo z nalogo primerjave zmogljivosti učnih algoritmov na več podatkovnih množicah. Na eni strani razvojne študije, ki predstavljajo nove ali izboljšave obstoječih algoritmov, primerjajo razvite algoritme z obstoječimi, na drugi strani pa empirične študije uporabe strojnega učenja pogosto primerjajo zmogljivost učnih algoritmov na različnih instancah praktičnih problemov. V vsakem primeru je za ugotavljanje pomena rezultatov primerjave ključna primerna statistična analiza, ki je predmet proučevanja tega magistrskega dela.
Magistrsko delo ima dva glavna cilja. Prvi je temeljita predstavitev najpogosteje uporabljenih neparametričnih statističnih testov, ki jih uporabljamo pri primerjavi zmogljivosti algoritmov strojnega učenja, Wilcoxonovega testa predznačenih rangov in Friedmanovega testa. Drugi cilj magistrskega dela je preseganje omejitve obstoječih pristopov na primerjavo algoritmov glede na eno samo, vnaprej izbrano mero zmogljivosti. V delu predstavimo novi pristop za primerjavo algoritmov strojnega učenja glede na več mer zmogljivosti hkrati. V ta namen uporabimo koncept Pareto front, ki izhaja iz področja večkriterijske optimizacije in nam omogoči, da algoritme razvrščamo glede na več mer zmogljivosti. Tako lahko tudi novi pristop uporablja zgoraj omenjene neparametrične statistične teste.
Uporabo novo razvitega pristopa ponazorimo na primeru primerjave zmogljivosti štirih algoritmov za učenje klasifikacijskih modelov na desetih javno dostopnih podatkovnih množicah. Primerjavo izvajamo glede na dve meri zmogljivosti algoritmov, ki se nanašajo na točnost naučenih klasifikacijskih modelov. Rezultati primerjave kažejo, da novo razviti pristop zavrne ničelno hipotezo za primerjavo algoritmov glede na obe meri zmogljivosti hkrati, če obstoječi pristop zavrne vsaj eno izmed obeh ničelnih hipotez za posamezno mero.
|