Optimizirana penalizirana regresija - rešitev za problem ločenosti v logistični regresijiŠINKOVEC, HANA (Avtor) Blagus, Rok (Mentor) HEINZE, GEORG (Komentor) ločenostmonotona funkcija verjetjaneskončne ocene parametrov(optimizirana) penalizirana logistična regresijaoptimizacijazmanjšanje srednje kvadratne napakeRezultatom, ki jih dobimo, ko želimo z modelom logistične regresije oceniti majhen vzorec, kjer so izidi redki, ne moremo kar tako zaupati. Pri tovrstni analizi se lahko celo zgodi, da ocene parametrov ne obstajajo. To je tako imenovana ločenost oz. monotona funkcija verjetja, saj situacija nastopi, ko ena ali linearna kombinacija večih napovednih spremenljivk popolnoma loči izide od neizidov, funkcija verjetja pa je neskončno naraščajoča. To povzroči, da so ocene, ki bi jih dobili z metodo največjega verjetja, nedefinirane, algoritem, s katerim maksimiziramo funkcijo verjetja, pa divergira. V nalogi pokažem nekaj primerov realnih podatkov, kjer se pojavi ločenost in skoraj-ločenost, in zato, da bi premostila težave neobstajajočih ocen parametrov, razmislim o možnosti uporabe penalizirane logistične regresije – l2, l1 in (posplošene) Firthove regresije. Penalizirani regresijski modeli namreč koeficiente zmanjšajo v smeri proti nič, tako da ne morejo divergirati, in lahko ponudijo končne ocene parametrov. Vprašanje pa je, kako poiskati optimizacijski parameter, ki uravnava stopnjo penalizacije: prečno preverjanje funkcije največjega verjetja in pa AIC sta v situacijah, ko so podatki ločeni, omejena, saj v enostavnih primerih kot optimalno rešitev ponudita optimizacijski parameter, ki je enak nič. V nalogi pokažem primere, kjer optimizacija ne deluje. Najprej se osredotočim na 2×2 kontingenčno tabelo in primer razširim tako, da dodajam pojasnjevalne spremenljivke. Primerjam l2, l1 in Firthov regresijski model (slednjega tudi v posplošeni različici, kjer optimizacijski parameter ni fiksiran). Splošna učinkovitost obeh optimizacijskih metod je ovrednotena za situacije, kjer je verjetnost ločenosti velika. Pokaže se, da je rešitev, ki jo lahko ponudi optimizirana penalizirana regresija, vprašljiva. V nasprotju pa Firthov tip penalizacije pokaže odlične lastnosti v smislu zmanjšanja srednje kvadratne napake ocen koeficientov pod pogoji, pri katerih je verjetnost za ločenost velika.20162016-10-05 09:15:02Magistrsko delo/naloga86049VisID: 37161sl