<?xml version="1.0"?>
<metadata xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:dc="http://purl.org/dc/elements/1.1/"><dc:title>Naključni gozdovi za identifikacijo različno izraženih spremenljivk za visokorazsežne podatke</dc:title><dc:creator>SIMONOVICH,	PINO	(Avtor)
	</dc:creator><dc:creator>Blagus,	Rok	(Mentor)
	</dc:creator><dc:subject>naključni gozdovi</dc:subject><dc:subject>visokorazsežni podatki</dc:subject><dc:subject>neuravnoteženi podatki</dc:subject><dc:subject>izbor spremenljivk</dc:subject><dc:subject>napovedna točnost</dc:subject><dc:subject>funkcija izgube</dc:subject><dc:description>V magistrski nalogi sem raziskal različne pristope izbora spremenljivk in napovedovanja v primeru visokorazsežnih in neuravnoteženih podatkov, torej primere, kjer imamo zelo veliko število spremenljivk (dimenzij) in imamo različno frekvenco razredov v podatkih (v primeru uvrščanja). Taki podatki se pojavijo npr. v rezultatih genskih ekspresij, kjer imamo zelo pogosto tudi majhne vzorce. Cilj je izluščiti pomembne spremenljivke iz podatkov, tj. take spremenljivke, ki so zares povezane z izidom in napovedati pripadnost razredu za nove enote.

Osredotočil sem se na metodo naključnih gozdov oz. v splošnem na odločitvena drevesa v kombinaciji z zankanjem ali ojačevanjem. Ker v osnovi naključni gozdovi ne izvajajo izbora spremenljivk, sem predlagal nekaj različnih načinov, kako bi lahko to izvedli v sklopu obstoječih modelov. Dodatno sem preveril, ali ponovno grajenje modela nad izbranimi spremenljivkami izboljša napovedi končnega modela.

Poleg tega sem raziskal dva glavna načina, kako uspešno napovedovati v primeru neuravnoteženih podatkov. Večina metod v tem primeru ne deluje dobro zaradi pogosto uporabljenih t.i. nepravih mer oz. zaradi neprilagojenih kriterijskih funkcij. Predstavil sem nekaj pravih mer in pokazal prednosti teh. Izbral sem eno pravo mero, ki se mi je zdela najbolj obetavna s takimi podatki in rezultate primerjal z ostalimi metodami, ki uporabljajo neprave mere.

Za ovrednotitenje vseh pristopov/modelov sem izvedel simulacijo, kjer sem generiral realistične visokorazsežne in neuravnotežene podatke. Zaradi velike računske zahtevnosti sem izbral zgolj eno kombinacijo parametrov za simulacijo, ki je bila zahtevna z vidika napovedovanja. V podatkih je bila prisotna visoka korelacija v bločni strukturi. Vse modele sem ovrednotil tudi na pravih podatkih iz DNK mikromrež.

Rezultati kažejo, da moje predlagane metode za izbor spremenljivk izberejo precej manj napačnih spremenljivk v primerjavi z ostalimi metodami, a hkrati izberejo tudi precej manj spremenljivk v celoti. Z uporabo prave mere in prilagojene funkcije izgube sem uspel izboljšati rezultate v primerjavi z večino ostalih metod.</dc:description><dc:date>2020</dc:date><dc:date>2020-08-31 09:30:00</dc:date><dc:type>Magistrsko delo/naloga</dc:type><dc:identifier>118699</dc:identifier><dc:identifier>VisID: 51682</dc:identifier><dc:language>sl</dc:language></metadata>
