Nedavni napredki na področju biotehnologije so raziskovalcem omogočili zbiranje velikih količin podatkov, kot so profili genskih izrazov bolnikov, ki so osnova za personalizirano medicino. Takšen pristop zahteva uporabo strojnega učenja, vendar je glavna omejitev številnih študij majhnost vzorca, ki ima običajno nekaj sto bolnikov z več deset tisoč atributi. V magistrskem delu smo se tega problema lotili tako, da smo združili veliko majhnih podatkovnih naborov o izraženosti genov v en večji nabor in naučili globoke nevronske mreže, zmožne informativnega kodiranja vhodnih podatkov. Uporabili smo učenje s prenosom za napovedovanje fenotipa na kodiranih podatkih iz testnih naborov. Eksperimentirali smo z dvema arhitekturama modelov: samokodirniki in večopravilnimi modeli. Čeprav je bilo učenje večopravilnih modelov zahtevno, so na testnih podatkovnih naborih v povprečju dosegli višje rezultate kot samokodirniki, vendar niso presegli rezultatov logistične regresije. Pri pregledovanju kodiranih vrednosti se je izkazalo, da samokodirniki ohranijo prvotno strukturo podatkov, medtem ko večopravilni modeli ne razlikujejo med primeri iz različnih študij, obe arhitekturi pa sta dokazali, da je profil genskih izrazov možno predstavili le z nekaj vrednostmi.
|