Variabilnost genskega izražanja večkrat povezujemo z dejavniki, ki uravnavajo celično diferenciacijo v zgodnjih fazah embrionalnega razvoja ali pa tvorbo rakavih celic. Variabilnost genskega izražanja posameznih celic lahko merimo z meritvami scRNA-seq, ki pa so zaradi tehničnih pomanjkljivosti zelo šumne. V magistrski nalogi predstavimo inovativen pristop za napoved variabilnosti genskega izražanja na podlagi genskih zaporedij DNA. Pri tem smo uporabili model globokega strojnega učenja Enformer, ki zaporedja DNA vloži v bolj učinkovit prostor značilk. Z uporabo linearnih modelov nato iz vložitev sekvenc napovemo povprečno gensko izražanje in razpršenost podatkov scRNA-seq. Predlagani pristop smo ovrednotili na podatkih dveh različnih organizmov, pridobljenih z dvema različnima protokoloma scRNA-seq. S predlaganim pristopom lahko pojasnimo do 60% variance razpršenosti genskega izražanja na naboru podatkov o miših in 25% na naboru človeških podatkov.
|