Življenjski cikel RNA in njegova regulacija ima velik vpliv na pravilno delovanje celice. Njegov potek je organiziran preko več proteinov, ki vežejo RNA (RBP), in tvorijo kompleksna, med seboj povezana omrežja regulacije transkriptov. Da bi razvozlali to mrežo in izluščili značilnosti RNA, ki imajo največji vpliv na njeno usodo, pogosto analiziramo množico omskih informacij, da bi izluščili tiste, ki razložijo različen biološki odziv določenih RNA. Običajno zato uporabimo več različnih statističnih analiz, kjer ročno definiramo in primerjamo te značilnosti med skupinami. S takšno izbiro pa v analizo dodamo določeno pristranskost do naših hipotez. Zato je pomembno razviti nove načine analiz, ki lahko primerjajo še neobdelane podatke. V tej magistrski nalogi smo razvili protokol strojnega učenja (ML), ki omogoča razvrščanje transkriptov na podlagi značilnosti, kot so nukleotidno zaporedje, struktura, vezava na RBP in metilacija. Tako smo lahko učinkovito razvrstili z LIN28A stabilizirane in destabilizirane transkripte v izvornih celicah mišjih zarodkov (mESC), pri čemer smo ugotovili, da so z AU bogate multivalentne regije, ki se nahajajo ob koncu 3'UTR tiste, ki napovedujejo destabilizacijo. Z razširitvijo te metodologije na nabor več omskih podatkov smo uspeli izluščiti skupne značilnosti RNA, ki so nagnjene k kondenzaciji v mESC. Model je pokazal na strukturirane in s citozini bogate kodirajoče regije in z RBP vezane konce 3’ neprevedene regije, kot glavne lastnosti takšnih mRNA. Ta magistrska naloga torej prikaže dva primera učinkovite uporabe ML za pridobitev biološkega vpogleda v značilnosti, ki definirajo različna omrežja RBP-RNA interakcij. Predvidevamo, da bo v prihodnje uporaba takšnih modelov razširila nabor orodij za bioinformatske analize in omogočila nadaljni nepristranski vpogled v regulacijo RNA z visoko zmogljivimi in razložljivimi modeli ML.
|