Glavni cilj našega dela je bilo sistematično ovrednotiti in primerjati različne metode za inferenco genskih regulatornih omrežij. Zaradi visoke dimenzionalnosti podatkov o genski izraženosti ter kompleksnih regulatornih interakcij med transkripcijskimi faktorji in njihovimi tarčnimi geni inferenca genskih regulatornih omrežij predstavlja velik izziv.
Preučevali smo več sodobnih metod, in sicer PANDA, OTTER, GENIE3, ARACNe in CLR. Za vsako od navedenih metod smo predstavili zahtevane vhodne podatke, uporabljen računski pristop in rezultate. Učinkovitost posameznih metod smo ocenili s primerjavo rekonstruiranih omrežij z referenčnim omrežjem, pri čemer smo uporabili metrike, kot so MSE, točnost, občutljivost in F1. Poleg tega smo analizirali tudi, kako na delovanje posamezne metode vplivata šum in velikost vzorca.
Ker za genska regulatorna omrežja običajno nimamo popolnega resničnega omrežja, ki bi služilo kot zlati standard za preverjanje rezultatov, smo se odločili simulirati testna omrežja. Prvo, manjše omrežje, je bilo uporabljeno za testiranje vpliva velikosti vzorca in količine šuma na delovanje posameznih metod. Drugo, večje omrežje, temelji na omrežju Arabidopsis thaliana in predstavlja realistične biološke podatke. Na podlagi teh omrežij smo simulirali izražanje genov z multivariatno normalno porazdelitvijo. Pri tem smo ohranili značilnosti funkcijskih povezav med transkripcijskimi faktorji in njihovimi tarčnimi geni, vključno z aktivacijskimi in inhibicijskimi povezavami ter samoregulacijo.
Naše delo prispeva k boljšemu razumevanju učinkovitosti različnih metod za rekonstrukcijo genskih regulatornih omrežij. Prav tako predstavlja napredek, saj metode testiramo na kompleksnejših organizmih, večceličnih rastlinah, kot je Arabidopsis thaliana, in ne zgolj na bakterijah ali kvasovkah, kot je bilo doslej običajno pri primerjavi metod v okviru izzivov DREAM5. Rezultati našega dela omogočajo primerjavo metod pod nadzorovanimi pogoji, ocenjujejo njihovo robustnost pri različnih nivojih šuma in različnih velikostih vzorcev ter predstavljajo smernice za izbiro primernih pristopov pri analizi realnih bioloških podatkov iz kompleksnejših organizmov.
|