Predvidevanje tkivno specifične genske ekspresije je ključno za razumevanje kompleksnih regulatornih mehanizmov, ki urejajo izražanje genov. V tem delu smo za raziskovanje napovednih modelov za tkivno specifično gensko ekspresijo uporabili tri različne modele: dve konvolucijski nevronski mreži (angl. convolutional neural network, CNN) in DNABERT. Za genom smo izbrali javno dostopno \textit{Arabidopsis thaliana}. Naš postopek je obsegal sistematično testiranje različnih metode, ki zajemajo različne tehnike filtriranja transkriptov in raznolika vhodna zaporedja. Integracija večjega števila modelov in variacije vhodov predstavljajo pomemben korak k izboljšanju razumevanja napovedi tkivno specifične ekspresije genov ter prispevajo k napredku bioinformatike in računske biologije.
Naši rezultati kažejo na pomembnost tako vhodnih zaporedij kot dodatnih značilk kodirajoče regije (CDS) pri napovedovanju izražanja genov. Kombinacija teh vhodnih podatkov je pokazala le zmerno izboljšanje učinkovitosti. DNABERT se je spopadal z vnosom samo vhodnih zaporedij, vendar je dosegel rezultate, primerljive z modeli CNN z dodanimi značilkami CDS. Najizrazitejšo tkivno specifično učinkovitost je pokazal model Washburn (R-kvadrat približno 0,40), sledila sta model DNABERT (R-kvadrat približno 0,34) in model Zrimec (R-kvadrat približno 0,31). Modeli so se soočali z izzivi pri napovedovanju nizko in visoko izraženih genov, izkazali pa so se pri napovedovanju zmerno izraženih genov. Ocena napovedi tkivno specifičnega izražanja genov je podobna oceni napovedi povprečne vrednosti vseh primerov transkripta. Dodatno smo pokazali, da sta oba modela CNN ovrednotila tkiva s primerljivim vrstnim redom.
Da bi prikazali modelove spretnosti prepoznavanja vzorcev, smo analizirali aktivacije konvolucijskih jeder. Te vzorce smo primerjali z referencami v bazah podatkov in našli približno 650 ujemanj. Da bi natančneje določili pomembna območja znotraj zaporedij, smo uporabili zamegljevanje zaporedja. Naši rezultati so poudarili pomen promotorja blizu TSS in 5'UTR blizu CDS pri oblikovanju učinkovitosti modela, še posebej pri krajših zameglitvah. Pri zameglitvi celotnih območjih so se vse genomske regije razen terminatorja izkazale za pomembne.
Dokazali smo torej, da je model sposoben napovedati tkivno specifične genske ekspresije, in poudarili pomembnost nekodirajočih genomskih območij. Čeprav na tem področju poteka nenehno raziskovanje, si želimo, da bi naši ugotovitvi prispevali k napredku razumevanja tkivno specifičnega izražanja genov.
|