Razumevanje povezave med prilagajanjem rastlin na okolje in genotipom je osrednji izziv v rastlinski biotehnologiji in kmetijstvu. V delu raziskujemo, ali vključitev lokalnega konteksta zaporedja DNA v genotipske podatke izboljša modeliranje prilagajanja rastlin na okolje v primerjavi s tradicionalnimi metodami, ki temeljijo izključno na polimorfizmih posameznih nukleotidov (angl. Single-Nucleotide Polymorphisms, SNP). Z uporabo podatkov Arabidopsis thaliana in najsodobnejše metode SparSNP, ki temelji izključno na SNP, izberemo lokuse. Le-te nato obogatimo z vstavljanjem zaporedij in tako naučimo redke ter razumljive regresorje Elastic Net. Pri vseh podnebnih in talnih spremenljivkah redki modeli, ki temeljijo na zaporedjih, dosegajo ali presegajo uspešnost pristopov, ki temeljijo izključno na SNP. Prispevki, izračunani z uporabo tehnike Integrated Gradients povezujejo napovedi s specifičnimi nukleotidi, kar omogoča odkritje motivov DNA in primerjavo z znanimi regulatorji. Simulirane mutacije na mestih z visokimi prispevki povzročijo usmerjene spremembe fenotipa, kar daje preverljive hipoteze o regulaciji, omogoča modeliranje relacije genotip-fenotip in podpira načrtovanje bolj odpornih rastlin z vnosom tarčnih mutacij v zaporedje DNA.
|