Podrobno

Explainable Deep Learning for Modeling Genomic Variation and Plant Environmental Adaptation
ID Zrimšek, Andraž (Avtor), ID Curk, Tomaž (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Zrimec, Jan (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (5,76 MB)
MD5: A6068B6C56A2F474566353DEB8A2366A

Izvleček
Understanding the link between plant environmental adaptation and genotype is a central challenge in plant biotechnology and agronomy. Here, we explore whether incorporating local DNA sequence context with genotype data improves modeling of plant environmental adaptation compared to traditional methods that rely only on single nucleotide polymorphisms (SNPs). Using Arabidopsis thaliana data, we enrich loci selected with a state-of-the-art SNP-only method, SparSNP, with SNP-centered sequence embeddings and train sparse, interpretable Elastic Net regressors. Across climate and soil variables, sequence-informed models match or surpass SNP-only baselines while using far fewer loci. Attributions, computed using the technique Integrated Gradients, link predictions to specific nucleotides, enabling the discovery of DNA motifs involved in adaptation processes, with matches to known regulators. Targeted in silico mutations at high-attribution sites drive directional shifts in predictions, yielding testable hypotheses about regulatory control. Our approach thus offers a promising avenue for genotype-phenotype prediction and, potentially, engineering stress-tolerant plants by introducing designed mutations into the DNA sequence.

Jezik:Angleški jezik
Ključne besede:large genomic models, state space models, explainable AI, regulatory genomics, deep learning, environmental adaptation
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2025
PID:20.500.12556/RUL-176017 Povezava se odpre v novem oknu
COBISS.SI-ID:258148867 Povezava se odpre v novem oknu
Datum objave v RUL:18.11.2025
Število ogledov:87
Število prenosov:29
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Razložljivo globoko učenje za modeliranje genomske variacije in prilagajanja rastlin okoljskim razmeram
Izvleček:
Razumevanje povezave med prilagajanjem rastlin na okolje in genotipom je osrednji izziv v rastlinski biotehnologiji in kmetijstvu. V delu raziskujemo, ali vključitev lokalnega konteksta zaporedja DNA v genotipske podatke izboljša modeliranje prilagajanja rastlin na okolje v primerjavi s tradicionalnimi metodami, ki temeljijo izključno na polimorfizmih posameznih nukleotidov (angl. Single-Nucleotide Polymorphisms, SNP). Z uporabo podatkov Arabidopsis thaliana in najsodobnejše metode SparSNP, ki temelji izključno na SNP, izberemo lokuse. Le-te nato obogatimo z vstavljanjem zaporedij in tako naučimo redke ter razumljive regresorje Elastic Net. Pri vseh podnebnih in talnih spremenljivkah redki modeli, ki temeljijo na zaporedjih, dosegajo ali presegajo uspešnost pristopov, ki temeljijo izključno na SNP. Prispevki, izračunani z uporabo tehnike Integrated Gradients povezujejo napovedi s specifičnimi nukleotidi, kar omogoča odkritje motivov DNA in primerjavo z znanimi regulatorji. Simulirane mutacije na mestih z visokimi prispevki povzročijo usmerjene spremembe fenotipa, kar daje preverljive hipoteze o regulaciji, omogoča modeliranje relacije genotip-fenotip in podpira načrtovanje bolj odpornih rastlin z vnosom tarčnih mutacij v zaporedje DNA.

Ključne besede:veliki genomski modeli, modeli prostora stanj, razložljiva UI, regulatorna genomika, globoko učenje, prilagajanje okolju

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj