Napovedovanje začetnega mesta transkripcije (TSS) je klasifikacijski problem na presečišču strojnega učenja in laboratorijskih metod merjenja ekspresije. To mesto predstavlja položaj, kjer polimeraza RNA začne prepisovati prvi nukleotid in lahko pomaga pri karakterizaciji genoma organizma. Razvili smo dve različici modela na podatkih modelnega organizma pri rastlinah, \textit{A. thaliana}, ki temeljita na jedru obstoječega modela napovedovanja izražanja Enformer. Temu smo dodali sloje za večanje ločljivosti in funkcije izgube po meri, ki se je izkazala ključna za uspeh učenja. Tip modela GFF uporablja informacijo iz anotacije genoma za dopolnjevanje konteksta, kar je dokazano olajšalo prenos med rastlinami, to smo pokazali tudi na primeru koruze. Tip modela MultiTSS uporablja samo zaporedje DNA in brez bistvenega poslabšanja zmogljivosti v primerjavi z GFF dokazuje, da je ta arhitektura sposobna zajeti in se naučiti pomembnih motivov, ki so značilni za TSS. Demonstriramo tudi, da so razvite metode primerljivo boljše od obstoječih pristopov in jih je mogoče uporabljati tudi brez ponovnega učenja. Opisali smo tudi postopek in pasti tega problema ter predlagali možne rešitve.
|