Razvoj sodobnih metod in orodij za sekvenciranje DNA je privedel do velikih količin genomskih podatkov. Označevanje lokacij genov in kodirajočih regij v genomih novih organizmov je zamudno, zato smo v svojem delu zasnovali cevovod, ki zaporedja DNA organizmov pretvori v informativne vložitve. Za učenje uporabnih informacij za opis podatkov smo uporabili obliko nevronskih mrež, imenovano samokodirnik. Naučili smo modele z različnimi vrednostmi parametrov in kombinacijami slojev ter ovrednotili njihovo zmogljivost. Samokodirniki genome preslikajo v oblake točk v latentnem prostoru. Implementirali smo različne metode za predstavitev oblaka točk v zgoščeni obliki. Z uporabo vložitev neoznačenih zaporedij DNA smo pokazali, da te zajamejo uporabne opise za napovedovanja taksonomne kategorije organizmov. Vložitve smo tudi vizualizirali z namenom intuitivnega razumevanja in primerjave genomov.
|