Bioinformacijska analiza ohranjenih regij pri sesalcih

Jelovšek, Petra

Bioinformacijska analiza ohranjenih regij pri sesalcih
ID Jelovšek, Petra (Avtor), ID Kunej, Tanja (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (2,92 MB)
MD5: B2376D2E1C1833C57BA63972BC4C96F7

Izvleček

V genomih sesalcev se pojavljajo območja, katera so med vrstami bolje ohranjena kot druga. S pomočjo različnih algoritmov, ki uporabljajo metodo določanja stopenj zamenjav, so bili predhodno določeni zelo ohranjeni elementi (angl. ultraconserved elements, UCE), z obsegom več kot 200 baznih parov (bp), ki so prisotni tako v regulatornih regijah kot v protein-kodirajočih regijah genoma. V zelo ohranjenih elementih, določenih na podlagi podobnih metod kot je genomsko profiliranje evolucijskih stopenj (GERP) (angl. constrained element, CE), so bili določeni številni polimorfizmi posameznega nukleotida (SNP-ji). Analize CE-jev na ravni celotnega genoma človeka so bile v preteklosti že izvedene, a na podlagi CE-jev določenih z manjšim številom poravnav genomov sesalcev, zato smo analizo ponovili s podatki zadnje izdaje genomskega brskalnika Ensembl. Namen te raziskave je bil preveriti ali obstajajo v genomu zelo ohranjenih elementi dolgi vsaj 200 bp določeni na podlagi vrednosti GERP in ali se v izbranih genih pri človeku nahaja značilno več patogenih različic v zelo ohranjenih elementih, kot izven njih. Izvedli smo bioinformacijsko analizo s programskim orodjem R Studio ter Excel, podatkovne nabore pa smo pridobili iz podatkovnih zbirk Ensembl, HGMD, ClinVar ter COSMIC. Ugotovili smo, da pri človeku, podgani in miši zelo ohranjeni elementi predstavljajo 2 – 4 % genoma, kar so potrdile tudi predhodne študije. Najvišji delež CE-jev je v povprečju na kromosomu Y, najnižji delež pa na kromosomu 19. V genih HIF1A, EPAS1, HIF3A ter 20 izbranih tarčnih genih proteina HIF1A smo analizirali lokacije patogenih variant v CE-jih in ugotovili, da delež patogenih SNP-jev v CE-jih in izven njih v teh 23 izbranih genih znaša v povprečju 50%. Razlika med številom patogenih SNP-jev v in izven CE-jev ni značilna. Rezultati bodo služili kot osnova za nadaljnje študije CE-jev drugih genov in pri drugih izbranih živalskih vrstah. Prav tako smo s preučevanjem pojavljanja patogenih različic v CE osnovali podlago za proučevanje povezave med CE in patogenimi različicami tudi v drugih delih genoma.

Jezik:	Slovenski jezik
Ključne besede:	sesalci, genomi, bioinformatika, podatkovne zbirke, analiza
Vrsta gradiva:	Magistrsko delo/naloga
Tipologija:	2.09 - Magistrsko delo
Organizacija:	BF - Biotehniška fakulteta
Leto izida:	2022
PID:	20.500.12556/RUL-141616
COBISS.SI-ID:	126116355
Datum objave v RUL:	03.10.2022
Število ogledov:	1005
Število prenosov:	135
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Bioinformatic analysis of conserved regions in mammals
Regions that are more conserved among species than others can be found in mammalian genomes. Conserved elements can be determined based on different methods but many of them use rate of substitution-based approach. Ultraconserved elements (UCE) can be found as in regulatory as in protein-coding regions of the genome and can be more than 200 base pairs of length. Constrained elements (CE) determined by similar methods as Genomic evolutionary rate profiling (GERP) contain many single nucleotide polymorphisms (SNP). Numerous single nucleotide polymorphisms (SNPs) have been identified in highly conserved elements determined using similar methods such as genomic evolutionary rate profiling (GERP). In past studies genome wide analyses of CEs were done with datasets derived from fewer number of mammalian genome alignments. Therefore, we redid the analyses using current datasets from Ensembl genome browser. The purpose of this study was to verify if constrained elements longer than 200 bp determined based on GERP score exist in the genome and if they consist significantly higher number of pathogenic variants in comparison to the regions outside of them. Bioinformatics analysis was performed using RStudio and Excel. Datasets were obtained from Ensembl, HGMD, ClinVar and COSMIC databases. Results revealed that CEs represent 2 – 4% of genome in mouse, rat and human, which is consistent with results of past studies. The highest proportion of CEs is on average on the Y chromosome, and the lowest proportion is on chromosome 19. We analysed locations of pathogenic variants in 23 genes; HIF1A, EPAS1, HIF3A and 20 HIF1A target genes. Share of pathogenic SNPs within and out of CEs in each selected gene is on average 50%. The difference in the number of pathogenic SNPs in CEs and pathogenic SNP’s out of CEs in these 23 selected genes is not significant. Obtained results will serve as a basis for further studies of CE in other genes and in other animal species. With analysis of occurrence of pathogenic SNPs in CEs we laid the foundation for studying the connection of CEs and pathogenic SNPs in other parts of genome as well.
Ključne besede:	mammals, genomes, bioinformatics, databases, analysis

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj