Proteomika je veda, ki se ukvarja z analizo proteinov. Analiza je lahko tarčna, usmerjena v analizo točno določenega proteina, ali raziskovalna, kjer je cilj analiza celotnega proteoma oziroma skupka proteinov določenega organizma. Kljub temu, da na področju raziskovalne proteomike obstaja več različnih načinov zajema in analize podatkov, je podatkovno odvisen zajem (ang. data-dependent acquisition) trenutno med bolj razširjenimi pristopi na področju proteomike.
V sklopu magistrske naloge sem se osredotočil na Pulsar algoritem, ki je programsko orodje za analizo podatkov pri podatkovno odvisnem zajemu podatkov iz masnih spektrometrov in je bil razvit pri podjetju Biognosys AG, Švica. Pomembna lastnost teh programskih orodij oziroma proteinskih iskalnikov je sposobnost identificiranja proteinov iz opravljenih meritev ter čas trajanja identifikacije.
Narejena je bila primerjava med Pulsar algoritmom in drugimi, uveljavljenimi proteinskimi iskalniki in sicer z MaxQuant-om in SEQUEST-om, ki je integriran v sklopu programskega orodja Thermo Proteome Discoverer z namenom overitve kvalitete Pulsar algoritma. Proteinske iskalnike sem primerjal na podlagi dveh kriterijev - števila identificiranih proteinskih skupin in časa trajanja identifikacije.
Zaključili smo, da je v smislu števila identificiranih proteinskih skupin Pulsar algoritem enakovreden drugim proteinskim iskalnikom, ki ne uporabljajo strojnega učenja. Proteinski iskalnik, ki uporablja strojno učenje, identificira v povprečju 17.35% več proteinskih skupin kot Pulsar algoritem (Tabela 3.9). Glede na čas identifikacije, je Pulsar algoritem boljši od vseh ostalih iskalnikov (Tabela 3.10).
Prav tako je bila opravljena evalvacija optimizacije kalibracije z namenom časovne optimizacije algoritma. Kalibracija je opravljena na množici peptidov, ki so potencialno identificirani v množici spektrov (ang. peptide-spectrum match). Količina parov peptid-spekter vpliva na čas, ki je potreben za izvedbo kalibracije. Manj kot je parov, manj časa je potrebnega za kalibracijo, a to posledično vpliva tudi na kvaliteto kalibracije. Cilj naloge je bil dosežti signifikantno izboljšanje časa potrebnega za analizo, brez opazne spremembe v številu identificiranih proteinskih skupin. Preizkusil sem tri različne pristope, kjer sem število parov peptid-spekter zmanjševal s spreminjanjem števila uporabljenih spektrov, spreminjanjem števila peptidov in s hkratno uporabo prejšnih dveh pristopov. Vsak izmed pristopov je bil izveden pri različnih vrednostih parametrov, kar mi je omogočilo sklepanje o vplivu vrednosti parametrov na končne rezultate.
Različni pristopi k optimizaciji kalibracije so pripeljali do zaključka, da s spreminjanjem števila uporabljenih spektrov ohranjamo robustnost števila identificiranih proteinskih skupin, medtem ko s spreminjanjem števila peptidov dosežemo opazno skrajšanje časa potrebnega za izvedbo analize. Z združitvijo obeh pristopov, pri optimalni izbiri parametrov, dosežemo v povprečju 11.06% krajši čas analize (Approach 3.3, Tabela 3.6) z minimalno spremembo v številu identificiranih proteinskih skupin (Approach 3.3, Tabela 3.5).
Prav tako je bila opravljena tudi evalvacija dodane vrednosti, ki jo doprinese strojno učenje k številu identificiranih proteinskih skupin. Za strojno učenje sem uporabil orodje Percolator, ki je uveljavljeno na področju proteomike. Percolator uporablja za razločevanje podatkov SVM (ang. support-vector machine). Kvaliteta strojnega učenja je odvisna od izbire značilk na podlagi katerih algoritem uči model. Ob evalvaciji doprinosa strojnega učenja k številu identificiranih proteinskih skupin, me je zanimal tudi vpliv posameznih značilk na število identifikacij. Vsak eksperiment sem analiziral mnogokrat, s tem da je bila vsakokrat iz učenja izločena druga značilka. V kolikor se je z izločitvijo posamezne značilke število identifikacij dvignilo, ta značilka poslabša klasifikacijo za izbran eksperiment. V kolikor identifikacije padejo, ta značilka doprinese k klasifikaciji za izbran eksperiment.
Z uporabo strojnega učenja je Pulsar algoritem v povprečju dosegel 20.20% več identificiranih proteinskih skupin, medtem ko je sam proces strojnega učenja v povprečju potreboval zgolj 5.61% časa potrebnega za celotno analizo (Tabela 3.7). Iz analize vpliva značilk na število identificiranih proteinskih skupin smo ugotovili, da je pomembnost značilke odvisna od vrste eksperimenta in da je težavno zaključiti katere značilke so pomembne in katere niso.
Na podlagi ugotovitev o optimizaciji kalibracije in o vplivu strojnega učenja lahko sklepamo, da bi bil Pulsar algoritem s hkratno uporabo strojenega učenja in optimizirane kalibracije primerljiv tudi z ostalimi proteinskimi iskalniki, ki uporabljajo strojno učenje, kot na primer SEQUEST + Percolator (Tabela 3.9).
Podrobnejši opisi posameznih metod se nahajajo v poglavju Materials and Methods, medtem ko se rezultati posameznih metod in njihova evalvacija nahajajo v poglavju Results and Discussions.
Bralec bo ob koncu imel dober pregled nad področjem masne spektrometrije, potekom dela pri podatkovno odvisnem zajemu podatkov in primerljivostjo Pulsar algoritma z drugimi, uveljavljenimi proteinskimi iskalniki.
|