Improvement of data dependent acquisition analysis in mass spectrometry

BAUMKIRCHER, ALJAŽ

Repository of the University of Ljubljana

Details

Improvement of data dependent acquisition analysis in mass spectrometry
ID BAUMKIRCHER, ALJAŽ (Author), ID Reberšek, Matej (Mentor) More about this mentor... This link opens in a new window

PDF - Presentation file, Download (6,38 MB)
MD5: 10B12A72CA1ED0723B4405EC0F764544

Abstract

The field of proteomics is a constantly evolving scientific field, focused on the large-scale study of proteins. In general, researchers can choose between targeted analysis, where they observe a specific protein, or discovery analysis, where they get a qualitative and possibly quantitative overview of the whole proteome. There are different approaches to the discovery analysis, with the data-dependent acquisition (DDA) currently being one of the most widely adopted analysis approaches in the field of proteomics. This thesis focuses on the Pulsar algorithm, a search engine developed by Biognosys AG (Switzerland). Although Pulsar algorithm is able to analyze different types of acquisitions (DDA, DIA, PRM), we will focus exclusively on DDA data acquisition. The overall quality of a search engine is determined by the amount of identified proteins, as well as the execution time needed for the analysis. The goal of the thesis is to provide a general overview on how the Pulsar algorithm works, as well as how well it performs compared to some other search engines on the market (e.g. MaxQuant, SEQUEST integrated in the Thermo Proteome Discoverer). Furthermore, we investigate a possibility of improving the execution time of the analysis by optimizing the calibration process. Lastly, we tried to evaluate how a machine learning tool (e.g. Percolator) could bring additional value to the Pulsar algorithm. With approaches described in the chapter Materials and Methods and results presented and evaluated in the chapter Results and Discussions we managed to achieve a 11.06% of an improvement regarding the analysis execution time (Approach 3.3, Table 3.6), while not significantly influencing the number of identified protein groups (Approach 3.3, Table 3.5). Moreover, implementing Percolator in the Pulsar algorithm's workflow results in an average increase of 20.20% in protein group identifications, while consuming only 5.61% of the total execution time (Table 3.7). Combining both methods could potentially result in around 20% of an improvement in the protein group identifications, without prolonging the execution time. Since SEQUEST (using the Percolator) has on average 17.35% more protein group identifications than the Pulsar algorithm (Table 3.9), one could argue that with the modifications described in this thesis the Pulsar algorithm could be comparable, if not even better, than all other search engines used in this thesis. In the end, the reader should have a good overview of the field of mass spectrometry, data-dependent acquisition, and the quality of the Pulsar algorithm in comparison to other well-established search engines on the market.

Language:	English
Keywords:	Pulsar algorithm, data-dependent acquisition, search engine, machine learning, proteomics
Work type:	Master's thesis/paper
Organization:	FE - Faculty of Electrical Engineering
Year:	2018
PID:	20.500.12556/RUL-102887
Publication date in RUL:	11.09.2018
Views:	2153
Downloads:	367
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	Slovenian
Title:	Izboljšava analize podatkovno odvisnega zajemanja pri masni spektrometriji
Proteomika je veda, ki se ukvarja z analizo proteinov. Analiza je lahko tarčna, usmerjena v analizo točno določenega proteina, ali raziskovalna, kjer je cilj analiza celotnega proteoma oziroma skupka proteinov določenega organizma. Kljub temu, da na področju raziskovalne proteomike obstaja več različnih načinov zajema in analize podatkov, je podatkovno odvisen zajem (ang. data-dependent acquisition) trenutno med bolj razširjenimi pristopi na področju proteomike. V sklopu magistrske naloge sem se osredotočil na Pulsar algoritem, ki je programsko orodje za analizo podatkov pri podatkovno odvisnem zajemu podatkov iz masnih spektrometrov in je bil razvit pri podjetju Biognosys AG, Švica. Pomembna lastnost teh programskih orodij oziroma proteinskih iskalnikov je sposobnost identificiranja proteinov iz opravljenih meritev ter čas trajanja identifikacije. Narejena je bila primerjava med Pulsar algoritmom in drugimi, uveljavljenimi proteinskimi iskalniki in sicer z MaxQuant-om in SEQUEST-om, ki je integriran v sklopu programskega orodja Thermo Proteome Discoverer z namenom overitve kvalitete Pulsar algoritma. Proteinske iskalnike sem primerjal na podlagi dveh kriterijev - števila identificiranih proteinskih skupin in časa trajanja identifikacije. Zaključili smo, da je v smislu števila identificiranih proteinskih skupin Pulsar algoritem enakovreden drugim proteinskim iskalnikom, ki ne uporabljajo strojnega učenja. Proteinski iskalnik, ki uporablja strojno učenje, identificira v povprečju 17.35% več proteinskih skupin kot Pulsar algoritem (Tabela 3.9). Glede na čas identifikacije, je Pulsar algoritem boljši od vseh ostalih iskalnikov (Tabela 3.10). Prav tako je bila opravljena evalvacija optimizacije kalibracije z namenom časovne optimizacije algoritma. Kalibracija je opravljena na množici peptidov, ki so potencialno identificirani v množici spektrov (ang. peptide-spectrum match). Količina parov peptid-spekter vpliva na čas, ki je potreben za izvedbo kalibracije. Manj kot je parov, manj časa je potrebnega za kalibracijo, a to posledično vpliva tudi na kvaliteto kalibracije. Cilj naloge je bil dosežti signifikantno izboljšanje časa potrebnega za analizo, brez opazne spremembe v številu identificiranih proteinskih skupin. Preizkusil sem tri različne pristope, kjer sem število parov peptid-spekter zmanjševal s spreminjanjem števila uporabljenih spektrov, spreminjanjem števila peptidov in s hkratno uporabo prejšnih dveh pristopov. Vsak izmed pristopov je bil izveden pri različnih vrednostih parametrov, kar mi je omogočilo sklepanje o vplivu vrednosti parametrov na končne rezultate. Različni pristopi k optimizaciji kalibracije so pripeljali do zaključka, da s spreminjanjem števila uporabljenih spektrov ohranjamo robustnost števila identificiranih proteinskih skupin, medtem ko s spreminjanjem števila peptidov dosežemo opazno skrajšanje časa potrebnega za izvedbo analize. Z združitvijo obeh pristopov, pri optimalni izbiri parametrov, dosežemo v povprečju 11.06% krajši čas analize (Approach 3.3, Tabela 3.6) z minimalno spremembo v številu identificiranih proteinskih skupin (Approach 3.3, Tabela 3.5). Prav tako je bila opravljena tudi evalvacija dodane vrednosti, ki jo doprinese strojno učenje k številu identificiranih proteinskih skupin. Za strojno učenje sem uporabil orodje Percolator, ki je uveljavljeno na področju proteomike. Percolator uporablja za razločevanje podatkov SVM (ang. support-vector machine). Kvaliteta strojnega učenja je odvisna od izbire značilk na podlagi katerih algoritem uči model. Ob evalvaciji doprinosa strojnega učenja k številu identificiranih proteinskih skupin, me je zanimal tudi vpliv posameznih značilk na število identifikacij. Vsak eksperiment sem analiziral mnogokrat, s tem da je bila vsakokrat iz učenja izločena druga značilka. V kolikor se je z izločitvijo posamezne značilke število identifikacij dvignilo, ta značilka poslabša klasifikacijo za izbran eksperiment. V kolikor identifikacije padejo, ta značilka doprinese k klasifikaciji za izbran eksperiment. Z uporabo strojnega učenja je Pulsar algoritem v povprečju dosegel 20.20% več identificiranih proteinskih skupin, medtem ko je sam proces strojnega učenja v povprečju potreboval zgolj 5.61% časa potrebnega za celotno analizo (Tabela 3.7). Iz analize vpliva značilk na število identificiranih proteinskih skupin smo ugotovili, da je pomembnost značilke odvisna od vrste eksperimenta in da je težavno zaključiti katere značilke so pomembne in katere niso. Na podlagi ugotovitev o optimizaciji kalibracije in o vplivu strojnega učenja lahko sklepamo, da bi bil Pulsar algoritem s hkratno uporabo strojenega učenja in optimizirane kalibracije primerljiv tudi z ostalimi proteinskimi iskalniki, ki uporabljajo strojno učenje, kot na primer SEQUEST + Percolator (Tabela 3.9). Podrobnejši opisi posameznih metod se nahajajo v poglavju Materials and Methods, medtem ko se rezultati posameznih metod in njihova evalvacija nahajajo v poglavju Results and Discussions. Bralec bo ob koncu imel dober pregled nad področjem masne spektrometrije, potekom dela pri podatkovno odvisnem zajemu podatkov in primerljivostjo Pulsar algoritma z drugimi, uveljavljenimi proteinskimi iskalniki.
Keywords:	Pulsar algoritem, podatkovno neodvisen zajem podatkov, proteinski iskalnik, proteomika, masna spektrometrija

Similar works from RUL:
Similar works from other Slovenian collections:

Details

Secondary language

Similar documents