Kompleksna biološka zdravila, ki jih proizvaja podjetje Novartis, so kemijsko proteini, pridobljeni z bioprocesom. Za njihovo kakovost je nujna temeljita karakterizacija skozi celoten razvojni in proizvodni proces, saj nam ta omogoča določitev strukture proteina, zaznavanje morebitnih strukturnih sprememb in identifikacijo odstopanj v proizvodnem postopku. V ta namen se uporablja več uveljavljenih analitskih metod. Ena izmed njih je anionska izmenjevalna kromatografija (AEX), ki ločuje proteinske variante glede na njihov naboj. V zadnjem času se uveljavlja metoda z več atributi (angl. multi-attribute method, MAM), ki omogoča podrobnejšo in celovitejšo karakterizacijo proteina. Temelji na encimski razgradnji proteina na peptide in zaporedni uporabi tekočinske kromatografije ter masne spektrometrije. Poleg identifikacije različnih posttranslacijskih modifikacij pridobimo tudi informacijo o njihovi lokaciji na proteinu, kar predstavlja eno največjih prednosti te metode. Zaradi svoje natančnosti in širine zajetih podatkov MAM velja za obetavno alternativo starejšim metodam, kot je AEX. Vendar pa je za njeno uvedbo v rutinsko uporabo potrebno dokazati, da lahko nadomesti obstoječe metode in zagotovi ekvivalentne informacije.
V tej nalogi smo se osredotočili na primerjavo med metodama AEX in MAM. Analizo smo sprva izvedli na realnih podatkih, a jih zaradi njihove občutljivosti nismo vključili v magistrsko nalogo. Podatki, uporabljeni v tem delu, so umetno generirani po vzoru enega humanega proteina. Na ta način smo zagotovili ustrezno anonimizacijo, hkrati pa ohranili razložljivost in relevantnost rezultatov.
Povezave med MAM in metodami, ki temeljijo na naboju, so zaenkrat slabo raziskane, zato je na tem področju potrebnih več študij. Doslej so bile primerjave večinoma izvedene na enostaven način, bodisi s parnimi primerjavami bodisi z uporabo linearne regresije, kjer so bile posamezne modifikacije, kot je deamidacija, primerjane s seštevkom kislih vrhov, izmerjenih z metodami, kot sta kationska izmenjevalna kromatografija (CEX) ali ionska izmenjvalna kromatografija (IEC). Čeprav so te študije pokazale močne linearne povezave, ne zajamejo kompleksnosti podatkov, ki jih zagotavlja MAM. Tak pristop pogosto ni zadosten, saj imajo proteini lahko veliko modifikacij in je lahko več modifikacij razlog za spremembo v deležu kislih ali bazičnih zvrsti. V takšnih primerih je bolj ustrezna uporaba multivariatnega modeliranja. S hkratno uporabo vseh informacij, ki jih pridobimo z MAM, lahko napovemo meritve enostavnejših kromatografskih metod, v našem primeru AEX. Po našem vedenju se je doslej le ena študija lotila modeliranja kislih in bazičnih vrhov, izmerjenih z ionsko izmenjevalno kromatografijo (IEC) in hidrofobno interakcijsko kromatografijo (HIC), na podlagi podatkov MAM, ki so vključevali različne posttranslacijske modifikacije. Pri modeliranju so uporabili regresijo z delnimi najmanjšimi kvadrati (PLSR), vendar niso podrobneje raziskali, kako je posamezna modifikacija ali tip modifikacije povezana z meritvami kislih ali bazičnih vrhov.
Preden smo pristopili k modeliranju, smo izvedli obsežno vizualizacijo podatkov obeh metod. Rezultate AEX smo prikazali s ternarnim diagramom, ki ponazarja razmerja med glavnim vrhom, vsoto kislih vrhov in vsoto bazičnih vrhov. Analiza je pokazala, da so bazični vrhovi v večini vzorcev zanemarljivi, zato smo se osredotočili na napovedovanje kislih vrhov. Pri podatkih MAM smo uporabili kvantilne grafikone za prikaz glikanov na treh glikozilacijskih mestih, kar je razkrilo velike razlike med posameznimi mesti in potrdilo potrebo po ohranitvi teh informacij. Poleg tega smo uporabili metodo t-SNE za vizualizacijo kompleksnih glikozilacijskih podatkov v dvodimenzionalnem prostoru, kjer so se oblikovale tri skupine vzorcev. Korelacijski diagram je pokazal izrazito multikolinearnost med glikozilacijskimi spremenljivkami, kar je nakazovalo potrebo po redukciji dimenzionalnosti.
Zaradi visoke dimenzionalnosti in izrazite kolinearnosti podatkov je bila pred modeliranjem torej nujna redukcija dimenzionalnosti. Izvedli smo jo na interpretabilen način, da bi smer in velikost koeficientov ostali razložljivi tudi z vsebinskega (kemijskega) vidika. Uporabili in primerjali smo dve uveljavljeni tehniki: eksplorativno faktorsko analizo (EFA) in metodo glavnih komponent (PCA). Obe metodi smo podrobno preučili, da bi razumeli njune matematične osnove in primerjali rezultate na našem naboru podatkov. Pred izvedbo EFA smo najprej preverili ustreznost podatkov z izračunom KMO indeksa, ki je dosegel vrednost 0,95, kar kaže na visoko primernost za faktorsko analizo. Bartlettov test je potrdil prisotnost korelacij med spremenljivkami. Obe statistični metodi smo uporabili le na podatkih o glikozilacijskih profilih proteina, pri čemer smo na podlagi grafa padajočih lastnih vrednosti in možnosti interpretacije uporabili dva faktorja oziroma dve glavni komponenti.
Rezultati so pokazali, da sta metodi v našem primeru dali zelo podobne rezultate, kar je posledica velikega števila spremenljivk, visokih komunalnosti (nizkih specifičnih varianc) in dejstva, da pri EFA nismo uporabili rotacije. Odločili smo se, da nadaljujemo z glavnimi komponentami, dobljenimi s PCA. Glavni komponenti smo interpretirali s pomočjo grafa glavnih komponent (angl. biplot) in dodatnih grafov, na katerih smo prikazali predpostavljene lastnosti glikanov ter vrednosti glavnih komponent (angl. scores) oziroma uteži (angl. loadings). Ugotovili smo, da prva glavna komponenta odraža raven gradnika X na glikanih, druga pa velikost glikanov, ki je ni mogoče napovedati zgolj na podlagi gradnika X. Ti dve komponenti pojasnita približno 80 % variabilnosti v glikozilacijskih podatkih, izmerjenih z MAM.
Po redukciji dimenzionalnosti smo razvili napovedni model, ki ocenjuje vsoto kislih vrhov, izmerjenih z AEX, na podlagi podatkov MAM. Model je vključeval prvi dve glavni komponenti, pridobljeni s PCA, ki opisujeta glikozilacijo, in spremenljivke, ki predstavljajo oksidacije, deamidacije, glikacijo amino kislin in razcepe proteina na različnih mestih. Pred vključitvijo v model smo odstranili spremenljivke z zelo nizkimi vrednostmi (z medianami manjšimi od 0,5 %), saj nanje bolj vpliva šum, zaradi nizkega obsega meritev pa vodijo do nestabilnih ocen koeficientov (majhna sprememba v napovedni spremenljivki vodi do ogromnih sprememb v vsoti kislih vrhov). Končni model je pojasnil 72,6 % variabilnosti v vsoti kislih vrhov. Validacija z 10-kratnim navzkrižnim preverjanjem je dala skoraj enako povprečno vrednost R^2 (0,723).
Analiza koeficientov je pokazala, da imajo vse vključene spremenljivke pozitiven vpliv na povečanje vsote kislih vrhov. Da bi omogočili primerjavo med vplivi spremenljivk, smo podatke pred ponovnim modeliranjem skalirali. Največji učinek so imele oksidacije (zlasti na mestu 6), razcep na mestu 18 in glikacija amino kislin. Interpretacija v kontekstu kemije potrjuje, da glikacija zmanjšuje pozitivni naboj, kar vodi do nastanka kislih variant. Večja velikost glikanov, neodvisno od prisotnosti gradnikov X na glikanih, prav tako prispeva k nastanku kislih vrhov, verjetno zaradi steričnih vplivov na strukturo proteina. Oksidacije neposredno ne spreminjajo naboja, vendar lahko vplivajo na hidrofobnost in tvorbo vodikovih vezi, kar posredno vpliva na nastanek kislih zvrsti. Naše ugotovitve so skladne z obstoječo literaturo, ki opisuje vpliv teh modifikacij na rezultate metod, ki temeljijo na naboju, kot sta AEX in CEX.
Raziskava predstavlja pomemben prispevek k razumevanju povezav med MAM in AEX, saj nakazuje, da lahko MAM nadomesti AEX. To omogoča hitrejše in stroškovno učinkovitejše procese, ker napovedni model omogoča oceno kislih vrhov brez dejanskega merjenja z AEX. V prihodnje bi bilo smiselno vključiti dodatne metapodatke o vzorcih in razširiti analizo na druge proteine, zlasti tiste z večjo variabilnostjo bazičnih vrhov, da bi izboljšali tudi razumevanje vpliva modifikacij na tvorbo bazičnih vrhov. Prav tako bi višje ravni deamidacije omogočile natančnejšo oceno njenega vpliva na meritve AEX.
|