Uvod
Protimikrobna odpornost predstavlja eno največjih groženj globalnemu zdravju, saj vsako leto povzroči milijone smrti in otežuje zdravljenje pogostih okužb. Čeprav so bili tradicionalni antibiotiki majhnih molekul temelj protimikrobne terapije, je njihova široka uporaba privedla do zaskrbljujočega porasta bakterijskih sevov, odpornih na antibiotike. To zahteva alternativne terapevtske strategije, ki so hkrati učinkovite in manj dovzetne za razvoj odpornosti. Med obetavnimi kandidati na tem področju so antimikrobni peptidi — kratka zaporedja aminokislin, ki naravno nastopajo v različnih oblikah življenja in lahko delujejo protimikrobno in/ali imunomodulatorno Antimikrobni peptidi (AMP-ji) imajo različne mehanizme delovanja, njihovi večstranski načini delovanja pa prispevajo k širokospektralni aktivnosti proti širokemu spektru bakterijskih vrst.
Vzporedno z neprekinjenim iskanjem novih AMP-jev z izolacijo iz naravnih virov so računalniški pristopi pridobili vse več pozornosti zaradi svoje sposobnosti raziskovanja obsežnih kemijskih in zaporednih prostorov. Nedavni napredki na področju umetne inteligence in globokih generativnih modelov so znatno pospešili odkrivanje novih AMP-jev. Pristopi segajo od strojnega učenja za pregledovanje peptidnih knjižnic do generativnih globokih modelov, vključno z variacijskimi samokodirniki, Wassersteinovimi samokodirniki (WAE), rekurentnimi nevronskimi mrežami, generativnimi nasprotujočimi si omrežji in arhitekturami na osnovi transformatorjev. Ti pristopi omogočajo učinkovito vzorčenje novih peptidnih zaporedij, zaradi česar so postali metoda prve izbire pri načrtovanju novih AMP-jev. Vendar številni od the modelov delujejo kot «črne skrinjice», saj generirajo peptidna zaporedja brez zagotavljanja intuitivnega razumevanja ali razložljivosti za končnega uporabnika. To omejuje njihovo uporabnost za eksperimentalne kemike in biologe.
Samokodirniki ponujajo ključno prednost pri načrtovanju AMP-jev, saj omogočajo interpretacijo njihovih latentnih prostorov. V kombinaciji s tehnikami zmanjševanja dimenzionalnosti, kot so PCA, t-SNE ali UMAP, omogočajo intuitivno
dvodimenzionalno vizualizacijo naučenega prostora značilk, s čimer postane generativni proces razložljivejši. Bistven korak pri načrtovanju peptidov s samokodirniki je vzorčenje novih zaporedij iz latentnega prostora samokodirnika, saj izbrana strategija neposredno vpliva na raznolikost peptidov in uspešnost validacije. Običajni pristopi vključujejovzorčenje iz predporazdelitve, na gostoti temelječe metode z Gaussovimi mešanicami ter normalizirajoče tokove, ki latentne vektorje preslikajo v območja z visoko verjetnostjo.
Nedavno je bil predlagan nov okvir za načrtovanje AMP-jev, ki združuje Wassersteinov samokodirnik (WAE) in nelinearno metodo zmanjševanja dimenzionalnosti generativnega topografskega preslikovanja (GTM) (Pikalyova idr., bioRxiv, doi: 10.1101/2024.11.17.622654, 2024). Ta pristop omogoča tako generiranje novih AMP-jev kot razložljivost prek dvodimenzionalne vizualizacije latentnega prostora. Čeprav je okvir pokazal uspeh pri načrtovanju peptidov, aktivnih proti Staphylococcus aureus, je bila njegova uporaba po obsegu omejena — na eno samo bakterijsko vrsto in na peptide dolžine 10–14 aminokislinskih ostankov.
V pričujočem delu je bil ta okvir GTM–WAE razširjen v dveh smereh. Prvič, zaporedni prostor je bil razširjen z vključitvijo peptidov dolžine od 6 do 25aminokislinskih ostankov. Drugič, pristop je bil razširjen z 1 na 14 bakterijskih vrst in 15 bakterijskih sevov, vključno s predstavniki tako gram-pozitivnih kot gram-negativnih bakterij. Poleg tega je bilo za gradnjo modelov strojnega učenja (ML), uporabljenih za presejanje obetavnih peptidnih kandidatov, uporabljenih več metod predstavitve zaporedij. Podroben opis poteka dela in njegova uporaba pri načrtovanju AMP-jev proti S. aureus in S. epidermidis, kar je bilo eksperimentalno potrjeno, je predstavljen v nadaljevanju.
Rezultati in razprava
Za učenje WAE je bil neoznačeni podatkovni niz zbran iz glavnih javnih peptidnih baz, vključno s TrEMBL, DBAASP, SATPdb, SwissProt, FermFooDb, Hemolytik, NeuroPedia, APD3 in BaAMPs. Ta nabor je obsegal več kot 275 000 edinstvenih peptidnih zaporedij dolžine od 6 do 25 aminokislinskih ostankov. Za konstrukcijo modelov ML je bil označeni podatkovni niz primarno pridobljen iz baze DBAASP in je vseboval peptide z eksperimentalno potrjeno protimikrobno aktivnostjo. Za okrepitev nabora in izboljšanje učinkovitosti modelov je bil ta dodatno dopolnjen z visokokakovostnim internim naborom, ki obsega 680 peptidov z znano aktivnostjo proti S. aureus.
Učeni in ovrednoteni so bili trije WAE s različnimi konfiguracijami. Ti so vključevali osnovno konfiguracijo (učeno na peptidih dolžine 10–14 ostankov), različico z razširjeno dolžino (učeno na peptidih dolžine 6–25 ostankov) ter različico s
spremenjeno izgubo, v kateri je bila odstranjena pomožna kazen za dolžino zaporedja (učena na peptidih dolžine 6–25 ostankov). Med njimi je WAE s spremenjeno izgubo dosegel natančnost rekonstrukcije 94,3 % na validacijskem naboru in bil izbran za nadaljnje korake. Koncretno so bila peptidna zaporedja, predstavljena kot latentni vektorji, ki jih ustvarja ta model, projicirana na GTM-mnogoterost, kar je dalo dvodimenzionalne predstavitve zaporednega prostora peptidov. Zgrajeni sta bili tako GTM gostotna pokrajina (ki odraža porazdelitev vseh peptidov v latentnem prostoru) kot tudi pokrajine aktivnosti (ki na podlagi označenih podatkov kažejo območja, povezana s protimikrobno aktivnostjo), kar je omogočilo prepoznavanje območij, obogatenih z aktivnimi AMP-ji.
Za napovedovanje aktivnosti peptidov so bili na označenem podatkovnem nizu naučeni trije algoritmi strojnega učenja: SVM, RF in CatBoost, z uporabo več vrst opisnikov zaporedij, vključno z 2-merami, 3-merami, latentnimi vektorji WAE ter vgraditvami (embeddings) iz proteinskega velikega jezikovnega modela ESM C. Vrednotenje učinkovitosti na podlagi uravnotežene točnosti (BA) in površine pod krivuljoROC (ROC AUC) je pokazalo, da so se vse vrste opisnikov obnesle primerljivo, pri čemer so vgraditve ESM C izkazale majhno, vendar dosledno prednost.
Iz nabora 1214 peptidov, ustvarjenih z izvirnim GTM-WAE (Pikalyova idr., bioRxiv, doi: 10.1101/2024.11.17.622654, 2024), je bila uporabljena strategija ansambelskega filtriranja. Peptidi so bili obdržani, če so jih več modelov napovedalo kot aktivne in so spadali v področje uporabnosti pri treh vrstah opisnikov. Za S. aureus so bili obdržani le peptidi, ki jih je kot aktivne napovedalo vsaj osem od devetih modelov; za S. epidermidis je bil uporabljen prag treh aktivnih napovedi. Te kandidate so nato vizualizirali na GTM-pokrajinah, pri čemer je bilo deset izbranih za sintezo in in vitro testiranje na podlagi njihove lokalizacije v gostih aktivnih območjih ter prostorske raznolikosti po latentnem prostoru.
Sintezo in eksperimentalno oceno protimikrobne aktivnosti sta izvedli skupina dr. Dmytra Dziube in skupina dr. Julie Karpenko (Univerza v Strasbourgu). Izbrani peptidi so bili sintetizirani z uporabo standardne trdnofazne sinteze peptidov s Fmoc-zaščito in prečiščeni z uporabo semipreparativne visoko-učinkovite tekočinske kromatografije (HPLC). Antibakterijska aktivnost je bila izmerjena z bujonskimi mikroredčitvenimi testi proti S. aureus HG001 in S. epidermidis ATCC 12228. Trije peptidi so izkazali merljivo aktivnost proti S. epidermidis, dva od teh pa sta izkazala aktivnost tudi proti S. aureus. Vrednosti MIC za aktivne peptide so se gibale med 2 in 8 µg/mL. Vrednost MIC 8 µg/mL približno ustreza pragu 5 µM, ki je služil kot mejna vrednost za razvrščanje peptidov kotaktivnih. Na splošno so preizkušeni peptidi izkazali močnejšo protimikrobno aktivnost proti S. epidermidis v primerjavi z S. aureus.
Zaključek
V tej študiji je bil prej razviti okvir GTM–WAE za de novo načrtovanje AMP-jev razširjen tako, da cilja na širokospektralno aktivnost pri več bakterijah. Z uporabo javnih podatkovnih zbirk smo naučili 435 modelov ML, ki pokrivajo 14 vrst in 15 sevov, z raznolikimi načini kodiranja zaporedij. Modele ML smo nato uporabili za presejanje peptidov, generiranih z izvirnim GTM–WAE, glede na napovedano aktivnost proti S. aureus in S. epidermidis. Za eksperimentalno testiranje je bilo izbranih deset kandidatov, od katerih sta dva izkazala aktivnost proti obema vrstama. Na splošno so rezultati potrdili praktično vrednost razložljivega poteka dela GTM–WAE za načrtovanje širokospektralnih AMP-jev.
|