Kiralnost je ena izmed najpomembnejših lastnosti molekul v kemiji, še posebej v
farmacevtski in biokemijski industriji. Molekule so kiralne, kadar so njihove strukture
takšne, da jih ni mogoče prekrivno zrcaliti, kar pomeni, da imajo dve obliki –
enantiomera. Ti enantiomeri imajo enako kemijsko sestavo in vezi med atomi, vendar se
lahko obnašajo zelo različno v interakcijah z drugimi molekulami, kar ima pomembne
posledice za biološke in farmakološke lastnosti. Na primer, en enantiomer zdravila lahko
ima zaželen terapevtski učinek, medtem ko lahko drugi povzroči škodljive stranske
učinke.
V farmacevtski industriji je pravilna ločitev in identifikacija enantiomerov
bistvenega pomena, saj omogoča razvoj zdravil z večjo učinkovitostjo in manjšimi
stranskimi učinki. Tradicionalni postopki za ločevanje enantiomerov vključujejo različne
eksperimentalne tehnike, kot so kapilarna elektroforeza, plinska kromatografija in NMR
spektroskopija. Te tehnike pa so zamudne, drage in pogosto zahtevajo visoko stopnjo
strokovnega znanja za pravilno izvajanje. Poleg tega so lahko te metode občutljive na
napake, ki izhajajo iz človeškega dejavnika.
Z napredkom v kemoinformatiki in umetni inteligenci so raziskovalci začeli
preučevati možnost uporabe računalniških modelov za napovedovanje kiralnih lastnosti
molekul in enantioselektivnosti. Kemoinformatični modeli so sposobni analizirati velike
količine podatkov in napovedovati molekularne lastnosti na podlagi matematičnih
deskriptorjev, ki predstavljajo strukture molekul. Eden izmed obetavnih pristopov na tem
področju je uporaba jezikovnih modelov za obdelavo kemijskih podatkov. Molekule so
lahko zapisane kot niz znakov, imenovanih SMILES (Simplified Molecular Input Line
Entry System), ki opisujejo kemijske vezi in atome v molekuli. Ti zapisi omogočajo
uporabo tehnik obdelave naravnega jezika za analizo kemijskih struktur.
V tem magistrskem delu sem raziskala uporabo latentnih prostorskih vektorjev
(LSV) za predstavitev molekularnih struktur in napovedovanje kiralnosti. Latentni
prostorski vektorji so numerični vektorji, ki se generirajo iz SMILES zapisov in lahko
učinkovito predstavijo kompleksne strukturne značilnosti molekul v obliki številk. Ta
pristop omogoča, da se molekule pretvorijo iz kemijskih zapisov v numerične
deskriptorje, ki jih je mogoče enostavno obdelovati s pomočjo algoritmov strojnega
učenja.
Osredotočila sem se na uporabo dveh glavnih modelov za generiranje latentnih
prostorskih vektorjev: CDDD (angl. Continuous Data-Driven Descriptors) in
transformatorja, ki temelji na SMILES zapisih. CDDD model je heteroenkoder, ki
pretvori molekulo v niz 512 numeričnih deskriptorjev. Ta model je bil treniran na velikih
zbirkah kemijskih podatkov, vendar ni bil specifično prilagojen za kiralnost, kar pomeni,
da med pretvorbo molekule odstrani kiralne informacije. Kljub temu pa sem v tej
raziskavi uporabila poseben pristop, da sem ohranila kiralnost med procesiranjem
SMILES zapisov. Transformator, ki je bil uporabljen v tej raziskavi, je bil posebej
treniran za obdelavo kiralnih molekul in je imel bolj omejeno vokabularno zbirko, vendar
je bil boljši pri kodiranju kiralnih informacij.
Poleg uporabe latentnih prostorskih vektorjev (LSV) sem raziskovala tudi
uporabo t.i. delta latentnih prostorskih vektorjev (DLSV), ki predstavljajo razliko med
vektorji za nasprotne enantiomere. DLSV omogoča poudarjanje specifičnih strukturnih
razlik, ki so odgovorne za kiralnost. Te razlike sem izračunala na dva načina: kot razliko
med nasprotnimi enantiomeri in kot razliko med enantiomerom in njegovo ne-stereo
različico, pri čemer so bile kiralne informacije odstranjene.
Za napovedovanje vrstnega reda elucije kiralnih molekul iz kromatografske
kolone sem uporabila modele naključnega gozda (Random Forest) in gradientno
izboljšanih dreves (Gradient Boosted Trees). Modeli so bili trenirani na eksperimentalnih
podatkih, ki vključujejo 1578 parov enantiomerov. Podatki so vsebovali informacije o
zadrževalnem času enantiomerov na ADH kromatografski koloni, kar je omogočilo
napovedovanje vrstnega reda elucije na podlagi strukturnih značilnosti molekul,
kodiranih v LSV in DLSV.
Rezultati raziskave so pokazali, da so modeli, zasnovani na DLSV, dosegli višjo
natančnost napovedovanja kiralnosti kot modeli, ki temeljijo samo na LSV. Posebej
učinkoviti so bili modeli, ki so uporabljali DLSVori – opp, saj so lahko poudarili
strukturne razlike med nasprotnimi enantiomeri. Natančnost teh modelov je dosegla do
81,8 %, kar je znatno boljše od modelov, ki temeljijo samo na LSV (z natančnostjo do
75,3 %). Poleg tega so modeli, zasnovani na transformatorju, pokazali nekoliko boljše
rezultate pri napovedovanju kiralnosti v primerjavi z modeli, ki temeljijo na CDDD
deskriptorjih, čeprav slednji niso bili specifično prilagojeni za kiralnost.
Uporaba latentnih prostorskih vektorjev in delta latentnih prostorskih vektorjev se
je izkazala kot zelo obetavna metoda za napovedovanje kiralnih lastnosti molekul. Ta
pristop bi lahko nadomestil tradicionalne eksperimentalne metode, kot so NMR
spektroskopija in kromatografija, ter zmanjšal čas in stroške, potrebne za izvedbo teh
eksperimentov. Poleg tega bi lahko takšni modeli služili kot dodaten nadzorni mehanizem
za identifikacijo morebitnih napak v obstoječih podatkovnih zbirkah. Na primer, lahko bi
zaznali nepravilnosti v literaturi ali napake pri ročnem vnosu podatkov.
Poleg napovedovanja vrstnega reda elucije kiralnih molekul bi bilo v prihodnosti
zanimivo raziskati še druge kiralne lastnosti, kot je rotacija polarizirane svetlobe. Razvoj
modelov, ki lahko napovedujejo te lastnosti, bi lahko bistveno izboljšal razumevanje in
upravljanje kiralnosti v kemiji. To bi imelo velik vpliv na farmacevtsko industrijo, saj bi
omogočilo hitrejšo in zanesljivejšo identifikacijo enantiomerov, kar bi prispevalo k
varnejši in učinkovitejši uporabi zdravil.
Na koncu lahko ugotovimo, da uporaba jezikovnih modelov za obdelavo
kemijskih podatkov odpira nove možnosti za raziskovanje kemijskega prostora.
Predstavljeni pristop z uporabo latentnih prostorskih vektorjev za kodiranje kiralnih
informacij omogoča boljše razumevanje molekul, njihovo interakcijo z drugimi
molekulami in napovedovanje njihovega vedenja v različnih eksperimentalnih pogojih.
Ta raziskava predstavlja pomemben korak naprej v razvoju kemoinformatičnih orodij za
obdelavo kiralnih molekul in bi lahko imela daljnosežne posledice za področja, kot so
farmacija, biokemija in materialna znanost.
|