Podrobno

Navigating latent space of natural language processing models to explain the galaxy of chiral molecules
ID Baimacheva, Natalia (Avtor), ID Podlipnik, Črtomir (Mentor) Več o mentorju... Povezava se odpre v novem oknu

.pdfPDF - Predstavitvena datoteka, prenos (2,56 MB)
MD5: 1F1CB0D5DC50285BA70B8995241F2749

Izvleček
Exploring effectiveness of representing molecular structural features in latent space of molecular heteroencoders, namely chirality. Latent space vectors are numerical vectors that can encode SMILES strings. Latent space vectors (LSV) showed ability to encode chirality of a molecule in order to classify enantiomers by order of their elution from the ADH chromatographic column. Additionaly delta LSV of the two enantiomers can highlight the chiral structural difference in order to improve the classification results. Delta LSV were calculated in 2 ways: difference of the opposite enantiomers and difference of one enantiomer and its non-stereo representation. Random forest models for LSV and DLSV reach prediction accuracies 0.753, 0.763 respectively.

Jezik:Angleški jezik
Ključne besede:latent space arithmetics, QSAR, language processing models
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FKKT - Fakulteta za kemijo in kemijsko tehnologijo
Leto izida:2025
PID:20.500.12556/RUL-169112 Povezava se odpre v novem oknu
COBISS.SI-ID:238557443 Povezava se odpre v novem oknu
Datum objave v RUL:13.05.2025
Število ogledov:1148
Število prenosov:34
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Navigacija po latentnem prostoru modelov za obdelavo naravnega jezika za razlago galaksije kiralnih molekul
Izvleček:
Kiralnost je ena izmed najpomembnejših lastnosti molekul v kemiji, še posebej v farmacevtski in biokemijski industriji. Molekule so kiralne, kadar so njihove strukture takšne, da jih ni mogoče prekrivno zrcaliti, kar pomeni, da imajo dve obliki – enantiomera. Ti enantiomeri imajo enako kemijsko sestavo in vezi med atomi, vendar se lahko obnašajo zelo različno v interakcijah z drugimi molekulami, kar ima pomembne posledice za biološke in farmakološke lastnosti. Na primer, en enantiomer zdravila lahko ima zaželen terapevtski učinek, medtem ko lahko drugi povzroči škodljive stranske učinke. V farmacevtski industriji je pravilna ločitev in identifikacija enantiomerov bistvenega pomena, saj omogoča razvoj zdravil z večjo učinkovitostjo in manjšimi stranskimi učinki. Tradicionalni postopki za ločevanje enantiomerov vključujejo različne eksperimentalne tehnike, kot so kapilarna elektroforeza, plinska kromatografija in NMR spektroskopija. Te tehnike pa so zamudne, drage in pogosto zahtevajo visoko stopnjo strokovnega znanja za pravilno izvajanje. Poleg tega so lahko te metode občutljive na napake, ki izhajajo iz človeškega dejavnika. Z napredkom v kemoinformatiki in umetni inteligenci so raziskovalci začeli preučevati možnost uporabe računalniških modelov za napovedovanje kiralnih lastnosti molekul in enantioselektivnosti. Kemoinformatični modeli so sposobni analizirati velike količine podatkov in napovedovati molekularne lastnosti na podlagi matematičnih deskriptorjev, ki predstavljajo strukture molekul. Eden izmed obetavnih pristopov na tem področju je uporaba jezikovnih modelov za obdelavo kemijskih podatkov. Molekule so lahko zapisane kot niz znakov, imenovanih SMILES (Simplified Molecular Input Line Entry System), ki opisujejo kemijske vezi in atome v molekuli. Ti zapisi omogočajo uporabo tehnik obdelave naravnega jezika za analizo kemijskih struktur. V tem magistrskem delu sem raziskala uporabo latentnih prostorskih vektorjev (LSV) za predstavitev molekularnih struktur in napovedovanje kiralnosti. Latentni prostorski vektorji so numerični vektorji, ki se generirajo iz SMILES zapisov in lahko učinkovito predstavijo kompleksne strukturne značilnosti molekul v obliki številk. Ta pristop omogoča, da se molekule pretvorijo iz kemijskih zapisov v numerične deskriptorje, ki jih je mogoče enostavno obdelovati s pomočjo algoritmov strojnega učenja. Osredotočila sem se na uporabo dveh glavnih modelov za generiranje latentnih prostorskih vektorjev: CDDD (angl. Continuous Data-Driven Descriptors) in transformatorja, ki temelji na SMILES zapisih. CDDD model je heteroenkoder, ki pretvori molekulo v niz 512 numeričnih deskriptorjev. Ta model je bil treniran na velikih zbirkah kemijskih podatkov, vendar ni bil specifično prilagojen za kiralnost, kar pomeni, da med pretvorbo molekule odstrani kiralne informacije. Kljub temu pa sem v tej raziskavi uporabila poseben pristop, da sem ohranila kiralnost med procesiranjem SMILES zapisov. Transformator, ki je bil uporabljen v tej raziskavi, je bil posebej treniran za obdelavo kiralnih molekul in je imel bolj omejeno vokabularno zbirko, vendar je bil boljši pri kodiranju kiralnih informacij. Poleg uporabe latentnih prostorskih vektorjev (LSV) sem raziskovala tudi uporabo t.i. delta latentnih prostorskih vektorjev (DLSV), ki predstavljajo razliko med vektorji za nasprotne enantiomere. DLSV omogoča poudarjanje specifičnih strukturnih razlik, ki so odgovorne za kiralnost. Te razlike sem izračunala na dva načina: kot razliko med nasprotnimi enantiomeri in kot razliko med enantiomerom in njegovo ne-stereo različico, pri čemer so bile kiralne informacije odstranjene. Za napovedovanje vrstnega reda elucije kiralnih molekul iz kromatografske kolone sem uporabila modele naključnega gozda (Random Forest) in gradientno izboljšanih dreves (Gradient Boosted Trees). Modeli so bili trenirani na eksperimentalnih podatkih, ki vključujejo 1578 parov enantiomerov. Podatki so vsebovali informacije o zadrževalnem času enantiomerov na ADH kromatografski koloni, kar je omogočilo napovedovanje vrstnega reda elucije na podlagi strukturnih značilnosti molekul, kodiranih v LSV in DLSV. Rezultati raziskave so pokazali, da so modeli, zasnovani na DLSV, dosegli višjo natančnost napovedovanja kiralnosti kot modeli, ki temeljijo samo na LSV. Posebej učinkoviti so bili modeli, ki so uporabljali DLSVori – opp, saj so lahko poudarili strukturne razlike med nasprotnimi enantiomeri. Natančnost teh modelov je dosegla do 81,8 %, kar je znatno boljše od modelov, ki temeljijo samo na LSV (z natančnostjo do 75,3 %). Poleg tega so modeli, zasnovani na transformatorju, pokazali nekoliko boljše rezultate pri napovedovanju kiralnosti v primerjavi z modeli, ki temeljijo na CDDD deskriptorjih, čeprav slednji niso bili specifično prilagojeni za kiralnost. Uporaba latentnih prostorskih vektorjev in delta latentnih prostorskih vektorjev se je izkazala kot zelo obetavna metoda za napovedovanje kiralnih lastnosti molekul. Ta pristop bi lahko nadomestil tradicionalne eksperimentalne metode, kot so NMR spektroskopija in kromatografija, ter zmanjšal čas in stroške, potrebne za izvedbo teh eksperimentov. Poleg tega bi lahko takšni modeli služili kot dodaten nadzorni mehanizem za identifikacijo morebitnih napak v obstoječih podatkovnih zbirkah. Na primer, lahko bi zaznali nepravilnosti v literaturi ali napake pri ročnem vnosu podatkov. Poleg napovedovanja vrstnega reda elucije kiralnih molekul bi bilo v prihodnosti zanimivo raziskati še druge kiralne lastnosti, kot je rotacija polarizirane svetlobe. Razvoj modelov, ki lahko napovedujejo te lastnosti, bi lahko bistveno izboljšal razumevanje in upravljanje kiralnosti v kemiji. To bi imelo velik vpliv na farmacevtsko industrijo, saj bi omogočilo hitrejšo in zanesljivejšo identifikacijo enantiomerov, kar bi prispevalo k varnejši in učinkovitejši uporabi zdravil. Na koncu lahko ugotovimo, da uporaba jezikovnih modelov za obdelavo kemijskih podatkov odpira nove možnosti za raziskovanje kemijskega prostora. Predstavljeni pristop z uporabo latentnih prostorskih vektorjev za kodiranje kiralnih informacij omogoča boljše razumevanje molekul, njihovo interakcijo z drugimi molekulami in napovedovanje njihovega vedenja v različnih eksperimentalnih pogojih. Ta raziskava predstavlja pomemben korak naprej v razvoju kemoinformatičnih orodij za obdelavo kiralnih molekul in bi lahko imela daljnosežne posledice za področja, kot so farmacija, biokemija in materialna znanost.

Ključne besede:latentni prostorski vektorji, kiralnost, enantiomeri, modeli za obdelavo naravnega jezika, kemoinformatika, QSAR

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj