izpis_h1_title_alt

Vektorske vložitve kemijskih struktur
ID Golobič, Bogdan (Author), ID Zupan, Blaž (Mentor) More about this mentor... This link opens in a new window

.pdfPDF - Presentation file, Download (1,81 MB)
MD5: E69996FF367592105717D2E7DBCEB88E

Abstract
V raziskavah in iskanju novih zdravil nam danes pomagajo računalniške tehnologije. Že ustvarjene podatkovne zbirke so na primer lahko uporabljene za klasifikacijo kemijskih struktur. V nalogi nas je zanimala kvaliteta vektorskih vložitev kemijskih struktur z avtokodirnikom pri problemih klasifikacije, kjer bi jih lahko uporabljali kot alternativo že uveljavljenim prstnim odtisom. Arhitektura avtokodirnika sledi trendom raziskav, kjer so uporabljene konvolucijske plasti in rekurenčne enote z vrati. Samo kvaliteto vložitev smo ocenjevali na realnih podatkovnih zbirkah aktualnih učinkovin. Raziskave so pokazale, da so vektorske vložitve primerljive z že razvitimi prstnimi odtisi. Na nekaterih primerih nudi vektorske predstavitve učinkovin, ki izboljšajo točnost uporabljenih tehnik strojnega učenja. Razvili smo tudi gradnik za odprto-kodno programsko opremo Orange, ki omogoča vektorsko vložitev kemijskih struktur v notaciji SMILES tako z metodo razvito v nalogi, kot tudi z ostalimi prstnimi odtisi uporabljenimi v nalogi.

Language:Slovenian
Keywords:vektorske vložitve, avtokodirnik, klasifikacija, zapis SMILES
Work type:Master's thesis/paper
Organization:FRI - Faculty of Computer and Information Science
Year:2019
PID:20.500.12556/RUL-111797 This link opens in a new window
COBISS.SI-ID:1538418883 This link opens in a new window
Publication date in RUL:14.10.2019
Views:1625
Downloads:207
Metadata:XML RDF-CHPDL DC-XML DC-RDF
:
Copy citation
Share:Bookmark and Share

Secondary language

Language:English
Title:Vector embedding of chemical compounds
Abstract:
Recent developments in computational techniques have advanced drug discovery and design. For example, standard databases with known chemicals and their modes of actions can be considered by machine learning to classify new drugs. Here, we were interested in the vectorized presentations of the structure of small molecules, a crucial first step towards any data analytics in computational chemistry. Vectorized presentations were inferred through the construction of autoencoders. We followed the current literature trends and used a combination of convolutional and recurrent layers. Experimental results show that our model is comparable to standard chemical fingerprints, where on some of the test databases even provides for improved accuracy. We published the code to infer the embedder in open source on the GitHub repository and included the embedder within the fingerprinting widget for Orange data mining suite.

Keywords:vector embeddings, autoencoder, classification, SMILES notation

Similar documents

Similar works from RUL:
Similar works from other Slovenian collections:

Back