Klasifikacija biomedicinskih člankov z globokimi modeli

Slijepčević, Tomislav

Klasifikacija biomedicinskih člankov z globokimi modeli
ID Slijepčević, Tomislav (Author), ID Zupan, Blaž (Mentor) More about this mentor... This link opens in a new window

PDF - Presentation file, Download (5,95 MB)
MD5: AB1030A25F0248AC64CBE8401AEA6577

Abstract

V magistrskem delu smo razvili model, ki lahko besedila s področja znanosti v življenju predstavi v vektorski obliki, ki je primerna za uporabo v strojnem učenju. Naša ciljna skupina besedil so bili povzetki člankov iz zbirke MEDLINE, kjer so povzetki člankov označeni s pripisi iz ontologije MeSH. Razviti model uporablja globoko nevronsko mrežo za napovedovanje pripisov iz besedil. Za vektorsko predstavitev besedil smo uporabili predzadnji nivo mreže s 1000 nevroni. Model smo primerjali z večrazredno logistično regresijo, ki pripise MeSH napove iz vektorskih predstavitev besedil od modelov doc2vec. V poskusih napovedovanja pripisov MeSH na testni množici je točnost našega modela boljša. Prav tako so vektorske predstavitve besedil od našega modelom v primerjavi z vektorskimi predstavitvami besedil od modelov doc2vec boljše v točkovnih vizualizacijah z metodo t-SNE.

Language:	Slovenian
Keywords:	biomedicinska literatura, vektorska predstavitev besedil, globoko uˇcenje, napovedovanje pripisov MeSH
Work type:	Master's thesis/paper
Organization:	FRI - Faculty of Computer and Information Science
Year:	2018
PID:	20.500.12556/RUL-100946
Publication date in RUL:	25.04.2018
Views:	1481
Downloads:	289
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Deep Models for Classification of Biomedical Documents
In this master thesis, we developed a model that can present texts from life sciences in the vector form that is suitable for machine learning. Our corpus were abstracts from the MEDLINE collection, where abstracts are labeled with annotations from the MeSH ontology. The developed model uses a deep neural network for predicting MeSH annotations from a text. For the vector representation of a text, we used penultimate layer of a network that has 1000 neurons. The model was compared to the multinomial logistic regression, which predicts MeSH annotations from vector representations of texts that are obtained with doc2vec. In the task of predicting MeSH annotations on the test dataset, our model achieved higher accuracy. Also, vector representations of texts obtained with our model were in comparison with vector representations of texts obtained with doc2vec, better in point-based visualizations using the t-SNE method.
Keywords:	biomedical literature, vector representation of text, deep learning, prediction of MeSH terms

Similar works from RUL:
Similar works from other Slovenian collections:

Secondary language

Similar documents