Dandanes obstaja ogromna količina biomedicinskega znanja, ki vsak dan hitro prihaja skozi znanstveno objavljene članke. Vendar pa je poskušati slediti temu resnično zahtevno in vzame preveč časa. Se več, pri iskanju relevantnih dokumentov z zahtevanimi podatki. Da bi zdravstvenim delavcem pomagali ostati na tekočem in najti članke, povezane z njihovimi temami iskanja, v tej diplomski nalogi ustvarimo cevovod za pridobivanje informacij (IR), pri čemer najprej navedemo, s katerimi nevrodegenerativnimi boleznimi so članki povezani, in zagotovimo tudi analizo, ki pokaže, najpogostejših vzorcev, ki so raziskani in objavljeni. Za modeliranje smo raziskali več najsodobnejših modelov učenja za predstavitev besedila, kot so BERT, RoBERTa in BioBERT. Po natančnem prilagajanju vsakega modela je bil kot model za cevovod IR izbran BioBERT, ki zagotavlja izjemno zmogljivost s 94% navzkrižno validacijo CA. Prav tako primerjamo naš najsodobnejši model z bolj tradicionalnim in pogosto uporabljenim modelom Random Forest. Poleg tega so bili za analizo pogostih vzorcev uporabljeni izvlečki vpletenih bolezni opombe in koncepti kemičnih in genetskih spojin so bili ekstrahirani z uporabo modela prepoznavanja poimenovanih entitet (NER). Po tem so bile vse entitete normalizirane z uporabo povezovanja imenovanih entitet (NEL). Na ekstrahiranih entitetah je bilo uporabljeno rudarjenje asociacijskih pravil, da bi našli najpogosteje raziskane vzorce za vsako bolezen, ki so nadalje prikazani z uporabo več tehnik vizualizacije. Ti rezultati bodo zdravstvenim delavcem pomagali pri navajanju najnovejših informacij, po drugi strani pa bodo pokazali tudi na manjkajoče vrzeli, ki za določeno bolezen niso dobro raziskane. Podatki, vključeni v to študijo, so bili pridobljeni iz javno dostopne zbirke podatkov PubMed.
|