Raziskovalno-informacijski sistemi, kot je SICRIS, dolgotrajno beležijo publikacije,
sodelovanja in projekte ter s tem tvorijo relacijske, časovno označene
podatke, ki jih je smiselno predstaviti kot heterogene časovne grafe. V tej
diplomski nalogi je razvit napovedni model za napovedovanje števila mentorstev,
pri čemer je shema SICRIS preslikana v heterogeni graf, model
pa je ovrednoten z delitvami po petletnem napovednem horizontu. Jedro
modela sestavljajo: heterogeni grafovski transformer, rezidualne plasti, agregacija
”Jumping Knowledge” in stohastična regularizacija grafa (navključno
odstranjevanje povezav v grafu in navključno odstranjevanje aktivacij). Primerjava
je izvedena z močnim tabelaričnim modelom, XGBoost. Naloge so
definirane za posamezne raziskovalce v različnih časovnih točkah in zajemajo
tako binarne izide (vsaj eno mentorstvo doktoranda ali magistranta)
kot številske izide (število takih mentorstev) znotraj izbranega časovnega
okna. Empirični rezultati na SICRIS grafu kažejo, da heterogeni, časovno
občutljivi model presega tabelarično izhodišče. Analiza nakazuje, da tipizirana
pozornost z relativnim časovnim kodiranjem ter agregacija Jumping
Knowledge bolj učinkovito modelira večskokovne in večrelacijske podatke,
stohastična regularizacija grafa pa pomaga stabilizirati globlje plasti.
|