Modeliranje tem je nenadzorovana metoda strojnega učenja, ki si prizadeva odkriti skrite semantične strukture znotraj velikih zbirk dokumentov, s čimer omogoča raziskovanje in razumevanje obsežnih besedilnih podatkov.
Celovito primerjamo štiri priljubljene algoritme za modeliranje tem, in sicer LDA, NMF, Top2vec in BERTopic, v kontekstu slovenskega jezika. Modele kvantitativno ovrednotimo z metrikama koherentnost tem in raznolikost tem, poleg tega odkrite teme tudi ročno pregledamo in interpretiramo. Naši rezultati kažejo, da vsi modeli dosegajo višjo koherenco tem na korpusu novic v primerjavi s tviti. Medtem ko algoritem BERTopic edini dosega zadovoljive rezultate na korpusu tvitov, na korpusu novic vsi modeli dosegajo dobre rezultate.
Poleg tega predstavimo novo metodo, MBTS (največja dvostranska podobnost tem), za primerjavo podobnosti modelov za modeliranje tem in ocenjevanje njihove stabilnosti. Ta metoda temelji na semantični podobnosti in maksimalnem dvostranskem ujemanju grafov. Naše ugotovitve imajo pomembne posledice za izbiro in uporabo algoritmov za modeliranje tem v kontekstu slovenskega jezika. Poleg tega metoda MBTS odpira novo in pomembno področje evalvacije stabilnosti modelov za modeliranje tem.
|