Vaš brskalnik ne omogoča JavaScript!
JavaScript je nujen za pravilno delovanje teh spletnih strani. Omogočite JavaScript ali pa uporabite sodobnejši brskalnik.
Repozitorij Univerze v Ljubljani
Nacionalni portal odprte znanosti
Odprta znanost
DiKUL
slv
|
eng
Iskanje
Brskanje
Novo v RUL
Kaj je RUL
V številkah
Pomoč
Prijava
Podrobno
Topic analysis of Slovenian news and social media
ID
HLADNIK, JUŠ
(
Avtor
),
ID
Robnik Šikonja, Marko
(
Mentor
)
Več o mentorju...
PDF - Predstavitvena datoteka,
prenos
(2,12 MB)
MD5: FECC8DC675D922E76B0299AB381EEDA7
Galerija slik
Izvleček
Topic modeling is an unsupervised machine learning technique that aims to discover hidden semantic structures within large collections of text documents, thus facilitating the exploration and understanding of vast textual data. We conduct a comprehensive comparison of four popular topic modeling algorithms, namely LDA, NMF, Top2vec and BERTopic, in the context of the Slovenian language. To assess the performance of these algorithms we use topic coherence and topic diversity quantitative evaluation and additionally manually interpret extracted topics. Our results demonstrate that all models achieve higher topic coherence on the news corpus compared to tweets. While BERTopic is the only algorithm to produce satisfactory results on the tweets corpus, all models perform well on the news corpus. Furthermore, we introduce a novel method, MBTS (Maximum Bipartite Topic Similarity), for comparing the similarity of topic models and evaluating their stability. This method relies on semantic similarity and maximum graph bipartite matching. Our findings have important implications for the selection and application of topic modeling algorithms in the context of the Slovenian language. Moreover, the MBTS method opens up a new and important area of topic model stability evaluation.
Jezik:
Angleški jezik
Ključne besede:
topic modeling
,
language models
,
Slovene language
,
topic model stability and similarity
,
natural language processing
Vrsta gradiva:
Magistrsko delo/naloga
Tipologija:
2.09 - Magistrsko delo
Organizacija:
FRI - Fakulteta za računalništvo in informatiko
Leto izida:
2023
PID:
20.500.12556/RUL-146738
COBISS.SI-ID:
158061571
Datum objave v RUL:
09.06.2023
Število ogledov:
997
Število prenosov:
197
Metapodatki:
Citiraj gradivo
Navadno besedilo
BibTeX
EndNote XML
EndNote/Refer
RIS
ABNT
ACM Ref
AMA
APA
Chicago 17th Author-Date
Harvard
IEEE
ISO 690
MLA
Vancouver
:
HLADNIK, JUŠ, 2023,
Topic analysis of Slovenian news and social media
[na spletu]. Magistrsko delo. [Dostopano 14 april 2025]. Pridobljeno s: https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=146738
Kopiraj citat
Objavi na:
Sekundarni jezik
Jezik:
Slovenski jezik
Naslov:
Tematska analiza slovenskih novic in družbenih omrežij
Izvleček:
Modeliranje tem je nenadzorovana metoda strojnega učenja, ki si prizadeva odkriti skrite semantične strukture znotraj velikih zbirk dokumentov, s čimer omogoča raziskovanje in razumevanje obsežnih besedilnih podatkov. Celovito primerjamo štiri priljubljene algoritme za modeliranje tem, in sicer LDA, NMF, Top2vec in BERTopic, v kontekstu slovenskega jezika. Modele kvantitativno ovrednotimo z metrikama koherentnost tem in raznolikost tem, poleg tega odkrite teme tudi ročno pregledamo in interpretiramo. Naši rezultati kažejo, da vsi modeli dosegajo višjo koherenco tem na korpusu novic v primerjavi s tviti. Medtem ko algoritem BERTopic edini dosega zadovoljive rezultate na korpusu tvitov, na korpusu novic vsi modeli dosegajo dobre rezultate. Poleg tega predstavimo novo metodo, MBTS (največja dvostranska podobnost tem), za primerjavo podobnosti modelov za modeliranje tem in ocenjevanje njihove stabilnosti. Ta metoda temelji na semantični podobnosti in maksimalnem dvostranskem ujemanju grafov. Naše ugotovitve imajo pomembne posledice za izbiro in uporabo algoritmov za modeliranje tem v kontekstu slovenskega jezika. Poleg tega metoda MBTS odpira novo in pomembno področje evalvacije stabilnosti modelov za modeliranje tem.
Ključne besede:
modeliranje tem
,
jezikovni modeli
,
slovenščina
,
stabilnost in podobnost modelov za modeliranje tem
,
obdelava naravnega jezika
Podobna dela
Podobna dela v RUL:
Iščem podobna dela...
Podobna dela v drugih slovenskih zbirkah:
Nazaj