Vaš brskalnik ne omogoča JavaScript!
JavaScript je nujen za pravilno delovanje teh spletnih strani. Omogočite JavaScript ali pa uporabite sodobnejši brskalnik.
Nacionalni portal odprte znanosti
Odprta znanost
DiKUL
slv
|
eng
Iskanje
Brskanje
Novo v RUL
Kaj je RUL
V številkah
Pomoč
Prijava
Označevanje skupin dokumentov z uporabo vložitev besed
ID
Đukić, Nikola
(
Avtor
),
ID
Zupan, Blaž
(
Mentor
)
Več o mentorju...
PDF - Predstavitvena datoteka,
prenos
(583,22 KB)
MD5: 86F404C7BB34FF824B761B9CF38B52D5
Galerija slik
Izvleček
Dokumente lahko na različne načine predstavimo z vektorji ter jih vizualiziramo v dvorazsežnem prostoru. V tem prostoru lahko poiščemo skupine podobnih dokumentov in nato poiščemo besede, ki dobro opisujejo posamezne skupine. Vizualizacijo dokumentov lahko obogatimo s prikazom najdenih besed. Za to se uporabljajo metode za označevanje skupin dokumentov, ki temeljijo na uporabi mer pomembnosti, ki upoštevajo le frekvence besed v danem korpusu. V tem diplomskem delu predlagamo novo metodo za označevanje skupin dokumentov, ki za vložitev dokumentov in besed uporablja prednaučene modele za vložitev besed ter temelji na predpostavki, da so podobne besede predstavljene s podobnimi vektorji. Modele za vložitev besed med sabo primerjamo s stališča medsebojne podobnosti in uspešnosti na klasifikacijskih nalogah, da bi izbrali tistega, ki ga bomo uporabili v kombinaciji z metodo za označevanje skupin dokumentov. Metodo empirično ovrednotimo ter jo primerjamo z že obstoječim pristopom in pokažemo, da zaradi uporabe prednaučenih modelov lahko uspešno dela tudi na zelo majhnih podatkovnih množicah, česar že obstoječi pristop ne zmore.
Jezik:
Slovenski jezik
Ključne besede:
vložitve besed
,
vizualizacija
,
gručenje
Vrsta gradiva:
Diplomsko delo/naloga
Tipologija:
2.11 - Diplomsko delo
Organizacija:
FRI - Fakulteta za računalništvo in informatiko
Leto izida:
2020
PID:
20.500.12556/RUL-119839
COBISS.SI-ID:
31040003
Datum objave v RUL:
11.09.2020
Število ogledov:
1134
Število prenosov:
152
Metapodatki:
Citiraj gradivo
Navadno besedilo
BibTeX
EndNote XML
EndNote/Refer
RIS
ABNT
ACM Ref
AMA
APA
Chicago 17th Author-Date
Harvard
IEEE
ISO 690
MLA
Vancouver
:
Kopiraj citat
Objavi na:
Sekundarni jezik
Jezik:
Angleški jezik
Naslov:
Labeling document clusters using word embeddings
Izvleček:
Documents can be represented as vectors in various ways and visualized in two-dimensional space. In that space, we can find clusters of similar documents and the words that describe each cluster as well as possible. Those words can be added to the visualization to enrich it. This can be achieved by using methods for labeling document clusters. These methods use the frequencies of words in a given corpus to measure the importance of each word. In this thesis we propose a novel method for labeling clusters of documents. The method is based on using pre-trained word embedding models to embed both words and documents and utilizes the assumption that the similar words are represented with similar vectors. We compare word embedding models by computing their similarities and scores achieved on classification tasks to choose the one to use in combination with our method. Method is empirically evaluated and compared with the traditional approach. We show that compared to the traditional approach, our method can work on very small datasets due to the fact that it uses the pre-trained models to obtain the embeddings.
Ključne besede:
word embeddings
,
visualization
,
clustering
Podobna dela
Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:
Nazaj