Vaš brskalnik ne omogoča JavaScript!
JavaScript je nujen za pravilno delovanje teh spletnih strani. Omogočite JavaScript ali pa uporabite sodobnejši brskalnik.
Repozitorij Univerze v Ljubljani
Nacionalni portal odprte znanosti
Odprta znanost
DiKUL
slv
|
eng
Iskanje
Brskanje
Novo v RUL
Kaj je RUL
V številkah
Pomoč
Prijava
Podrobno
Sferična metoda
k
-voditeljev : delo diplomskega seminarja
ID
Lampič, Jan
(
Avtor
),
ID
Knez, Marjetka
(
Mentor
)
Več o mentorju...
PDF - Predstavitvena datoteka,
prenos
(1,65 MB)
MD5: 450D82D53611951E455DBF50800F526B
R - Priloga,
prenos
(2,07 KB)
MD5: C2AC6C27FD40EB2D66B74B181D1F99E8
Galerija slik
Izvleček
Hiter napredek pri tehnikah pridobivanja podatkov, je povzročil, da se količina podatkov iz dneva v dan eksponentno veča. Ocenjuje se, da je 80% svetovnih podatkov shranjenih v nestrukturiranem besedilu. Tekstovno rudarjenje je tako postalo zanimivo raziskovalno področje, saj poskuša odkriti dragocene informacije iz nestrukturiranih besedil. Temeljni problem tekstovnega rudarjenja je grupiranje dokumentov. V delu diplomskega seminarja je, kot ena izmed najbolj priljubljenih metod grupiranja dokumentov, predstavljena sferična metoda
k
-voditeljev. Za lažje razumevanje metode, sta na začetku opisana problema grupiranja in reprezentacije dokumentov. Glavni cilj dela je izpeljava algoritma sferične metode
k
-voditeljev. S tem namenom je najprej predstavljena paketna verzija algoritma, z njenimi slabostmi in računskimi izboljšavami. Sledi opis inkrementalne verzije algoritma, ki izboljša rezultate paketne verzije. Končen algoritem sferične metode
k
-voditeljev je dobljen s kombinacijo prejšnjih dveh. V zaključku dela je opisan še zgled uporabe algoritma sferične metode
k
-voditeljev, kjer je problem avtorstvo knjig ”Čarovnik z Oza”. Algoritem posameznim knjigam poišče avtorja besedila na podlagi pogostosti besed, ki jih avtor uporablja.
Jezik:
Slovenski jezik
Ključne besede:
tekstovno rudarjenje
,
grupiranje
,
sferična metoda k-voditeljev
,
kosinusna podobnost
,
model vreče besed
Vrsta gradiva:
Delo diplomskega seminarja/zaključno seminarsko delo/naloga
Tipologija:
2.11 - Diplomsko delo
Organizacija:
FMF - Fakulteta za matematiko in fiziko
Leto izida:
2018
PID:
20.500.12556/RUL-102904
UDK:
004
COBISS.SI-ID:
18432601
Datum objave v RUL:
12.09.2018
Število ogledov:
2169
Število prenosov:
454
Metapodatki:
Citiraj gradivo
Navadno besedilo
BibTeX
EndNote XML
EndNote/Refer
RIS
ABNT
ACM Ref
AMA
APA
Chicago 17th Author-Date
Harvard
IEEE
ISO 690
MLA
Vancouver
:
LAMPIČ, Jan, 2018,
Sferična metoda $k$-voditeljev : delo diplomskega seminarja
[na spletu]. Diplomsko delo. [Dostopano 3 maj 2025]. Pridobljeno s: https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=102904
Kopiraj citat
Objavi na:
Sekundarni jezik
Jezik:
Angleški jezik
Naslov:
Spherical
k
-means algorithm
Izvleček:
Rapid progress in digital data acquisition techniques has led to huge volume of data. Approximately 80% of the world’s data is in stored as an unstructured text. Text mining has therefore become an exciting research field as it tries to discover valuable information from unstructured texts. Clustering is one of the most interesting and important topics in text mining. This work presents one of the most popular document clustering algorithms, the spherical
k
-means. First, the problem of clustering and representation of documents is described to better understand the method. The main goal of this work is to derive the spherical
k
-means algorithm. For this purpose, the batch version of the algorithm, with its weaknesses and calculation improvements, is introduced first. A description of the incremental version of the algorithm which improves the results of the batch version is presented next. Finally, the batch and incremental iterations are combined to generate the spherical
k
-means algorithm. To conclude the work an example of the use of the spherical
k
-means is given, where the problem is the authorship of books “The Wizard of Oz”. The algorithm assigns authors to the books based on the frequency of used words.
Ključne besede:
text mining
,
clustering
,
spherical k-means algorithm
,
cosine similarity
,
bag-of-words model
Podobna dela
Podobna dela v RUL:
Infrastrukturni ukrepi za višji nivo prometne varnosti na AC
Model odločanja lastnikov nepremičnin pri potresni rehabilitaciji stavb
Analiza stroškov in koristi zimskih Olimpijskih iger v Vancouvru 2010
Analiza stroškov in koristi posameznih ukrepov pri projektiranju nizkoenergijske enodružinske hiše
Metodologija analize stroškov in koristi za investicije v prometno infrastrukturo na osnovi Poročila vplivov na okolje
Podobna dela v drugih slovenskih zbirkah:
Analiza stroškov in koristi v investicijo pridelave HTC oglja
Optimizacija skladiščnega poslovanja v izbranem podjetju
ANALIZA STROŠKOV IN KORISTI V PRIDELAVI IN PREDELAVI MLEKA SANSKE KOZE
Analiza stroškov in koristi metod za zaščito proti pozebi
PRIMERJALNA ANALIZA STROŠKOV IN KORISTI INVESTICIJE V INTEGRIRANO UPLINJANJE LESNE BIOMASE V LEBDEČEM SLOJU
Nazaj