Razvoj in evalvacija metode voditeljev z razdaljo logaritmiranega verjetja

Roškarič, Tadej

Podrobno

Razvoj in evalvacija metode voditeljev z razdaljo logaritmiranega verjetja
ID Roškarič, Tadej (Avtor), ID Žiberna, Aleš (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (2,66 MB)
MD5: 2E7A42617EBC6A65F3222F4EDF4B423A

Izvleček

V tem magistrskem delu smo razvili in ovrednotili novo metodo razvrščanja v skupine. Poimenovali smo jo metoda voditeljev z razdaljo logaritmiranega verjetja. Obravnavan algoritem že v imenu namiguje, da temelji na obstoječem konceptu metode voditeljev, med katerimi je vsekakor najbolj poznana izvedbena različica k-središč. To idejo smo razširili tako, da namesto Evklidske razdalje uporabljamo razdaljo logaritmiranega verjetja. Slednja predstavlja mero kohezivnosti v skupinah. Ker Evklidska razdalja ni namenjena za uporabo pri nominalnih spremenljivkah, smo s predlagano funkcijo razdalje to težavo premostili, saj omogoča, da uporabljamo spremenljivke mešanih tipov, torej tako številske kot nominalne spremenljivke in tudi kombinacijo obeh tipov. Glavni namen zaključnega dela je, da razvijemo predlagano metodo, torej jo implementiramo v programski jezik R in ugotovimo, ali je v kontekstu razvrščanja v skupine konkurenčna alternativnim metodam. To smo izvedli s pomočjo simulacij in demonstracije na resničnih podatkih o indikatorjih indeksa človekovega razvoja (številske spremenljivke) in političnih režimov v državah sveta (nominalna spremenljivka). Simulaciji sta pokazali, da se v obravnavanih scenarijih metoda voditeljev z razdaljo logaritmiranega verjetja obnaša podobno kot alternativni algoritmi. Pri simulaciji s samo številskimi spremenljivkami so skoraj vse metode vrnile podobne rezultate, tako da bi načeloma lahko priporočili metodo k-središč, ki je zelo sorodna našemu novemu algoritmu in rezultatsko enakovredna, vendar bistveno hitrejša od naše implementacije. Nekoliko drugače je pri mešanih tipih spremenljivk, kjer se je predvsem pri večjem številu skupin najbolje izkazala metoda k-medoidov (PAM), ki je razvrščala z matriko podobnosti na podlagi Gowerjeve razdalje. Vpliv spremenljivih dejavnikov na končno razbitje naše metode je v skladu s pričakovanji in se ujema z ostalimi metodami, pri čemer so končni rezultati v večini primerov enako kakovostni kot pri alternativah. Glavna težava ustvarjene prototipne verzije metode voditeljev z razdaljo logaritmiranega verjetja se tiče njene računske zahtevnosti oziroma počasnosti postopka, pri čemer smo bili nekoliko omejeni s hitrostjo programskega jezika R. Pri demonstraciji na resničnih podatkih so obravnavane metode bile zelo enakovredne, saj so ustvarile podobna razbitja. Zaključki raziskave so privedli do sklepa, da je metoda voditeljev z razdaljo logaritmiranega verjetja pri demonstraciji na resničnih podatkih enakovredna njenim alternativam, pri čemer sta simulaciji pokazali, da je primerljiva z uveljavljenimi algoritmi, vendar obenem ne moremo trditi, da je boljša. Kljub temu je potrebno omeniti, da ima nova različica metode voditeljev pomembno prednost, saj obstaja verzija Bayesovega informacijskega kriterija, ki je prilagojena za obravnavano metodo, tako da si z njo lahko pomagamo pri izbiri števila skupin. Tako pri implementaciji kot simulacijah obstaja prostor za nadgradnjo, saj bi v bodoče lahko obstoječi prototip optimizirali in postavili dodatne oziroma kompleksnejše simulacijske pogoje.

Jezik:	Slovenski jezik
Ključne besede:	razvrščanje v skupine, metoda voditeljev, logaritmirano verjetje
Vrsta gradiva:	Magistrsko delo/naloga
Tipologija:	2.09 - Magistrsko delo
Organizacija:	FE - Fakulteta za elektrotehniko
Leto izida:	2024
PID:	20.500.12556/RUL-165960
COBISS.SI-ID:	219399171
Datum objave v RUL:	16.12.2024
Število ogledov:	602
Število prenosov:	229
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Development and evaluation of the leaders method with a log-likelihood-based distance
In this master’s thesis, we developed and evaluated a new proposed method for clustering. We suggested calling it the log-leaders method. The name itself comes from the fact that it is based on the so-called leaders method, which is an umbrella term for a multitude of clustering procedures including the well-known k-means algorithm. Our idea was to expand on this idea and instead of using the Euclidean distance, we tried implementing a log-likelihood-based distance. The logarithm of likelihood is supposed to be a measure of cohesion within the clusters. Since the Euclidean distance is not meant to be used on categorical data, the proposed distance function tries to deal with this issue as it can handle continuous, categorical and mixed types of variables. The main purpose of this thesis is to develop a working version of the proposed method, implement it into the R programming language and evaluate whether the algorithm itself is competitive in comparison to its alternatives. This was done with the help of simulations and a demonstrative example based on real data about indicators of the human development index (continuous variables) and the political regime of individual countries of the world (categorical variable). The simulations concluded that in the explored scenarios, the log-leaders method performed similarly to alternative algorithms. In the simulation with numeric variables only, almost all methods gave similar results and thus the recommended approach in this case could be k-means which is closely related to our proposed algorithm and also equivalent from a clustering standpoint although much faster in comparison to our implementation. The same cannot be said for mixed-type variables as the k-medoids (PAM) method, that clustered with the help of a similarity matrix based on the Gower distance, gave the best results especially in the case of a higher number of clusters. The effects of nonfixed factors on the proposed method were as expected and much the same as on the other algorithms with results among them being similar in terms of quality in most cases. The main problem regarding our prototype version of the log-leaders method came in the form of high computational intensity, that resulted in a slower execution of the algorithm, which could be partially attributed to the speed of the R programming language itself. As far as the demonstration on real data is concerned, the clustering methods we investigated gave similar results and thus in the real-life example, our implementation of the log-leaders method is equivalent to its alternatives. The simulations concluded that the proposed method is comparable to already established algorithms, even though we cannot argue that it performs any better. Despite that, the newly developed algorithm has an important advantage, because it supports a version of the Bayesian information criterion, that is completely compatible with the log-leaders method, which is helpful when deciding about the optimal number of clusters. The implementation and simulations, however, create a basis for future research, where the prototype version of the proposed method could be optimized, and the conditions of the simulations extended to include more complex scenarios.
Ključne besede:	clustering, leaders method, log-likelihood

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj