izpis_h1_title_alt

Razvrščanje velikih podatkovij
Korenjak-Černe, Simona (Avtor), Batagelj, Vladimir (Avtor), Japelj Pavešić, Barbara (Avtor), Kejžar, Nataša (Avtor)

URLURL - Predstavitvena datoteka, za dostop obiščite http://www.stat.si/StatisticniDnevi/Docs/KCerne-Razvrscanje_prispevek.pdf Novo okno

Izvleček
V zadnjih dveh desetletjih je shranjevanje velikih podatkovij postalo dostopno domala vsem uporabnikom računalnikov. S tem je povezan problem, kako iz velike množice podatkov izluščiti čim več za uporabnika koristnih informacij. Eno takih orodij je razvrščanje podatkov v skupine. Klasične metode razvrščanja, ki se najpogosteje uporabljajo, imajo predvsem dve pomanjkljivosti: hierarhične metode (npr. Wardova), ki temeljijo na matriki različnosti med enotami, so primerne le za manjša podatkovja, nehierarhične metode (npr. metoda k-središč) pa so večinoma omejene le na številske podatke in skupine predstavijo le z eno samo vrednostjo (najpogosteje težiščem). V prispevku si ogledamo prilagoditve metod razvrščanja, ki smo jih razvili za podatke, predstavljene z diskretnimi porazdelitvami. Tovrstna predstavitev podatkov in skupin ohrani več informacij kot predstavitev s samo eno od srednjih vrednosti, ki se uporablja pri klasičnih metodah razvrščanja. Prilagojene metode obenem omogočajo obdelavo zelo velikih podatkovij. Tudi za te predstavitve je mogoče izpeljati s kriterijsko funkcijo usklajene hierarhične in nehierarhične metode. Za tovrstne podatke so predstavljene tudi nove metode razvrščanja, ki temeljijo na izračunu relativne napake skupine in imajo v nekaterih primerih zaradi takega izračuna prednost pred klasično metodo k-središč, ki temelji na minimizaciji variance. Uporabnost opisanih metod je predstavljena na konkretnih primerih.

Jezik:Slovenski jezik
Ključne besede:podatki, statistika, statistične metode, razvrščanje v skupine, velika podatkovja, hierarhična metoda, nehierarhična metoda, diskretna porazdelitev, relativna napaka skupine
Vrsta gradiva:Delo ni kategorizirano (r6)
Tipologija:1.08 - Objavljeni znanstveni prispevek na konferenci
Organizacija:EF - Ekonomska fakulteta
Leto izida:2009
Št. strani:8 str.
UDK:311
COBISS.SI-ID:18898918 Povezava se odpre v novem oknu
Število ogledov:420
Število prenosov:116
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
 
Skupna ocena:(0 glasov)
Vaša ocena:Ocenjevanje je dovoljeno samo prijavljenim uporabnikom.
:
Objavi na: Bookmark and Share

Sekundarni jezik

Jezik:Angleški jezik
Izvleček:
In the last two decades the development of IT enabled users to store large datasets on ordinary PC. The problem how to analyze such data sets emerged. One of the answers are the clustering methods, where the units are partitioned into smaller number of coherent groups - clusters. Classical clustering methods face two problems: hierarchical methods are limited to small number of units; and nonhierarchical methods are mostly limited to units described with numbers and use for the cluster's representation only one value (usually the center of the cluster). In the paper, our adaptations of clustering methods for data described with discrete distributions are presented. Such description is more informative and also enables us to cluster very large datasets. Since standard k-means and Ward's clustering methods are both based on the squared Euclidean distance as the error function, they in some cases do not give the "expected" results. To reveal the"expected" structure in the data we developed new clustering methods based on relative error functions. The applications of the new methods on concrete data sets are also presented.

Ključne besede:data, statistics, statistical methods, cluster analysis, clustering, large data sets, discrete distribution, hierarchical clustering, k-means method, relative error function

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Komentarji

Dodaj komentar

Za komentiranje se morate prijaviti.

Komentarji (0)
0 - 0 / 0
 
Ni komentarjev!

Nazaj