izpis_h1_title_alt

Razvrščanje velikih podatkovij
Korenjak-Černe, Simona (Author), Batagelj, Vladimir (Author), Japelj Pavešić, Barbara (Author), Kejžar, Nataša (Author)

URLURL - Presentation file, Visit http://www.stat.si/StatisticniDnevi/Docs/KCerne-Razvrscanje_prispevek.pdf This link opens in a new window

Abstract
V zadnjih dveh desetletjih je shranjevanje velikih podatkovij postalo dostopno domala vsem uporabnikom računalnikov. S tem je povezan problem, kako iz velike množice podatkov izluščiti čim več za uporabnika koristnih informacij. Eno takih orodij je razvrščanje podatkov v skupine. Klasične metode razvrščanja, ki se najpogosteje uporabljajo, imajo predvsem dve pomanjkljivosti: hierarhične metode (npr. Wardova), ki temeljijo na matriki različnosti med enotami, so primerne le za manjša podatkovja, nehierarhične metode (npr. metoda k-središč) pa so večinoma omejene le na številske podatke in skupine predstavijo le z eno samo vrednostjo (najpogosteje težiščem). V prispevku si ogledamo prilagoditve metod razvrščanja, ki smo jih razvili za podatke, predstavljene z diskretnimi porazdelitvami. Tovrstna predstavitev podatkov in skupin ohrani več informacij kot predstavitev s samo eno od srednjih vrednosti, ki se uporablja pri klasičnih metodah razvrščanja. Prilagojene metode obenem omogočajo obdelavo zelo velikih podatkovij. Tudi za te predstavitve je mogoče izpeljati s kriterijsko funkcijo usklajene hierarhične in nehierarhične metode. Za tovrstne podatke so predstavljene tudi nove metode razvrščanja, ki temeljijo na izračunu relativne napake skupine in imajo v nekaterih primerih zaradi takega izračuna prednost pred klasično metodo k-središč, ki temelji na minimizaciji variance. Uporabnost opisanih metod je predstavljena na konkretnih primerih.

Language:Slovenian
Keywords:podatki, statistika, statistične metode, razvrščanje v skupine, velika podatkovja, hierarhična metoda, nehierarhična metoda, diskretna porazdelitev, relativna napaka skupine
Work type:Not categorized (r6)
Tipology:1.08 - Published Scientific Conference Contribution
Organization:EF - Faculty of Economics
Year:2009
Number of pages:8 str.
UDC:311
COBISS.SI-ID:18898918 Link is opened in a new window
Views:723
Downloads:191
Metadata:XML RDF-CHPDL DC-XML DC-RDF
 
Average score:(0 votes)
Your score:Voting is allowed only to logged in users.
:
Share:AddThis
AddThis uses cookies that require your consent. Edit consent...

Secondary language

Language:English
Abstract:
In the last two decades the development of IT enabled users to store large datasets on ordinary PC. The problem how to analyze such data sets emerged. One of the answers are the clustering methods, where the units are partitioned into smaller number of coherent groups - clusters. Classical clustering methods face two problems: hierarchical methods are limited to small number of units; and nonhierarchical methods are mostly limited to units described with numbers and use for the cluster's representation only one value (usually the center of the cluster). In the paper, our adaptations of clustering methods for data described with discrete distributions are presented. Such description is more informative and also enables us to cluster very large datasets. Since standard k-means and Ward's clustering methods are both based on the squared Euclidean distance as the error function, they in some cases do not give the "expected" results. To reveal the"expected" structure in the data we developed new clustering methods based on relative error functions. The applications of the new methods on concrete data sets are also presented.

Keywords:data, statistics, statistical methods, cluster analysis, clustering, large data sets, discrete distribution, hierarchical clustering, k-means method, relative error function

Similar documents

Similar works from RUL:
Similar works from other Slovenian collections:

Comments

Leave comment

You have to log in to leave a comment.

Comments (0)
0 - 0 / 0
 
There are no comments!

Back