Učinkovito osebno podatkovno jezero za podatkovno analitiko

Palmer, Pascal

Repository of the University of Ljubljana

Details

Učinkovito osebno podatkovno jezero za podatkovno analitiko
ID Palmer, Pascal (Author), ID Kukar, Matjaž (Mentor) More about this mentor... This link opens in a new window

PDF - Presentation file, Download (966,96 KB)
MD5: DADEA903091F6D837FD8939F3491DB2F

Abstract

Pri delu z velikimi količinami podatkov se pogosto srečujemo s porazdeljenimi sistemi za shranjevanje, ki zahtevajo veliko konfiguracije in administracije (npr. Apache Hadoop). V delu obravnavamo način za postavitev osebnega podatkovnega jezera za analizo podatkov, ki ne bo zahteval veliko konfiguracije in administracije. Postavljeno podatkovno jezero je za uporabo enostavno in ga je mogoče poljubno razširiti z dodatnimi kapacitetami za shranjevanje in računskimi viri. Za vzpostavitev podatkovnega jezera smo uporabili objektno shrambo MinIO, za analizo podatkov pa smo uporabili in primerjali analitična orodja pandas, Dask in Apache Spark. Izkazalo se je, da je postavitev MinIO dokaj enostavna in da lahko z izbranimi orodji preprosto komuniciramo prek protokola S3. Pri analizi velike količine podatkov knjižnica pandas ni uspela obdelati vseh podatkov zaradi prevelike porabe pomnilnika, medtem ko sta Dask in Apache Spark z enako količino pomnilnika lahko izvedla enake ali bolj prostorsko zahtevne poizvedbe. Dask in Apache Spark sta bila podobno učinkovita pri izvajanju časovno in prostorsko intenzivnih poizvedb. Testni podatki so bili primerni tudi za relacijsko podatkovno bazo, zato smo primerjali čase poizvedb s PostgreSQL in ugotovili, da je naš pristop z uporabo MinIO in Dask ali Apache Spark za analizo podatkov veliko bolj časovno učinkovit.

Language:	Slovenian
Keywords:	podatkovno jezero, velepodatki, porazdeljena podatkovna analitika, MinIO, Dask, Spark
Work type:	Master's thesis/paper
Typology:	2.09 - Master's Thesis
Organization:	FRI - Faculty of Computer and Information Science
Year:	2022
PID:	20.500.12556/RUL-143445
COBISS.SI-ID:	136553219
Publication date in RUL:	21.12.2022
Views:	1080
Downloads:	107
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	English
Title:	Efficient personal data lake for data analytics
When working with large amounts of data, we often encounter distributed storage systems that require a lot of configuration and administration (e.g. Apache Hadoop). In this work, we examine a way to establish a personal data lake for data analysis that will not require much configuration and administration. The deployed data lake is easy to use and can be arbitrarily extended with additional storage capacity and computational resources. We used the MinIO object store to set up the data lake and used and compared the pandas, Dask and Apache Spark analytical tools for data analysis. It turned out that the MinIO is fairly easy to set up and that we can easily communicate with the selected tools via the S3 protocol. The pandas' library had some problems when analyzing large amounts of data. At the same time, Dask and Apache Spark could perform the same or more data-intensive queries with the same amount of memory. Dask and Apache Spark are similarly efficient at running time and space-intensive queries. The test data was also suitable for a relational database. We compared the query times with PostgreSQL and found that our approach using MinIO and Dask or Apache Spark to analyze the data was much more time efficient.
Keywords:	data lake, big data, distributed data analytics, MinIO, Dask, Spark

Similar works from RUL:
Similar works from other Slovenian collections:

Details

Secondary language

Similar documents