Učinkovito osebno podatkovno jezero za podatkovno analitiko

Palmer, Pascal

Učinkovito osebno podatkovno jezero za podatkovno analitiko
ID Palmer, Pascal (Avtor), ID Kukar, Matjaž (Mentor) Več o mentorju... Povezava se odpre v novem oknu

PDF - Predstavitvena datoteka, prenos (966,96 KB)
MD5: DADEA903091F6D837FD8939F3491DB2F

Izvleček

Pri delu z velikimi količinami podatkov se pogosto srečujemo s porazdeljenimi sistemi za shranjevanje, ki zahtevajo veliko konfiguracije in administracije (npr. Apache Hadoop). V delu obravnavamo način za postavitev osebnega podatkovnega jezera za analizo podatkov, ki ne bo zahteval veliko konfiguracije in administracije. Postavljeno podatkovno jezero je za uporabo enostavno in ga je mogoče poljubno razširiti z dodatnimi kapacitetami za shranjevanje in računskimi viri. Za vzpostavitev podatkovnega jezera smo uporabili objektno shrambo MinIO, za analizo podatkov pa smo uporabili in primerjali analitična orodja pandas, Dask in Apache Spark. Izkazalo se je, da je postavitev MinIO dokaj enostavna in da lahko z izbranimi orodji preprosto komuniciramo prek protokola S3. Pri analizi velike količine podatkov knjižnica pandas ni uspela obdelati vseh podatkov zaradi prevelike porabe pomnilnika, medtem ko sta Dask in Apache Spark z enako količino pomnilnika lahko izvedla enake ali bolj prostorsko zahtevne poizvedbe. Dask in Apache Spark sta bila podobno učinkovita pri izvajanju časovno in prostorsko intenzivnih poizvedb. Testni podatki so bili primerni tudi za relacijsko podatkovno bazo, zato smo primerjali čase poizvedb s PostgreSQL in ugotovili, da je naš pristop z uporabo MinIO in Dask ali Apache Spark za analizo podatkov veliko bolj časovno učinkovit.

Jezik:	Slovenski jezik
Ključne besede:	podatkovno jezero, velepodatki, porazdeljena podatkovna analitika, MinIO, Dask, Spark
Vrsta gradiva:	Magistrsko delo/naloga
Tipologija:	2.09 - Magistrsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2022
PID:	20.500.12556/RUL-143445
COBISS.SI-ID:	136553219
Datum objave v RUL:	21.12.2022
Število ogledov:	590
Število prenosov:	76
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Angleški jezik
Naslov:	Efficient personal data lake for data analytics
When working with large amounts of data, we often encounter distributed storage systems that require a lot of configuration and administration (e.g. Apache Hadoop). In this work, we examine a way to establish a personal data lake for data analysis that will not require much configuration and administration. The deployed data lake is easy to use and can be arbitrarily extended with additional storage capacity and computational resources. We used the MinIO object store to set up the data lake and used and compared the pandas, Dask and Apache Spark analytical tools for data analysis. It turned out that the MinIO is fairly easy to set up and that we can easily communicate with the selected tools via the S3 protocol. The pandas' library had some problems when analyzing large amounts of data. At the same time, Dask and Apache Spark could perform the same or more data-intensive queries with the same amount of memory. Dask and Apache Spark are similarly efficient at running time and space-intensive queries. The test data was also suitable for a relational database. We compared the query times with PostgreSQL and found that our approach using MinIO and Dask or Apache Spark to analyze the data was much more time efficient.
Ključne besede:	data lake, big data, distributed data analytics, MinIO, Dask, Spark

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj