izpis_h1_title_alt

Strojno učenje v porazdeljenem okolju z uporabo paradigme MapReduce : magistrsko delo
ID Orač, Roman (Avtor), ID Robnik Šikonja, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Lavrač, Nada (Komentor)

URLURL - Predstavitvena datoteka, za dostop obiščite http://eprints.fri.uni-lj.si/2829/ Povezava se odpre v novem oknu

Izvleček
Implementacija algoritmov strojnega učenja v porazdeljenem okolju prinaša več prednosti, kot sta zmožnost obdelave velikih množic podatkov in linearna pospešitev izvajanja z dodatnimi računskimi enotami. V magistrski nalogi opišemo paradigmo MapReduce, ki omogoča porazdeljeno računanje na računalniški gruči, in ogrodje Disco, ki ga implementira. Predstavimo sumarno obliko, ki je pogoj za učinkovito implementacijo algoritmov strojnega učenja s paradigmo MapReduce in opišemo implementacije izbranih algoritmov. Poleg tega predstavimo nove različice porazdeljenih naključnih gozdov, ki gradijo model na podmnožicah podatkov. Implementirane algoritme ovrednotimo s primerjavo z uveljavljenimi programi strojnega učenja. Magistrsko delo zaključimo z opisom vključitve implementiranih algoritmov v platformo ClowdFlows, ki omogoča sestavljanje, izvajanje in deljenje interaktivnih delotokov podatkovnega rudarjenja. S tem omogočimo obdelavo velikih paketnih podatkov z vizualnim programiranjem.

Jezik:Slovenski jezik
Ključne besede:MapReduce, porazdeljeno računanje, Disco, strojno učenje, sumarna oblika, DiscoMLL, porazdeljeni naključni gozdovi, Clowd-Flows, računalništvo, računalništvo in informatika, magisteriji
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Založnik:[R. Orač]
Leto izida:2014
Št. strani:123 str.
PID:20.500.12556/RUL-69077 Povezava se odpre v novem oknu
UDK:004.85(043.2)
COBISS.SI-ID:1536017347 Povezava se odpre v novem oknu
Datum objave v RUL:10.07.2015
Število ogledov:1288
Število prenosov:245
Metapodatki:XML RDF-CHPDL DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Machine learning algorithms in distributed environment with MapReduce paradigm
Izvleček:
Implementation of machine learning algorithms in a distributed environment ensures us multiple advantages, like processing of large datasets and linear speedup with additional processing units. We describe the MapReduce paradigm, which enables distributed computing, and the Disco framework, which implements it. We present the summation form, which is a condition for efficient implementation of algorithms with the MapReduce paradigm, and describe the implementations of the selected algorithms. We propose novel distributed random forest algorithms that build models on subsets of the dataset. We compare time and accuracy of the algorithms with the well recognized data analytics tools. We end our master thesis by describing the integration of the implemented algorithms into the ClowdFlows platform, which is a web platform for construction, execution and sharing of interactive workflows for data mining. With this integration, we enabled processing of big batch data with visual programming.

Ključne besede:MapReduce, distributed computing, Disco, machine learning, DiscoMLL, distributed random forest, ClowdFlows, computer science, computer and information science, master's degree

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj