Incremental matrix factorization for simultaneous learning from parallel data streams

Jakomin, Martin

Repository of the University of Ljubljana

Details

Incremental matrix factorization for simultaneous learning from parallel data streams
ID Jakomin, Martin (Author), ID Bosnić, Zoran (Mentor) More about this mentor... This link opens in a new window

, ID Curk, Tomaž (Comentor)

PDF - Presentation file, Download (2,91 MB)
MD5: 1C63005E413F2BAE5C1AA30EC4D1EEDB

Abstract

Matrix factorization techniques have proven to be useful and reliable for solving largescale machine learning problems. The data sparsity and cold-start problems found in real-world applications, such as recommender systems, can be indirectly alleviated by considering multiple heterogeneous data sources, while at the same time the successful utilization of data fusion resolves in a higher predictive accuracy. However, incrementally handling models upon multiple data streams remains a crucial and only partially solved problem. This work presents one way of fusing multiple data streams through matrix factorization. Our proposed method models heterogeneous and asynchronous data streams and provides predictions in real time. As a result of incremental updating, the proposed method successfully adapts to changes in data concepts, while application of data fusion improves prediction accuracy and reduces effects of the cold-start problem. Using the proposed methodology we develop a streaming recommender system and show how prediction accuracy can be substantially increased by considering multiple data sources. Nevertheless, evaluating data fusion, recommender and other incremental algorithms, such as our presented method, is inherently difficult due to the scarcity of obtainable data sources. In order to address this problem, we conjointly propose a synthetic data generator, capable of generating multiple temporal and inter-dependent data streams of relational data. Data streams generated in this way successfully mimic real-life datasets in terms of statistical data properties and comparable performance of various machine learning models. Proposed methodologies help in development of solutions for collective modeling of streaming data in real-time. Apart from recommender systems, the versatility of matrix factorization further allows for its use in solving several other machine learning problems, such as dimensionality reduction, clustering and classification.

Language:	English
Keywords:	machine learning, matrix factorization, data streams, data fusion, incremental learning, recommender systems, synthetic data generator
Work type:	Doctoral dissertation
Organization:	FRI - Faculty of Computer and Information Science
Year:	2019
PID:	20.500.12556/RUL-113169
COBISS.SI-ID:	1538473155
Publication date in RUL:	09.12.2019
Views:	3970
Downloads:	549
Metadata:
:	Copy citation
Share:

Secondary language

Abstract:
Language:	Slovenian
Title:	Inkrementalna matrična faktorizacija za hkratno učenje iz vzporednih podatkovnih tokov
Matrična faktorizacija se je izkazala kot uporabna in zanesljiva metoda za implementacijo obsežnih aplikacij strojnega učenja, kot so na primer priporočilni sistemi. Težave z redkostjo podatkov in problem hladnega zagona se lahko posredno omilijo z uporabo več heterogenih virov podatkov, hkrati pa uspešna uporaba zlivanja podatkov doprinaša večjo napovedno točnost. Za vsakodnevne aplikacije, na primer take s stalnimi povratnimi informacijami uporabnikov, ostaja inkrementalno posodabljanje modelov, naučenih na več podatkovnih tokovih, ključen in le delno rešen problem. V delu predlagamo metodo za zlivanje več podatkovnih tokov z uporabo matrične faktorizacije. Predlagana metoda modelira heterogene in nesočasne podatkovne tokove in omogoča napovedovanje v realnem času. Zaradi inkrementalnega posodabljanja se predlagana metoda uspešno prilagaja spremembam v podatkovnih konceptih, hkrati pa uspešno zlivanje podatkov izboljša točnost napovedi in zmanjša negativne učinke hladnega zagona. Kot primer uporabe naše predlagane metode izdelamo priporočilni sistem in pokažemo, da se točnost priporočanja bistveno poveča z upoštevanjem več podatkovnih virov hkrati. Vendarle pa je evalvacija algoritmov za podatkovno zlivanje, priporočanje in inkrementalnega učenja, ki jih uporablja tudi naša metoda, težka, predvsem zaradi pomanjkanja dostopnih podatkovnih virov. Za reševanje tega problema v disertaciji predlagamo sintetični generator podatkov. Ta lahko generira več časovno in medsebojno odvisnih podatkovnih tokov z relacijskimi podatki. Podatkovni tokovi, ustvarjeni na ta način, uspešno posnemajo realne množice podatkov v smislu statističnih lastnosti in primerljive uspešnosti napovednih modelov strojnega učenja. Predlagana metodologija ponuja pomoč pri razvoju algoritmov za sočasno modeliranje podatkovnih tokov v realnem času. Poleg priporočilnih sistemov pa vsestranskost matrične faktorizacije omogoča njeno uporabnost za reševanje številnih drugih problemov strojnega učenja, kot so zmanjševanje dimenzionalnosti, gručenje in klasifikacija.
Keywords:	strojno učenje, matrična faktorizacija, podatkovni tokovi, zlivanje podatkov, inkrementalno učenje, priporočilni sistemi, generator sintetičnih podatkov

Similar works from RUL:
Similar works from other Slovenian collections:

Details

Secondary language

Similar documents