Vložitev in zlivanje podatkov predstavljata glavna izziva strojnega učenja. Smiselne nizkodimenzionalne predstavitve podatkov iz resničnega sveta pomagajo algoritmom pri uspešnem izvajanju različnih nalog podatkovnega rudarjenja in napovedovanja. Metode matrične faktorizacije vložijo podatke v latentni prostor z uporabo pristopa dvofaktorizacije ali trifaktorizacije. Omenjena pristopa večinoma uporabljata standardno linearno algebro, ki je omejena pri modeliranju kompleksnih vzorcev. Nelinearnost lahko dosežemo z uporabo tropskega polkolobarja, ki omogoča boljše modeliranje ekstremnih vrednosti in porazdelitev, s čimer odkrijemo vzorce visoke variance, ki se razlikujejo od tistih, ki jih najdemo z uporabo standardne linearne algebre. Motivacijo za razvoj metod vlaganja in zlivanja podatkov s tropsko matrično faktorizacijo najdemo v lastnostih, kot so nelinearnost, zmožnost enostavne interpretacije rezultatov, intuicija za probleme iskanja poti v grafih, povezave z nevronskimi mrežami in pomanjkanje tropskih metod na področju podatkovnega rudarjenja in strojnega učenja.
V delu predstavimo nove metode in algoritme za vlaganje in zlivanje podatkov, ki temeljijo na tropski matrični faktorizaciji s teoretično in eksperimentalno analizo.
Razvili smo tropsko matrično faktorizacijo redkih matrik (STMF), ki vrne dve faktorski matriki in izvede dopolnjevanje matrike. STMF smo uporabili za napovedovanje vrednosti izražanja genov na več nizih podatkov TCGA. Pokazali smo, da STMF zelo dobro izraža skrajne vrednosti in je robusten na prekomerno prileganje podatkom. Glavna pomanjkljivost STMF je visoka računska zahtevnost, zato smo predlagali učinkovito različico STMF, imenovano FastSTMF. Rezultati so pokazali, da FastSTMF presega STMF, saj hitreje konvergira in boljše modelira podatke.
Pri zlivanju podatkov metode trifaktorizacije,z uporabo pristopa vmesnega zlivanja več virov podatkov, dosegajo boljše rezultate kot metode dvofaktorizacije. V delu predstavimo tropski trifaktorizacijski algoritem matrične faktorizacije, imenovan triFastSTMF. Uporabili smo ga za napovedovanje dolžine povezav grafa s štirimi particijami. triFastSTMF smo uporabili za razvoj metode tropskega zlivanja podatkov (tropDF) in empirično pokazali njeno pravilnost in konvergenco.
|