Hitra evolucija strojnega učenja in njegova široka uporaba v različnih domenah poudarjata
potrebo po modelih, ki se neprestano učijo. Tradicionalni modeli strojnega učenja
ostanejo statični, ko so enkrat naučeni ter so nezmožni vključevanja novih nalog brez tveganja za katastrofalno pozabljanje, kjer pridobivanje novega znanja izbriše prej naučene
informacije. Ta pojav močno omejuje njihovo uporabnost v okoljih, kjer se podatki in
zahteve neprestano razvijajo.
Naša disertacija se ukvarja z razvijajočo domeno strojnega učenja, s posebnim poudarkom
na transformerjih v okviru nadaljevalnega učenja. To je pot do doseganja računalniških
sistemov, ki posnemajo človeško prilagodljivost in učne sposobnosti. Bistvo te
disertacije je raziskovanje in implementacija tehnik superpozicije, ki so še posebej prilagojene za naprave z omejenim pomnilnikom, kot so mobilni telefoni in droni.
Glavni prispevek naših raziskav je metoda SuperFormer, ki z inovativnim pristopom
izkorišča superpozicijo izključno med spremembami nalog. Ta metoda znatno
skrajša čas učenja in učinkovito naslavlja problem katastrofalnega pozabljanja ter zagotavlja
bolj optimalno porabo virov. Na nizu klasifikacijskih nalog s področja naravnega
jezika dosega SuperFormer najvišji vrednosti AUROC in AUPRC med vsemi primerjalnimi
metodami, hkrati pa je najhitrejši pri učenju in potrebuje manj dodatnega
pomnilnika na nalogo kot večina metod.
Naše raziskovanje poleg metode SuperFormer predstavi, kako se superpozicija lahko
učinkovito uporablja na različnih področjih in z različnimi arhitekturami nevronskih
mrež. Pokazali smo, da naša metoda prekaša ostale tudi v arhitekturah polno povezanih
in konvolucijskih nevronskih mrež v domeni računalniškega vida.
Predstavili smo tudi Sparse SuperFormer, ki uporablja le delno učenje uteži za
izboljšanje uspešnosti z manj posodobitvami uteži, kar kaže na povečano pomnilniško
učinkovitost modela. Učenje le polovice uteži za vsako nalogo je izboljšalo povprečno točnost do 2.2%.
Poleg tega smo razvili strategijo SuperAdapter za dodatno povečanje pomnilniške
učinkovitosti pri nadaljevalnem učenju. Z združevanjem metode SuperFormer z
adapterji je možno učiti več nalog znotraj enega adapterja, kar minimizira porabo pomnilnika
z minimalno izgubo natančnosti. Zahteve po porabi pomnilnika se lahko
prepolovijo z izgubo pri metriki AUPRC le od 2.0 do 5.6%, odvisno od velikosti adapterja.
Naša disertacija predstavlja pomemben napredek v našem razumevanju in uporabi
nadaljevalnega učenja ter superpozicije. Če se ozremo v prihodnost, imajo ti napredki
potencial za znaten vpliv na različna področja sistemov umetne inteligence in omogačjo,
da se le ti učijo in razvijajo v dinamičnih okoljih.
|