20.500.12556/RUL-167492 Continual learning with superposition in transformers Nadaljevalno učenje s superpozicijo v transformerjih The rapid evolution of machine learning and its widespread use across various domains underscores the imperative for models that learn continuously. Traditional machine learning models, once trained, remain static, incapable of assimilating a new task without the risk of catastrophic forgetting, where the acquisition of new knowledge erases previously learned information. This phenomenon severely limits their applicability in environments where data and requirements persistently develop. Addressing this challenge, our dissertation deals with the evolving domain of machine learning, with a special focus on transformers within the continual learning setting, marking a path toward achieving computational systems that emulate human adaptability and learning capabilities. The essence of this research revolves around exploring and implementing superposition techniques specifically tailored for memory-restrained devices, such as mobile phones and drones. The main contribution of our study is the creation of the SuperFormer method, a novel approach that leverages superposition exclusively during task changes. This method significantly reduces training time and addresses catastrophic forgetting efficiently, ensuring optimal use of resources. On a set of NLP classification tasks, Super- Former achieves the highest AUROC and AUPRC among all comparative methods while being the fastest to train and needing less additional memory per task than most of the methods. Our research goes further than just introducing SuperFormer. It explores how superposition can be effectively utilized in different fields and with various neural architectures. We’ve shown that our method is outperforming others also in MLP and CNN architectures in the computer vision domain. We also introduced Sparse SuperFormer, which applies sparse learning to boost performance with fewer weight adjustments, pointing to enhanced model efficiency. Training only half of the weights for each task improved the average accuracy up to 2.2%. Additionally, we developed the SuperAdapter strategy to increase memory efficiency in continual learning. By combining SuperFormer with adapters, it’s possible to learn multiple tasks within one adapter, minimizing storage impact with minimal loss in performance. Looking at the average AUPRC, the adapter’s storage requirements can be halved by losing only 2.0 to 5.6%, depending on the adapter size. In conclusion, this dissertation represents a significant advancement in our understanding and application of continual learning and superposition. As we look towards the future, these advancements have the potential to significantly impact various fields by enabling AI systems to learn and evolve in dynamic environments. Hitra evolucija strojnega učenja in njegova široka uporaba v različnih domenah poudarjata potrebo po modelih, ki se neprestano učijo. Tradicionalni modeli strojnega učenja ostanejo statični, ko so enkrat naučeni ter so nezmožni vključevanja novih nalog brez tveganja za katastrofalno pozabljanje, kjer pridobivanje novega znanja izbriše prej naučene informacije. Ta pojav močno omejuje njihovo uporabnost v okoljih, kjer se podatki in zahteve neprestano razvijajo. Naša disertacija se ukvarja z razvijajočo domeno strojnega učenja, s posebnim poudarkom na transformerjih v okviru nadaljevalnega učenja. To je pot do doseganja računalniških sistemov, ki posnemajo človeško prilagodljivost in učne sposobnosti. Bistvo te disertacije je raziskovanje in implementacija tehnik superpozicije, ki so še posebej prilagojene za naprave z omejenim pomnilnikom, kot so mobilni telefoni in droni. Glavni prispevek naših raziskav je metoda SuperFormer, ki z inovativnim pristopom izkorišča superpozicijo izključno med spremembami nalog. Ta metoda znatno skrajša čas učenja in učinkovito naslavlja problem katastrofalnega pozabljanja ter zagotavlja bolj optimalno porabo virov. Na nizu klasifikacijskih nalog s področja naravnega jezika dosega SuperFormer najvišji vrednosti AUROC in AUPRC med vsemi primerjalnimi metodami, hkrati pa je najhitrejši pri učenju in potrebuje manj dodatnega pomnilnika na nalogo kot večina metod. Naše raziskovanje poleg metode SuperFormer predstavi, kako se superpozicija lahko učinkovito uporablja na različnih področjih in z različnimi arhitekturami nevronskih mrež. Pokazali smo, da naša metoda prekaša ostale tudi v arhitekturah polno povezanih in konvolucijskih nevronskih mrež v domeni računalniškega vida. Predstavili smo tudi Sparse SuperFormer, ki uporablja le delno učenje uteži za izboljšanje uspešnosti z manj posodobitvami uteži, kar kaže na povečano pomnilniško učinkovitost modela. Učenje le polovice uteži za vsako nalogo je izboljšalo povprečno točnost do 2.2%. Poleg tega smo razvili strategijo SuperAdapter za dodatno povečanje pomnilniške učinkovitosti pri nadaljevalnem učenju. Z združevanjem metode SuperFormer z adapterji je možno učiti več nalog znotraj enega adapterja, kar minimizira porabo pomnilnika z minimalno izgubo natančnosti. Zahteve po porabi pomnilnika se lahko prepolovijo z izgubo pri metriki AUPRC le od 2.0 do 5.6%, odvisno od velikosti adapterja. Naša disertacija predstavlja pomemben napredek v našem razumevanju in uporabi nadaljevalnega učenja ter superpozicije. Če se ozremo v prihodnost, imajo ti napredki potencial za znaten vpliv na različna področja sistemov umetne inteligence in omogačjo, da se le ti učijo in razvijajo v dinamičnih okoljih. machine learning deep learning continual learning transformer superposition strojno učenje globoko učenje nadaljevalno učenje transformer superpozicija true false false Angleški jezik Slovenski jezik Doktorsko delo/naloga 2025-02-24 14:52:56 2025-02-24 14:53:07 2025-05-16 09:59:15 0000-00-00 00:00:00 2025 0 0 0000-00-00 NiDoloceno NiDoloceno NiDoloceno 0000-00-00 0000-00-00 0000-00-00 35306 229975043 Zeman_Marko_-_Nadaljevalno_ucenje_s_superpozicijo_v_transformerjih.pdf Zeman_Marko_-_Nadaljevalno_ucenje_s_superpozicijo_v_transformerjih.pdf 1 AA4002301AC8BCE20039B8A04BBE191C 50cc58433eadc8a0921fd7b3aa5b6cc651f174445619adcc81ab0396960ca232 c4578d39-f2b5-11ef-b232-0050569b8976 https://repozitorij.uni-lj.si/Dokument.php?lang=slv&id=200005 Fakulteta za računalništvo in informatiko 0 0 0