Uporaba nevronskih mrež in globokega učenja je bistveno izboljšala obdelavo naravnega jezika. Večina teh metod za učenje potrebuje velike, ročno označene podatkovne množice, ki niso vedno na voljo, predvsem za manj popularne naloge in jezike z manj viri. V doktorskem delu pokažemo, kako lahko z vektorskimi vložitvami besed in učenjem s prenosom znanja izboljšamo obstoječe pristope na jezikih z manj viri. Naše metodološke prispevke pokažemo na dveh zahtevnih nalogah.
V prvem delu disertacije se osredotočimo na zaznavanje idiomov. S kontekstualnimi in večjezikovnimi vložitvami zgradimo novo metodo, ki preseže rezultate obstoječih pristopov. Naša metoda je zmožna zaznavanja idiomov, ki niso prisotni v učni množici, kar je velik napredek v primerjavi z obstoječimi modeli. Naš pristop ovrednotimo na novi podatkovni množici slovenskih idiomov in na večjezikovni množici za dvajset jezikov. Pokažemo, da je naš pristop zmožen posploševanja med bližnjimi jeziki (t.j. med slovenščino in hrvaščino), da deluje tudi z majhnimi učnimi množicami in da ga lahko s pomočjo prenosa znanja uporabimo na sorodni domeni zaznavanja metafor.
V drugem delu disertacije predstavimo metodo za samodejno razvrščanje člankov v urnik konference. Naš pristop razporedi članke tako, da minimizira prekrivanja med predstavitvami člankov s podobnimi tematikami. Z značilkami na podlagi besedil in grafov najdemo podobne članke in jih razvrstimo v urnik konference z novim algoritmom, ki temelji na gručenju z omejitvami in optimizaciji. Naš pristop ovrednotimo na sintetičnih podatkih in dveh konferencah v angleščini in slovenščini. Predlagana metoda ne potrebuje označenih podatkovnih množic in uporablja večjezikovne vložitve besed, zaradi česar je primerna za jezike z manj viri.
V delu pokažemo, kako lahko z vložitvami besed in prenosom znanja izboljšamo trenutne pristope obdelave naravnega jezika na jezikih z manj viri, pri čemer odstranimo potrebo po velikih podatkovnih množicah, ki je sicer značilna za pristope globokega učenja.
|