Avtomatsko povzemanje besedil označuje proces pridobivanja pomembnih informacij iz besedila in njihovo predstavitev v obliki povzetka. Pristopi k abstraktivnemu povzemanju so precej napredovali z uporabo globokih nevronskih mrež, a so rezultati še vedno lahko nezadovoljivi, kar še posebej velja za jezike brez velikih učnih množic. Pri mnogih nalogah obdelave naravnega jezika se medjezikovni prenosi kažejo za uspešne tudi pri jezikih, ki za rešitev problema nimajo ustrezno velikih učnih množic. Doslej še ni bilo poskusa medjezikovnega prenosa povzemanja zaradi neenostavne ponovne uporabe dekodirnika nevronskih modelov. V delu smo za povzemanje slovenskih novičarskih člankov uporabili vnaprej naučen model za povzemanje v angleškem jeziku, ki temelji na globokih nevronskih mrežah in arhitekturi zaporedje v zaporedje. Problem neustreznega dekodirnika smo rešili z uporabo dodatnega jezikovnega modela za generiranje besedil v ciljnem jeziku. Razvili smo pet modelov, ki se med seboj ločijo po številu učnih primerov. Rezultate smo evalvirali z avtomatsko in človeško evalvacijo. Z našim medjezikovnim modelom smo dosegli primerljiv rezultat z obstoječim abstraktivnim povzemalnikom za slovenski jezik. V delu obravnavamo tudi relevantne interdisciplinarne vidike.
|