Čeprav prodira globoko učenje na vsa področja procesiranja naravnega jezika, do zdaj še ni bilo uporabljeno za prepoznavanje čustev. Večina dosedanjih študij prepoznavanja čustev na tvitih uporablja preproste klasifikatorje na značilkah, ki pripadajo modelu vreče besed ali pa jih raziskovalci konstruirajo ročno. Glavna tema disertacije je izboljšava modelov za prepoznavanje čustev v tvitih z uporabo nevronskih mrež. V ta namen najprej ustvarimo tri velike podatkovne množice, sestavljene iz učnih primerov, ki so označeni glede na to, katero čustvo po Ekmanovi, Plutchikovi ali POMS-ovi kategorizaciji izražajo. Čustvene oznake pridelamo avtomatsko z uporabo Twitterjevega mehanizma za samooznačevanje vsebine, s t. i. tematskimi oznakami (angl. hashtags). Nato primerjamo natančnost klasifikatorjev z uporabo modelov vreče besed in latentnega semantičnega indeksiranja z natančnostjo nevronskih mrež, tako rekurenčnih kot konvolucijskih, ki na vhodu sprejmejo besede ali znake. Nadalje smo raziskovali prenosljivost reprezentacij končnih skritih stanj modelov nevronskih mrež, natančneje, ali je reprezentacija, naučena pri treniranju modela za neko klasifikacijo čustev, lahko koristna za napovedovanje druge klasifikacije. Zaključimo z učenjem skupnega modela, ki je sposoben prepoznavati čustva vseh treh omenjenih klasifikacij, pri tem pa je omejen na uporabo skupne reprezentacije.
Eksperimentalno pokažemo, da so nevronske mreže natančnejše od klasičnih pristopov k prepoznavanju čustev. Kot najnatančnejše se izkažejo rekurenčne mreže, ki na vhodu sprejemajo znake in tako predstavljajo celosten pristop k učenju (angl. end-to-end learning). Čeprav je prenosljivost reprezentacij modelov, ki so trenirani na eni podatkovni množici, precej slaba, se ta drastično izboljša pri skupnem modelu. Pri učenju skupnega modela z znanimi metodami opazimo, da je natančnost zelo neuravnotežena glede na podatkovne množice, predvsem zaradi velike razlike v številu učnih primerov znotraj posamezne množice. Zato zasnujemo novo strategijo treniranja takšnih skupnih modelov, s katero naučimo model, katerega natančnost je uravnotežena čez vse tri podatkovne množice.
|