Globoke nevronske mreže lahko uspešno klasificirajo besedila. Njihovo delovanje ni transparentno, kar lahko privede do tega, da se naučijo lažnih vzorcev. Zato potrebujemo metode za razlago njihovih napovedi. Trenutne razlagalne metode so splošnonamenske in pogosto predpostavljajo tabelarično strukturo podatkov. Razlage pogosto izračunajo tako, da spreminjajo vhodne atribute in pomembnost pripišejo tistim atributom, katerih spremembe močno vplivajo na izhodne napovedi modela. V delu za razlago besedilnih klasifikacijskih modelov predstavimo prilagojene različice metod IME in LIME, ki upoštevajo odvisnosti med vhodnimi atributi. Odvisnosti upoštevajo z uporabo jezikovnih modelov, s katerimi generirajo naravnejše perturbacije vhodnih besedil. Najprej empirično pokažemo, da so generirane perturbacije naravnejše od perturbacij, uporabljenih v originalnih metodah IME in LIME. Nato s pomočjo avtomatskih metrik preverimo kvaliteto razlag, ustvarjenih na podlagi naravnejših perturbacij. Ugotovimo, da so razlage, ustvarjene s prilagojenimi metodami, večinoma slabše od razlag, ustvarjenih z originalnima metodama IME in LIME. Kot glavna razloga navedemo uporabljeno strategijo generiranja perturbacij ter uporabljene metrike, ki merijo drugačno vrsto pomembnosti. V delu predstavimo tudi način za računanje razlag na podlagi enot, daljših od posameznih besed, ki temelji na upoštevanju skladenjske strukture v besedilu. Preverimo kvaliteto prilagojenih razlag in ugotovimo, da so predvsem manj redundantne od razlag na podlagi besed. Pokažemo tudi, da predstavljeni način lahko pomaga diagnosticirati nepravilne napovedi modelov.
|