V zadnjih letih se je z eksplozijo vsebin na družbenih medijih povišala količina sovražnega govora.
Zaradi velike količine podatkov je ročno moderiranje sovražnih vsebin nemogoče.
Trenutno za avtomatsko odkrivanje sovražnega govora najpogosteje uporabljamo nevronske mreže.
Za njihovo učenje je potrebno veliko označenih primerov, ki so večinoma na voljo le za večje jezike, npr. za angleščino.
Označenih podatkov za manjše jezike je načeloma malo.
Vseeno bi želeli tudi v teh jezikih zaznavati sovražni govor.
V tem delu s pomočjo medjezikovnih vložitev razvijemo metodo, ki ob prenosu dosega sprejemljive rezultate za ciljni jezik.
Komentarji s sovražnim govorom so v angleščini, nemščini in hrvaščini.
Uporabimo fastText vložitve, jih poravnamo z metodo RCSLS, in dosežemo sprejemljive rezultate za dva od šestih jezikovnih parov.
Z modelom BERT izboljšamo to metodo in dosežemo sprejemljive rezultate za tri od šestih jezikovnih parov.
|