Implementacija tehnik obdelave naravnega jezika (NLP) za jezike z malo viri je eden večjih izzivov na področju strojnega učenja. Večina raziskav je osredotočena na jezike z dovolj viri, kot je angleščina. Ker so za večino jezikov viri omejeni, je zanje težko razviti modele NLP.
V magisterskem delu se osredotočimo na implementacijo modelov avtomatskega odgovarjanja na vprašanja (QA) v makedonskem jeziku. Ker v makedonščini še ne obstajajo učne množice za ta namen, izdelamo prvi polavtomatski prevod zbirke nalog SuperGLUE.
Z uporabo treh učnih množic za odgovarjanje na vprašanja (BoolQ, COPA in MultiRC) prilagodimo več modelov, ki temeljijo na arhitekturi transformer.
Dobljeni rezultati kažejo, da lahko tudi v jeziku z malo viri, kot je makedonščina, dobimo dobre rezultate za QA. Prevedene učne množice in prilagojeni modeli predstavljajo izhodišče za nadaljnje raziskave.
|