Magistrska naloga obravnava prilagoditev ogrodja AlphaZero za varianto heksagonalnega šaha za tri igralce, ki jo definira zapletena dinamika zavezništev. Zaradi pomanjkanja odprtokodnih rešitev je bilo razvito visokozmogljivo ogrodje za učenje na strojni opremi z omejenimi viri. Za učinkovito modeliranje specifične geometrije heksagonalne plošče je bila uvedena arhitektura na osnovi transformerjev, ki vključuje relativne pozicijske vložitve. Metodološka validacija na primeru igre Hex za tri igralce je pokazala, da kanonične vhodne predstavitve in geometrijske vložitve bistveno izboljšajo učinkovitost učenja. Pri šahu za tri igralce je agent samostojno odkril napredne taktične motive, vendar se je sprva naučil pasivne igre, da ne bi postal tarča napadov. Prilagoditev sheme nagrajevanja z materialnimi spodbudami je izboljšala vedenje in posledično privedla do konkurenčne igre proti človeškim nasprotnikom. Izsledki nakazujejo, da je učinkovitost učenja s samo-igranjem v okoljih za več igralcev z neničelno vsoto odvisna od osnovne strukture igre in pogojno zahteva dodatne prilagoditve.
|