Adapting AlphaZero for Three-Player Hexagonal Chess

Vasiljević, Jan

Podrobno

Adapting AlphaZero for Three-Player Hexagonal Chess
ID Vasiljević, Jan (Avtor), ID Bajec, Marko (Mentor) Več o mentorju... Povezava se odpre v novem oknu

, ID Pirker, Johanna (Komentor), ID Sadikov, Aleksander (Komentor)

PDF - Predstavitvena datoteka, prenos (4,34 MB)
MD5: 39728A0621961FEA29F8783E12D29551

Izvleček

This thesis adapts the AlphaZero framework for Three-Way Chess, a three-player variant defined by hexagonal geometry and complex coalition dynamics. To address the lack of software frameworks, a high-performance training ecosystem was developed for resource-constrained hardware. A transformer-based architecture incorporating relative positional embeddings was introduced to capture the board's unique spatial relationships. Methodological validation in Three-player Hex demonstrated that canonical input representations and geometric embeddings significantly enhance learning efficiency. In Three-Way Chess, the agent autonomously discovered advanced tactics but initially adopted a passive survivalist strategy to avoid drawing aggression. Refining the objective with material incentives corrected this behaviour, resulting in competitive performance against human opponents. These findings suggest that the efficacy of self-play in non-zero-sum multiplayer environments depends on the underlying game structure and may require additional fine-tuning.

Jezik:	Angleški jezik
Ključne besede:	multiplayer chess, AlphaZero, transformer, deep reinforcement learning, non-zero-sum games, game theory
Vrsta gradiva:	Magistrsko delo/naloga
Tipologija:	2.09 - Magistrsko delo
Organizacija:	FRI - Fakulteta za računalništvo in informatiko
Leto izida:	2025
PID:	20.500.12556/RUL-177428
COBISS.SI-ID:	263051523
Datum objave v RUL:	23.12.2025
Število ogledov:	66
Število prenosov:	12
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Slovenski jezik
Naslov:	Prilagoditev AlphaZero za trostranski heksagonalni šah
Magistrska naloga obravnava prilagoditev ogrodja AlphaZero za varianto heksagonalnega šaha za tri igralce, ki jo definira zapletena dinamika zavezništev. Zaradi pomanjkanja odprtokodnih rešitev je bilo razvito visokozmogljivo ogrodje za učenje na strojni opremi z omejenimi viri. Za učinkovito modeliranje specifične geometrije heksagonalne plošče je bila uvedena arhitektura na osnovi transformerjev, ki vključuje relativne pozicijske vložitve. Metodološka validacija na primeru igre Hex za tri igralce je pokazala, da kanonične vhodne predstavitve in geometrijske vložitve bistveno izboljšajo učinkovitost učenja. Pri šahu za tri igralce je agent samostojno odkril napredne taktične motive, vendar se je sprva naučil pasivne igre, da ne bi postal tarča napadov. Prilagoditev sheme nagrajevanja z materialnimi spodbudami je izboljšala vedenje in posledično privedla do konkurenčne igre proti človeškim nasprotnikom. Izsledki nakazujejo, da je učinkovitost učenja s samo-igranjem v okoljih za več igralcev z neničelno vsoto odvisna od osnovne strukture igre in pogojno zahteva dodatne prilagoditve.
Ključne besede:	večigralski šah, AlphaZero, transformer, globoko spodbujevano učenje, igre z ne-ničelno vsoto, teorija

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj