Podrobno

Spodbujevano učenje igre Jamb
ID Kališnik, Vid (Avtor), ID Žabkar, Jure (Mentor) Več o mentorju... Povezava se odpre v novem oknu

.pdfPDF - Predstavitvena datoteka, prenos (744,74 KB)
MD5: E119C975941C813AA06B98684A669F64

Izvleček
Diplomsko delo obravnava problem učenja optimalne strategije za igranje igre Jamb z metodami spodbujevanega učenja. Jamb je družabna igra s kockami, ki zahteva kombinacijo taktičnega odločanja o metu kock in dolgoročnega strateškega planiranja. Glavni motiv pri obravnavi te igre je bil, da modelu podamo le pravila igre brez kakršnih koli napotkov o strategiji, tako da bi optimalno strategijo oblikoval popolnoma samostojno. Za reševanje problema smo implementirali in primerjali tri algoritme: Deep Q-Network (DQN), Proximal Policy Optimization (PPO) in AlphaZero. Pristop smo poenostavili z avtomatskim računanjem optimalnega meta kock, kar je agentom omogočilo osredotočenost na izbiro polj. Testirali smo tudi različne pristope k oblikovanju nagrad. Najuspešnejši se je izkazal algoritem PPO z oblikovanimi nagradami, ki je dosegal povprečne rezultate 865 točk in razvil strategije, primerljive človeškemu igranju (882 točk). Model je pokazal sposobnost dolgoročnega planiranja in razvil sofisticirane strategije za maksimizacijo končnega rezultata. Pri AlphaZero ostaja veliko prostora za izboljšave, saj zaradi nagrajevanja samo ob koncu igre in časovne zahtevnosti algoritma nismo dosegli pričakovanih rezultatov.

Jezik:Slovenski jezik
Ključne besede:Jamb, spodbujevano učenje, umetna inteligenca
Vrsta gradiva:Diplomsko delo/naloga
Tipologija:2.11 - Diplomsko delo
Organizacija:FRI - Fakulteta za računalništvo in informatiko
Leto izida:2025
PID:20.500.12556/RUL-172654 Povezava se odpre v novem oknu
COBISS.SI-ID:249625347 Povezava se odpre v novem oknu
Datum objave v RUL:10.09.2025
Število ogledov:194
Število prenosov:34
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Angleški jezik
Naslov:Jamb reinforcement learning
Izvleček:
This thesis addresses the problem of learning an optimal strategy for playing the dice game Yamb using reinforcement learning methods. The main motivation for studying this game was to provide the model with only the game rules without any strategic guidance, allowing it to develop an optimal strategy completely independently. Jamb is a social dice game that requires a combination of tactical dice-rolling decisions and long-term strategic planning. To solve this problem, we implemented and compared three algorithms: Deep Q-Network (DQN), Proximal Policy Optimization (PPO), and AlphaZero. We simplified the approach by automatically computing optimal dice rolls, allowing agents to focus on field selection. We also tested different approaches to reward shaping. The most successful approach was PPO with shaped rewards, achieving average results of 865 points and developing strategies comparable to human play (882 points). The model demonstrated the ability for long-term planning and developed sophisticated strategies for maximizing the final score. For AlphaZero, there remains significant room for improvement, as the end-of-game reward structure and computational complexity of the algorithm prevented us from achieving expected results.

Ključne besede:Yamb, reinforcement learning, artificial intelligence

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj