<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"><rdf:Description rdf:about="https://repozitorij.uni-lj.si/IzpisGradiva.php?id=172654"><dc:title>Spodbujevano učenje igre Jamb</dc:title><dc:creator>Kališnik,	Vid	(Avtor)
	</dc:creator><dc:creator>Žabkar,	Jure	(Mentor)
	</dc:creator><dc:subject>Jamb</dc:subject><dc:subject>spodbujevano učenje</dc:subject><dc:subject>umetna inteligenca</dc:subject><dc:description>Diplomsko delo obravnava problem učenja optimalne strategije za igranje igre Jamb z metodami spodbujevanega učenja. Jamb je družabna igra s kockami, ki zahteva kombinacijo taktičnega odločanja o metu kock in dolgoročnega strateškega planiranja. Glavni motiv pri obravnavi te igre je bil, da modelu podamo le pravila igre brez kakršnih koli napotkov o strategiji, tako da bi optimalno strategijo oblikoval popolnoma samostojno. 

Za reševanje problema smo implementirali in primerjali tri algoritme: Deep Q-Network (DQN), Proximal Policy Optimization (PPO) in AlphaZero. Pristop smo poenostavili z avtomatskim računanjem optimalnega meta kock, kar je agentom omogočilo osredotočenost na izbiro polj. Testirali smo tudi različne pristope k oblikovanju nagrad.

Najuspešnejši se je izkazal algoritem PPO z oblikovanimi nagradami, ki je dosegal povprečne rezultate 865 točk in razvil strategije, primerljive človeškemu igranju (882 točk). Model je pokazal sposobnost dolgoročnega planiranja in razvil sofisticirane strategije za maksimizacijo končnega rezultata. Pri AlphaZero ostaja veliko prostora za izboljšave, saj zaradi nagrajevanja samo ob koncu igre in časovne zahtevnosti algoritma nismo dosegli pričakovanih rezultatov.</dc:description><dc:date>2025</dc:date><dc:date>2025-09-10 12:25:12</dc:date><dc:type>Diplomsko delo/naloga</dc:type><dc:identifier>172654</dc:identifier><dc:language>sl</dc:language></rdf:Description></rdf:RDF>
