20.500.12556/RUL-134977 Spodbujevalno učenje pri igranju namiznih iger delo diplomskega seminarja Reinforcement learning in board games Motivacija za nalogo je bila razumeti algoritme, ki se učijo prek poskušanja in napak. Na začetku postavimo teoretični okvir v obliki Markovskih procesov odločanja. V nadaljevanju se posvetimo izpeljavi in opisu metod, ki temeljijo na konceptu dinamičnega programiranja. Te metode potem posplošimo in predstavimo tri glavne iterativne algoritme: Monte Carlo, TD(0) in TD($\lambda$). Ker pa smo želeli ustvariti kompetentnega igralca namiznih iger, te pa imajo pogosto veliko količino stanj, se posvetimo še funkcijski aproksimaciji in kombinaciji nevronskih mrež s predstavljenimi algoritmi. V drugem delu naloge si bolj natančno ogledamo kombinatorne igre; to je teoretični model za namizne igre. Nato opišemo nekaj pomembnih razlik, do katerih pride pri spodbujevalnem učenju v tem konteksu in si ogledamo, kako se prilagodi koncept optimalne strategije in vrednostne funkcije. V zadnjem delu apliciramo teorijo še na praktičnem primeru. Na $m, n, k$-igrah uporabimo opisane algoritme in komentiramo njihovo učinkovitost. The motivation for this work is trying to understand algorithms that learn through trial and error. At the beginning we set the theoretical foundation by examining Markov decision processes. We then derive and describe methods, which are based on dynamic programming. Further we generalize these methods and present three iterative algorithms: Monte Carlo, TD(0) and TD($\lambda$). Since we want to create a competent board game player, and board games often have a large number of states, we observe also the function approximation and combine neural networks with the described algorithms. In the second part we examine combinatorial games in more detail. This is our theoretical model for board games. We then describe some important differences which have to be made to reinforcement learning in this context and look at how to adjust the concept of optimal strategies and value functions. In the last part we apply the presented theory to a practical example. We use the described algorithms to solve some $m, n, k$-games and comment on their efficiency. spodbujevalno učenje Markovski proces odločanja učenje s časovno razliko po-stanja samoigra reinforcement learning Markov decision process temporal-difference learning afterstates self-play true false false Slovenski jezik Angleški jezik Delo diplomskega seminarja/zaključno seminarsko delo/naloga 2022-02-16 08:32:20 2022-02-16 08:32:28 2024-05-29 12:29:26 0000-00-00 00:00:00 2021 0 0 0000-00-00 NiDoloceno NiDoloceno NiDoloceno 0000-00-00 0000-00-00 0000-00-00 519.2 123044 97683459 4280.pdf 4280.pdf 1 3F08D98164E48D152C54F47C900FA3BE 7294b84a967a0410adf0d56bb82565f2bc30fb7f7c4b36294d8dada8d55c0ee7 599d5c0e-8efa-11ec-abdb-00155dcfd717 https://repozitorij.uni-lj.si/Dokument.php?lang=slv&id=153773 Fakulteta za matematiko in fiziko 0 0 0