<?xml version="1.0"?>
<metadata xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:dc="http://purl.org/dc/elements/1.1/"><dc:title>Spodbujevalno učenje pri igranju namiznih iger</dc:title><dc:creator>Kalan,	Tim	(Avtor)
	</dc:creator><dc:creator>Knez,	Marjetka	(Mentor)
	</dc:creator><dc:subject>spodbujevalno učenje</dc:subject><dc:subject>Markovski proces odločanja</dc:subject><dc:subject>učenje s časovno razliko</dc:subject><dc:subject>po-stanja</dc:subject><dc:subject>samoigra</dc:subject><dc:description>Motivacija za nalogo je bila razumeti algoritme, ki se učijo prek poskušanja in napak. Na začetku postavimo teoretični okvir v obliki Markovskih procesov odločanja. V nadaljevanju se posvetimo izpeljavi in opisu metod, ki temeljijo na konceptu dinamičnega programiranja. Te metode potem posplošimo in predstavimo tri glavne iterativne algoritme: Monte Carlo, TD(0) in TD($\lambda$). Ker pa smo želeli ustvariti kompetentnega igralca namiznih iger, te pa imajo pogosto veliko količino stanj, se posvetimo še funkcijski aproksimaciji in kombinaciji nevronskih mrež s predstavljenimi algoritmi.
V drugem delu naloge si bolj natančno ogledamo kombinatorne igre; to je teoretični model za namizne igre. Nato opišemo nekaj pomembnih razlik, do katerih pride pri spodbujevalnem učenju v tem konteksu in si ogledamo, kako se prilagodi koncept optimalne strategije in vrednostne funkcije.
V zadnjem delu apliciramo teorijo še na praktičnem primeru. Na $m, n, k$-igrah uporabimo opisane algoritme in komentiramo njihovo učinkovitost.</dc:description><dc:date>2021</dc:date><dc:date>2022-02-16 08:32:20</dc:date><dc:type>Delo diplomskega seminarja/zaključno seminarsko delo/naloga</dc:type><dc:identifier>134977</dc:identifier><dc:identifier>UDK: 519.2</dc:identifier><dc:identifier>VisID: 123044</dc:identifier><dc:identifier>COBISS_ID: 97683459</dc:identifier><dc:language>sl</dc:language></metadata>
