V tem delu si ogledamo, kako uporabiti relaksirane stohastične akcije pri definiranju raziskovanja v spodbujevalnem učenju v zveznem prostoru in času. Prostor $X^u$ je modeliran s stohastično diferencialno enačbo kontrolirano z akcijo $u.$ Funkcijo vrednosti $V^u$ je funkcional uspešnosti na neskončnem časovnem obdobju. Za relaksirano akcijo $\pi$ vpeljemo raziskovalno verzijo okolja $X^{\pi}$ in funkcijo vrednosti $V^{\pi}.$ V posebnem linearno-kvadratičnem primeru se izkaže, da je optimalna relaksirana akcija Gaussova, kjer je pričakovana vrednost odvisna od trenutnega stanja, varianca pa od parametra, ki kontrolira raven raziskovanja v modelu. Predstavljen je algoritem spodbujevalnega učenja za napoved optimalne strategije v preprostem modelu finančnega trga z neskončim časovnim oknom.
|