Use of relaxed stochastic controls in reinforcement learning : magistrsko delo

Rems, Jan

Podrobno

Use of relaxed stochastic controls in reinforcement learning : magistrsko delo
ID Rems, Jan (Avtor), ID Agram, Nacira (Mentor) Več o mentorju... Povezava se odpre v novem oknu

, ID Košir, Tomaž (Komentor)

PDF - Predstavitvena datoteka, prenos (794,72 KB)
MD5: F758F2DEA8454D2B99EEBBEA38C1DBB4

Izvleček

In this work, we investigate how relaxed stochastic controls are used for exploration in continuous time and space reinforcement learning. The environment $X^u$ is modeled by a stochastic differential equation controlled by control $u$, while the value function $V^u$ is an infinite horizon performance functional. For relaxed control distribution $\pi$ we introduce relaxed versions of environment $X^{\pi}$ and value function $V^{\pi}.$ In a special linear-quadratic case the optimal control distribution turns out to be Gaussian with mean depending on the current state, and variance depending on exploration weight parameter. A reinforcement learning algorithm for optimal investment strategy in a simple model of the financial market with the infinite horizon is developed and tested.

Jezik:	Angleški jezik
Ključne besede:	reinforcement learning, exploration, stochastic control theory, relaxed controls, dynamical programming, optimal investment strategy
Vrsta gradiva:	Magistrsko delo/naloga
Tipologija:	2.09 - Magistrsko delo
Organizacija:	FMF - Fakulteta za matematiko in fiziko
Leto izida:	2021
PID:	20.500.12556/RUL-130550
UDK:	519.8
COBISS.SI-ID:	79333891
Datum objave v RUL:	16.09.2021
Število ogledov:	1662
Število prenosov:	340
Metapodatki:
:	Kopiraj citat
Objavi na:

Sekundarni jezik

Izvleček:
Jezik:	Slovenski jezik
Naslov:	Uporaba relaksiranih stohastičnih akcij v spodbujevalnem učenju
V tem delu si ogledamo, kako uporabiti relaksirane stohastične akcije pri definiranju raziskovanja v spodbujevalnem učenju v zveznem prostoru in času. Prostor $X^u$ je modeliran s stohastično diferencialno enačbo kontrolirano z akcijo $u.$ Funkcijo vrednosti $V^u$ je funkcional uspešnosti na neskončnem časovnem obdobju. Za relaksirano akcijo $\pi$ vpeljemo raziskovalno verzijo okolja $X^{\pi}$ in funkcijo vrednosti $V^{\pi}.$ V posebnem linearno-kvadratičnem primeru se izkaže, da je optimalna relaksirana akcija Gaussova, kjer je pričakovana vrednost odvisna od trenutnega stanja, varianca pa od parametra, ki kontrolira raven raziskovanja v modelu. Predstavljen je algoritem spodbujevalnega učenja za napoved optimalne strategije v preprostem modelu finančnega trga z neskončim časovnim oknom.
Ključne besede:	spodbujevalno učenje, raziskovanje okolja, teorija upravljanja stohastičnih sistemov, relaksirane stohastične akcije, dinamično programiranje, optimalna investicijska strategija

Podobna dela

Podobna dela v RUL:
Podobna dela v drugih slovenskih zbirkah:

Nazaj