Processing math: 100%

Podrobno

Use of relaxed stochastic controls in reinforcement learning : magistrsko delo
ID Rems, Jan (Avtor), ID Agram, Nacira (Mentor) Več o mentorju... Povezava se odpre v novem oknu, ID Košir, Tomaž (Komentor)

.pdfPDF - Predstavitvena datoteka, prenos (794,72 KB)
MD5: F758F2DEA8454D2B99EEBBEA38C1DBB4

Izvleček
In this work, we investigate how relaxed stochastic controls are used for exploration in continuous time and space reinforcement learning. The environment Xu is modeled by a stochastic differential equation controlled by control u, while the value function Vu is an infinite horizon performance functional. For relaxed control distribution π we introduce relaxed versions of environment Xπ and value function Vπ. In a special linear-quadratic case the optimal control distribution turns out to be Gaussian with mean depending on the current state, and variance depending on exploration weight parameter. A reinforcement learning algorithm for optimal investment strategy in a simple model of the financial market with the infinite horizon is developed and tested.

Jezik:Angleški jezik
Ključne besede:reinforcement learning, exploration, stochastic control theory, relaxed controls, dynamical programming, optimal investment strategy
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FMF - Fakulteta za matematiko in fiziko
Leto izida:2021
PID:20.500.12556/RUL-130550 Povezava se odpre v novem oknu
UDK:519.8
COBISS.SI-ID:79333891 Povezava se odpre v novem oknu
Datum objave v RUL:16.09.2021
Število ogledov:1221
Število prenosov:238
Metapodatki:XML DC-XML DC-RDF
:
REMS, Jan, 2021, Use of relaxed stochastic controls in reinforcement learning : magistrsko delo [na spletu]. Magistrsko delo. [Dostopano 7 april 2025]. Pridobljeno s: https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=130550
Kopiraj citat
Objavi na:Bookmark and Share

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Uporaba relaksiranih stohastičnih akcij v spodbujevalnem učenju
Izvleček:
V tem delu si ogledamo, kako uporabiti relaksirane stohastične akcije pri definiranju raziskovanja v spodbujevalnem učenju v zveznem prostoru in času. Prostor Xu je modeliran s stohastično diferencialno enačbo kontrolirano z akcijo u. Funkcijo vrednosti Vu je funkcional uspešnosti na neskončnem časovnem obdobju. Za relaksirano akcijo π vpeljemo raziskovalno verzijo okolja Xπ in funkcijo vrednosti Vπ. V posebnem linearno-kvadratičnem primeru se izkaže, da je optimalna relaksirana akcija Gaussova, kjer je pričakovana vrednost odvisna od trenutnega stanja, varianca pa od parametra, ki kontrolira raven raziskovanja v modelu. Predstavljen je algoritem spodbujevalnega učenja za napoved optimalne strategije v preprostem modelu finančnega trga z neskončim časovnim oknom.

Ključne besede:spodbujevalno učenje, raziskovanje okolja, teorija upravljanja stohastičnih sistemov, relaksirane stohastične akcije, dinamično programiranje, optimalna investicijska strategija

Podobna dela

Podobna dela v RUL:
  1. Smart Villages
  2. Living labs for rural areas
  3. Udejanjanje koncepta pametne vasi na primeru Krškega gričevja
  4. Sustainable and community-centred development of smart cities and villages
  5. Prenova in razvoj vasi ter koriščenje evropskih kohezijskih sredstev
Podobna dela v drugih slovenskih zbirkah:
  1. Dialog narave in dizajna na primeru hiše Fallingwater (1935-1939), arhitekturne mojstrovine Franka Lloyda Wrighta

Nazaj