Ključne besede: spodbujevalno učenje, nagrada, vrednost Q, nevronska mreža, robotCelotno besedilo (datoteka, 4,32 MB)