Ključne besede: strojno učenje, spodbujevano učenje, Markovski proces odločanja, funkcija vrednosti, optimalna politikaCelotno besedilo (datoteka, 3,24 MB)