体育馆冰湖环境介绍
冰封湖意味着一块冰上有四种状态:
s:初始统计起点
外宾:冰湖
霍:洞
g:目的地
代理应该学会从起点走到终点,不要掉进洞里。
上一篇文章介绍了env在gym中的基本用法,下面几行可以打印出当前环境的可视化效果:
如果想看看这个游戏有多少状态和动作,可以用下面两行。就上面的图例而言,有0-15***16个状态和4个动作:
Env可以传递sample()?方法随机选择每个状态上的操作。
将选中的动作输入env.step,同样可以得到四个返回值:new _ state、reward、done和info。
每次使用env.render()时,都可以显示当前的新环境布局。
学习材料:
/amp/s/reinforcement learning 4 . fun/2019/06/16/gym-tutorial-frozen-lake/amp/