体育馆冰湖环境介绍

冰封湖意味着一块冰上有四种状态:

s:初始统计起点

外宾:冰湖

霍:洞

g:目的地

代理应该学会从起点走到终点，不要掉进洞里。

上一篇文章介绍了env在gym中的基本用法，下面几行可以打印出当前环境的可视化效果:

如果想看看这个游戏有多少状态和动作，可以用下面两行。就上面的图例而言，有0-15***16个状态和4个动作:

Env可以传递sample()？方法随机选择每个状态上的操作。

将选中的动作输入env.step，同样可以得到四个返回值:new _ state、reward、done和info。

每次使用env.render()时，都可以显示当前的新环境布局。

学习材料:

/amp/s/reinforcement learning 4 . fun/2019/06/16/gym-tutorial-frozen-lake/amp/