阿尔法狗又进化了。它是如何演变的?

通过使用新的强化学习方法,AlphaGoZero将自己变成了一名教师。一开始,系统甚至不知道围棋是什么。它只是从单个神经网络开始,通过其强大的搜索算法玩自己的游戏。

随着自我博弈的增加,神经网络逐渐调整,提高对下一步的预测能力,最终赢得博弈。更重要的是,随着训练的深入,DeepMind团队发现AlphaGo也自主发现了游戏规则,走出了一条新的策略,为围棋这个古老的游戏带来了新的见解。

自学了3天,打败了老版AlphaGo。

AlphaGo Zero也在三个方面与之前的版本有明显不同。

AlphaGo-Zero的训练时间表

首先,AlphaGo Zero只使用棋盘上的黑白字符作为输入,而上一代包括了少量人工设计的特征输入。

其次,AlphaGoZero只使用单一的神经网络。在之前的版本中,AlphaGo使用“策略网络”来选择下一步棋,并在每一步棋后使用“价值网络”来预测赢家。在新版本中,这两个神经网络被合并为一个,以便更有效地训练和评估它。

第三,AlphaGoZero没有使用快速随机行走的方法。在之前的版本中,AlphaGo使用了快速跑者的方法,从目前的情况来预测哪个棋手会赢得比赛。相反,新版本依靠其高质量的神经网络来评估棋局。

AlphaGo几个版本的排名。

根据哈萨比斯和席尔瓦的说法,这些差异帮助了新版AlphaGo改进系统,算法的改变使系统变得更强大、更有效。

经过短短三天的自我训练,AlphaGo Zero以100:0的战绩击败了之前击败过李世石的老版AlphaGo。经过40天的自我训练,AlphaGo Zero战胜了AlphaGo大师版。“大师”打败过世界顶级围棋选手,甚至世界排名第一的柯洁。

对于想用人工智能推动人类社会进步的DeepMind来说,围棋并不是AlphaGo的终极意义。他们的目标始终是用AlphaGo创造一个通用的、终极的探索宇宙的工具。AlphaGoZero的推广让DeepMind看到了利用人工智能技术改变人类命运的突破。目前,他们正积极与英国医疗机构和电力、能源部门合作,提高医疗效率和能源效率。

时代的步伐越来越快,科技进步的速度也越来越快...

也许有一天,技术的研发会被一个组织者和一群智能机器人取代...

这个时代,科技正在让生活变得更加便捷。