为什么阿尔法狗破围棋可以？

“phaGo之父”戴密斯·哈萨比斯最近在母校英国剑桥大学发表了题为“超越人类认知极限”的演讲，回答了许多关于人工智能和阿尔法狗的问题——在过去的3000年里，国际象棋的哪个领域被人类低估了？阿尔法狗去年靠什么招数赢了李世石韩国生涯第九阶段？今年年初拿下几个国际大师的神秘棋手Master是不是阿尔法狗？为什么围棋是人工智能的一个谜？

Deep Mind创始人、AlphaGo之父杰米·哈萨比斯(Jamie hass abis)4岁开始下棋，8岁在棋盘上的成功促使他开始思考两个至今困扰他的问题:第一，人类大脑是如何学会完成复杂任务的？第二，计算机能做到这一点吗？17岁时，哈萨比斯负责开发经典模拟游戏主题公园，于1994年发售。

他随后在剑桥大学完成了计算机科学学位，并于2005年进入伦敦大学学院攻读神经科学博士学位，希望了解真正的大脑是如何工作的，从而推动人工智能的发展。2014创办公司Deep Mind，公司产品阿尔法狗在2016围棋冠军李世石事件中一举成名。

AlphaGo之父在剑桥大学45分钟的演讲；

非常感谢你今天来到这里。今天我就来说说人工智能，以及DeepMind最近在做什么。我把这个报告命名为《超越人类认知的极限》。希望到报告结束的时候，大家能清楚的明白我想传达的意思。

1.你真的知道什么是人工智能吗？

对于不了解DeepMind的，我简单介绍一下。我们2010在伦敦成立了这家公司，2014被Google收购，希望加快我们人工智能技术的步伐。我们的使命是什么？我们的首要任务是解决人工智能的问题；这个问题一旦解决，理论上任何问题都可以解决。这是我们的两大使命，听起来可能有点棘手，但我们真的相信，如果人工智能最基本的问题都解决了，没有什么是困难的。

那么我们如何实现这个目标呢？DeepMind现在正试图制造世界上第一台通用学习机。一般来说，学习可以分为两类:一类是直接从输入和经验中学习，没有既定的程序或规则可循。系统需要从原始数据本身学习；第二种学习系统是通用学习系统，这意味着一种算法可以用于不同的任务和领域，甚至是一些从未见过的新领域。你肯定会问，系统是怎么做到这一点的？

其实人脑就是一个很明显的例子，这是可能的。关键在于如何通过大量的数据资源找到最合适的解决方案和算法。我们称这类系统为广义人工智能，以区别于我们大多数人目前正在使用的狭义人工智能，后者在过去的40-50年间非常流行。

IBM发明的深蓝系统就是狭义人工智能的一个很好的例子。他在20世纪90年代末击败了国际象棋冠军加里·卡斯帕罗夫。今天，我们已经到了人工智能新的转折点，我们有了更先进、更匹配的技术。

1997年5月，IBM与国际象棋世界冠军加里·卡斯帕罗夫对弈。

2.如何让机器服从人类的命令？

你可能想问机器是怎么服从人类命令的。其实不是机器或者算法本身，而是一群聪明的程序员智慧的结晶。他们和每一位象棋大师交谈，学习他们的经验，转化为代码和规则，组成了人类最强的象棋大师团队。但这样的系统仅限于国际象棋，不能用于其他游戏。对于一个新游戏，你需要重新开始编程。在某种程度上，这些技术还不完善，还不是传统意义上的完全人工智能。缺少的是普遍性和学习性。我们想通过“强化学习”来解决这个问题。这里我解释一下强化学习。相信很多人都知道这个算法。

首先，想象有一个主体。在AI领域，我们称我们的人工智能系统为主体。它需要了解自己所处的环境，尽最大努力找到自己想要达到的目标。这里的环境可以指真实事件、机器人或者虚拟世界，比如游戏环境；主体以两种方式与周围环境接触；它先通过观察来熟悉环境。起初，我们通过视觉、听觉、触觉等发展多感官系统。

第二个任务是建模，并在此基础上找出最佳选择。这可能涉及对未来的预期、想象和假设检验。这个主体往往是在真实的环境中。到时候系统需要输出目前找到的最佳解。这种方案或多或少可能会改变环境，从而进一步驱动观察结果，并反馈给主体。

简单来说，这就是强化学习的原理。原理图虽然简单，但涉及到极其复杂的算法和原理。如果我们可以解决大多数问题，我们就可以建立普适的人工智能。这是因为两个主要原因:首先，从数学的角度来看，我的合作伙伴，一位医生，建立了一个叫做“人工智能-XI”的系统。利用这个模型，他证明了在计算机硬件条件和时间不受限制的情况下，构建一个通用人工智能所需的信息。另外，从生物学的角度来看，动物和人一样，人的大脑是由多巴胺控制的，它在执行增强学习的行为。因此，无论是从数学还是生物学的角度，强化学习都是解决人工智能问题的有效工具。

3.为什么围棋是人工智能的一个谜？

接下来我主要说一下我们最近的技术，就是去年诞生的阿尔法狗；我希望这里的每个人都知道这个游戏，并尝试玩它。这是一个伟大的游戏。围棋使用一个正方形的棋盘和黑白圆形的棋子下棋。棋盘上有19条纵横线将棋盘分成361个交叉点。棋子走在交叉点上，双方交替下棋，以围地取胜。围棋的规则不是很复杂。我可以在五分钟内教你。这张图是一局游戏结束，整个棋盘基本上都是棋子。然后数数你的棋子圈出的空间和对手的棋子圈出的空间。谁的空间最大，谁就赢。在图中所示的势均力敌的比赛中，白方以微弱优势获胜。

白方以一格的优势获胜。

其实要理解这个游戏的终极目标是非常困难的，因为它不像象棋一样有一个直接明确的目标。在围棋中，完全是凭直觉，连如何决定棋局的结局对新手来说都很难。围棋是一种历史悠久的游戏，有3000多年的历史。它起源于中国，在亚洲，围棋有着深远的文化意义。孔子还指出，围棋是每一个真正的学者都应该掌握的四大技能之一(琴棋书画)，所以围棋是亚洲的一门艺术，专家都会下围棋。

如今，这种游戏更受欢迎，有4000万人玩围棋，2000多名顶级棋手。如果你在4-5岁的时候就展现出围棋的天赋，这些孩子就会被选中，进入专门的专业围棋学校，学生每天花12小时学习围棋，一周七天。在你成为这方面的专家之前，你不能离开学校。这些专家基本上把全部的生命精力都投入到试图弄清楚如何学习和掌握这项技能上。我觉得围棋可能是最优雅的游戏了。

我说过，这个游戏只有两个非常简单的规则，但其复杂程度是无法想象的。一个* *有10170种可能性(10的170次方)，比整个宇宙的原子数多1080 (65438+)。我们需要更聪明的方法。你可能会问为什么电脑下围棋这么难？1997年，IBM的人工智能DeepBlue击败了当时的国际象棋世界冠军GarryKasparov。围棋在人工智能领域一直是个谜。能不能做一个算法和世界围棋冠军一较高下？要做到这一点，有两大挑战:

第一，搜索空间巨大(分支因子200)。一个很好的例子是，在围棋中，每个棋子平均有200个可能的位置，而象棋只有20个。围棋的分支因子远大于象棋。

第二，比这更难的是，几乎没有合适的评价函数来定义谁是赢家，赢了多少；这个评价函数对系统非常重要。对于国际象棋来说，写一个评价函数是非常简单的，因为国际象棋不仅是一个相对简单的游戏，而且是一个实体，你可以很容易地通过统计双方的棋子来得出结论。还可以通过其他指标来评价象棋，比如棋子的移动性。

这些在围棋中都是不可能的，并不是所有的部分都是一样的，哪怕一个小小的变化都会彻底改变格局，所以每一个小棋子对棋局都有着至关重要的影响。最难的是，我把象棋称为一种破坏性的游戏。游戏开始时，所有的棋子都在棋盘上。随着游戏的进行，棋子被对方吃掉，棋子的数量在减少，游戏越来越简单。相反，围棋是一种建设性的游戏。开始时，棋盘是空的。慢慢地，双方都填满了棋盘。

所以，如果你准备判断中场当前的局势，在象棋中，只要看当前的棋盘就能告诉你大致的情况；在围棋中，你要先评估未来可能发生的事情，然后才能评估现在的情况，所以相比较而言，围棋的难度要大得多。也有很多人尝试将DeepBlue的技术应用到围棋中，但是效果并不理想。这些技术甚至不能赢得一个职业围棋选手，更不用说一个世界冠军。

所以大家会问，连电脑都这么难操作，人类是怎么解决这个问题的？其实人类靠的是直觉，围棋从一开始就是靠直觉而不是靠计算的游戏。所以，如果你问一个棋手，他为什么要走这条路，他会告诉你这之后的下一步和下一步会是什么，能达到什么样的目标。这样的计划有时候可能不尽如人意，但至少玩家有个理由。

然而，围棋却不同。如果你问世界级大师为什么走这一步，他们往往会回答你的直觉，告诉他走这一步。这是真的，他们也说不出原因。我们希望通过加强学习来改进人工神经网络算法，从而解决这个问题。我们试图通过深度神经网络来模仿人类的这种直觉行为。这里，我们需要训练两个神经网络。一个是决策网络。我们从网上下载了数百万个业余围棋游戏。通过监督学习，我们让阿尔法狗模拟人类下围棋的行为。我们从棋盘上随机选择一个落点，训练系统预测人类下一步会做出的决定。系统的输入是那个特殊位置最有可能发生的前五或前十的位置移动；这样，你只需要看5-10种可能性，而不是分析所有的200种可能性。

一旦有了这些，我们就对系统进行百万次的训练，通过错误加强学习，让系统意识到，下一次类似的情况发生时，它更有可能做出类似的决策。相反，如果系统输了，那么下一次出现类似情况时，就不会选择这种方式。我们建立了自己的游戏数据库，通过上百万的游戏训练系统，得到了第二个神经网络。选择不同的落点，通过置信区间学习，选择能赢的情况。概率在0-1之间，其中0不可能赢，1是100%赢。

把这两个神经网络(决策网络和数值网络)结合起来，就可以大致预测出现在的情况。这两个神经网络树，通过蒙特卡罗算法，可以解决这个原本无法解决的问题。我们招了大部分围棋子，然后和欧洲围棋冠军比赛。结果阿尔法狗赢了，这是我们的第一次突破，相关算法也发表在《自然》杂志上。

接下来我们在韩国设置了654.38+0万美元的奖金，2065.438+06年3月对阵围棋世界冠军李世石。李世石先生是围棋界的传奇人物，在过去的10年里，他一直被认为是顶级的围棋专家。我们和他对质，发现他有很多创新的玩法，有时候阿尔法狗很难控制。比赛开始前，全世界所有人(包括他自己)都以为他会轻松拿下这五局，但实际结果是我们阿尔法狗4:1获胜。围棋专家和人工智能领域的专家都称这具有划时代的意义。对于业内人士来说，之前是没想到的。

4.棋局的哪个关键领域被人类忽视了？

这对我们来说也是千载难逢的意外。全球有28亿人在关注这款游戏，关于它的报道超过35000篇。那一周整个韩国都在围绕这个话题。这真是一件美妙的事情。对我们来说，重要的不是阿尔法狗赢了比赛，而是去了解和分析他是怎么赢的，系统有多创新。阿尔法狗不仅模仿其他人类玩家，还不断创新。比如这是第二局的一个情况，第37步，这是整局我最喜欢的一步。这里黑色代表阿尔法狗，他把棋子掉在了图中三角形标注的位置。为什么这一步如此关键？为什么大家都很震惊？

左:第二局，第37步，黑棋位置。右图:之前看起来有麻烦的两块。

事实上，围棋中有两条至关重要的分割线，右数第三条线。如果你移动第三条线上的棋子，就意味着你将占据这条线右边的区域。而如果你落在了第四行，就意味着你要向棋盘中央进军。你以后占据棋盘其他部分的势场，可能就相当于你在第三条线上得到的场。

因此，在过去的3000年里，人们一直认为第三根线和第四根线具有同样的重要性。但是，在这个游戏中，你可以看到，在第37步，阿尔法狗落在了第五行，进入了棋局的中心区域。与四号线相比，这条线更靠近中心区。这可能意味着，几千年来，人们低估了象棋比赛中心区域的重要性。

有趣的是，围棋是一门艺术，也是一门客观的艺术..我们每一个坐在这里的人，因为心情好，可能会有上百个新的想法，但不代表每个想法都是好的。阿尔法狗是客观的，他的目标是赢得比赛。

5.阿尔法狗赢李世石有哪些绝招？

你可以看到，在当前的棋局中，左下角标有三角形的两个棋子似乎遇到了麻烦，而在第15步之后，这两个棋子的力量扩散到棋局的中心，并延续到棋盘的右侧，使得第37步正好落在这里，成为胜负的决定性因素。阿尔法狗在这一步很有创新。我自己就是一个很业余的棋手。让我们来看看世界级专家迈克·雷蒙对这一步的评价。迈克尔是9段棋手(围棋的最高阶段)，就像《功夫》里的黑棋阶段。他说，“这是非常令人震惊的一步，就像一个错误的决定。”在实际模拟中，迈克尔一开始其实是把棋子放到了另一个地方，他怎么也没想到阿尔法狗会走这一步。这样的创新，在这个比赛中，有很多阿尔法狗。在此，我特别感谢李世石先生。事实上，当我们赢得前三场比赛时，他就倒下了。

2016年3月，围棋世界冠军李世石以4:1的总比分战胜人类。

那是三场非常艰难的比赛，尤其是第一场。因为需要不断训练我们的算法，之前阿尔法狗拿过欧锦赛冠军。这场比赛之后，我们知道了欧洲冠军和世界冠军的区别。理论上，我们的系统也有所改进。但是当你训练这个系统的时候，我们不知道有多少是过拟合的，所以系统直到第一局结束才知道自己的统计结果。所以，其实在第一局，我们是很紧张的，因为如果第一局输了，很有可能是我们的算法存在巨大的漏洞，可能会连输五局。但如果我们赢了第一场，就证明我们的加权体系是正确的。

不过第四局李世石先生回来了，或许压力减轻了不少。他做了一个非常创新的举动，我认为这是历史上的一个创新举动。这一步迷惑了阿尔法狗，让他的决策树失算，国内有专家甚至称之为“上帝的一只手”。通过这个例子可以看出围棋中蕴含了多少哲理。这些顶级专家，用所有必要的精力，试图找出这些神中的一个。其实这一步，阿尔法狗知道这是很不寻常的一步。当时他估计李世石通过这一步获胜的概率是0.007%。阿尔法狗从未见过这样的方式。在那两分钟里，他需要再次搜索以进行决策计算。我刚刚提到了这场比赛的影响:28亿人观看了比赛，媒体报道了3.5万篇相关文章，西方网上销售的围棋被一抢而空。听说麻省理工还有很多其他大学，也有很多人加入了围棋俱乐部。

四局，李世石第七十八创新。

我刚才讲了直觉和创新。直觉是一种隐性的表达，是一种基于人类经验和本能的思维形式，不需要精确的计算。这个决策的准确性可以通过行为来判断。在围棋中，很简单。我们将棋子的位置输入到系统中以评估其重要性。阿尔法狗是在模仿人类的这种直觉行为。创新，我认为是在已有知识和经验的基础上产生一种原创的、创新的观点。阿尔法狗清楚地展示了这两种能力。

6.柯洁当6还有希望吗？白盘高手胜柯洁？

所以我们今天的主题是“超越人类认知的极限”。下一步应该怎么做？从去年3月开始，我们一直在不断完善和改进阿尔法狗。大家肯定会问，既然已经是世界冠军了，还能提高什么？事实上，我们认为阿尔法狗并不完美，还需要更多的研究。

首先，我们想继续学习刚刚提到的第四局对阵李世石，来填补知识空白；其实这个问题已经解决了。我们建立了一个新的阿尔法狗子系统，与主系统不同，用来迷惑主系统。我们还优化了系统的行为。以前我们需要训练系统至少3个月，现在只需要一周。

第二，我们需要理解和解释阿尔法狗的决定。阿尔法狗这样做的原因是什么，是否符合人类的思想等等。我们希望通过对比人脑对不同位置的反应和阿尔法狗对棋子位置的反应，找到一些新的知识。本质上，我想让系统更专业。我们在互联网上与世界顶级专家对抗。一开始我们用的是假名(主人)，连续赢了比赛之后大家都猜测是阿尔法狗。这些都是顶级专家，到目前为止我们已经赢了60个大师。如果做一个简单的贝叶斯分析，你会发现阿尔法狗要打败不同的对手并不容易。而且，阿尔法狗也在不断的自我创新。比如图片右下角的棋子(用圆圈标注的)落在第二行，这是我们过去不认为是有效的位置。事实上，韩国的一些球队预订了这些比赛，想研究新的意义和信息。

阿尔法狗自我革新，落在第二格线的旗帜上。

柯洁不仅是中国围棋冠军，也是目前世界围棋冠军。他才19岁。他还在网上和阿尔法狗对战过。赛后他说，人类研究围棋已经有几千年了，但人工智能告诉我们，我们甚至还没有揭开它的皮。他还表示，人类和人工智能的结合将迎来一个新的时代，并发现围棋的真谛。大意如此，柯洁提到了围棋的道理，我们这里说的是科学道理。

大师2065438+2007 65438+10月3日，风靡网络的神秘棋手，在腾讯围棋平台上赢了柯洁。

Master中盘击败柯洁，Master是AlphaGo的升级版。

那么围棋新时代真的到来了吗？这一划时代的事件在围棋历史上发生过两次。第一次发生在1600左右的日本，三四十年代的日本。当时日本杰出的围棋手吴清源提出了全新的围棋理论，将围棋提升到了一个全新的境界。据说如今，阿尔法狗带来了围棋界的第三次变革。

5月23日，柯洁和alphago下棋。柯洁还有希望吗？

7.为什么人工智能“下围棋”比“下棋”强？

我想解释一下为什么人工智能在围棋界的贡献远远大于在象棋界的贡献。如果我们看看当今的国际象棋世界冠军马格努斯·卡尔森，他和以前的世界冠军并没有太大的区别。他们都很优秀，很聪明。但为什么人工智能一出现就能远远超越人类？我觉得原因是象棋更注重战术，而阿尔法狗更注重策略。现在世界顶级的国际象棋程序绝不会出现技术上的失误，但是人类不可能不出错。

其次，象棋拥有庞大的数据库。如果棋盘上的棋子少于9个，就可以通过数学算法计算出谁赢谁输。计算机可以通过成千上万的迭代算法计算出来。所以，当棋盘上的棋子少于九枚时，人类在象棋中是没有办法取胜的。

所以象棋的算法近乎极端，我们没有办法改进。然而，围棋中的阿尔法狗却在不断创造新的想法。这些全新的想法也可以被顶级玩家在与真人对抗时考虑进去，不断完善自己。

正如欧洲围棋冠军范辉(第一个与阿尔法狗对弈的人类职业棋手)所说，在与阿尔法狗对弈的过程中，机器人的不断创新也让人类不断跳出自身的思维局限，不断提升自己。众所周知，经过专业围棋学校30多年的训练，他们的很多思想已经固化，机器人的创新思想能给他们带来意想不到的灵感。我真的相信，如果人类和机器人结合起来，可以创造出很多不可思议的东西。我们的天性和真正的潜力才会得到真正的释放。

8.阿尔法狗不想赢得比赛是为了什么？

就像天文学家用哈勃望远镜观测宇宙一样，有了阿尔法狗，围棋专家可以探索自己未知的世界，探索围棋世界的奥秘。我们发明阿尔法狗不是为了赢得围棋比赛，而是为了建立一个测试我们自己的人工智能算法的有效平台。我们的最终目的是将这些算法应用到现实世界中，服务于社会。

当今世界面临的一个巨大挑战是过多的信息和复杂的系统。怎样才能找到规律和结构？从疾病到气候，我们需要解决不同领域的问题。这些领域非常复杂，即使是最聪明的人类也无法解决这些问题。

我认为人工智能是解决这些问题的潜在途径。在当今这个充满新技术的时代，人工智能必须在人类道德标准的范围内开发和利用。本来技术是中性的，但是使用它的目的和范围很大程度上决定了它的功能和性质。它必须是一项惠及所有人的技术。

我自己的理想是通过自己的努力，让人工智能科学家或者人工智能助手、医疗助手成为可能。通过这项技术，我们可以真正加速技术的更新和进步。