北京邮电大学主页平台管理系统肖波--中文主页--AlphaGo战胜人类的思考—

肖波

博士生导师

硕士生导师

副教授

性别：男

联系方式：xiaobo@bupt.edu.cn

学位：博士学位

在职信息：在职

所在单位：人工智能学院

学历：研究生毕业

所属院系：人工智能学院

办公地点：教三803，教三718

电子邮箱：

其他联系方式

邮编：

通讯/办公地址：

邮箱：

教师博客

当前位置: 中文主页 > 教师博客

AlphaGo战胜人类的思考——为什么围棋是人工智能技术最先突破口之一

发布时间：2024-04-24 点击次数：

AlphaGo战胜人类的思考——为什么围棋是人工智能技术最先突破口之一

肖波 2021.4.12修改

游戏规则简单。相对于其他智能，如模拟某种动物的智能，没有各种不易量化的输入。如模拟人的智能行为，输入就有听觉、嗅觉、味觉、视觉、触觉、甚至幻觉、直觉等等，这种输入众多，无直观规则，对于人工智能学习技术难度更大。真实世界远比游戏复杂的多，因此选择游戏作为人工智能技术的突破口，也是最容易想到的选择。
结果判别简单，无需标注。棋类最终的结果，不需要标注，直接使用简单的判别规则就可以判别胜负。如围棋，只需数一下黑方的白方的占地。再如象棋，“将”或“帅”被杀死即为输。人工智能解决众多的有监督学习问题，大量的高质量标注样本是比不可少的，这需要耗费大量的时间成本和人力成本，此外，现实世界中，往往有些问题即使是未标注样本也很少，这就大大限制了模型的训练。而像棋类等众多游戏，直接应用规则就就得到结果，从而可以非常方便的训练模型。
围棋动作空间范围比较适合当前人工智能技术和算力。通常来说，游戏的决策空间比较少，使用强大的算力，就非常容易被穷举，例如国际象棋，对人类的挑战性不高。而若决策空间过大，像魔兽等网游，考虑到游戏分辨率和鼠标可操作的范围，每一步的选择空间会更多，以当时的人工智能算法和算力，应对起来还比较困难。当然，经过不断发展和演进，目前的算法击败可以击败人类顶级选手。而对于围棋，棋盘一共有 361 个落子点，每个步骤的选择空间范围最多不超过361种，每一步的决策空间不会过少，也不会过多。所以围棋是最为适合的人工智能最新技术应用和示范的对象之一。虽然每个步骤的选择空间范围最多不超过361种，但围棋的全部状态有3361种。注意的是，并不是361!，因为361!只是所有棋子布满围棋棋盘的全部状态，围棋是允许位置上不落子的，每个位置上有三种状态（黑子，白子，无子）。此外，围棋还允许提子，所以一盘棋有可能多于361手。由于状态数量是天文数字，因此不能像通过穷举解决国际象棋一样来攻克围棋。
围棋的影响力巨大。围棋起源于中国，春秋战国时期即有记载，蕴含着中华文化的丰富内涵，是中国文化与文明的体现。在国际象棋程序“深蓝”战胜人类最高棋手时，人们一度认为这只是依赖计算机的计算能力，要战胜公认为最复杂的围棋程序，靠计算机穷举原理上就是不可能的。因此一旦在围棋上，计算机算法有所突破，一定会引起世人瞩目。事实也是如此，2016年3月，DeepMind开发的AlphaGo围棋程序与围棋世界冠军李世石进行围棋人机大战，以4比1的总比分获胜，一时成为全世界人工智能领域的焦点。
一般来说，各种游戏的过程都是一个序列决策的过程。根据当前的状态，选择合适的动作，力求最大的回报。而强化学习正是以此为对象而提出的。虽然强化学习的概念几乎与“人工智能”的概念同时出现，但同样是因为早期算力的不足和算法性能的不足，早起的强化学习技术无法解决围棋游戏。既便如此，对于对算力要求不高的问题，强化学习早期已经取得了非常不做的进展。
蒙特卡洛树搜索MCTS。早期的棋类 AI 基本上使用的是博弈树算法——但是用在围棋上，效果很差，原因有两个：一是棋局评判能力要求更高，不能像国际象棋一样给每个棋子和位置设置不同的分值。二是计算能力要求更高，因为其搜索空间已经达到3361，绝对算是天文数字了。我们首先想到，使用蒙特卡洛方法解决这一问题。注意，这和蒙特卡洛树搜索不是同一种算法。蒙特卡洛法方法是评判棋盘局面的一种方法，由于围棋很难写出好的估值函数，于是上世纪有人提出了一种神奇的方法：双方在某个局面下”随机“走子，直到终局或者残局为止，随机很多次，计算胜率，胜率越高的局面就越好。不需要写极其复杂的估值函数，直接随机很多盘棋，就可以得到每个动作的估值。这种方法看似简单，但其实是有弊端的。比如当算法下了某步棋之后，对方有 100 种应对—— 其中99 种会导致劣势，但是有 1 种必胜下法，那算法就绝对不能下这步棋，因为对方会只选择必胜算法。而蒙特卡洛树搜索正是解决这一问题的算法，它首先是一棵树，每个结点就是一种决策，采用不断迭代采用选择、扩展、模拟、回溯等操作，最终结果就是，越优秀的节点，越有可能走，而走得越多的节点，越是优秀的选择。蒙特卡洛树搜索在 2006年提出，就能够战胜业余的段级选手，在当时是很大的突破，当前现在又有不少变种被提出。需要注意的关键一点是，蒙特卡洛树搜索是采用自己的UCB公式来作为选择的依据，而非完全依赖于结点的value、访问频度或概率。每个结点的UCB考虑了平均value，总次数，本结点经过的次数。
随着深度学习技术的出现，基于深度神经网络的强化学习技术终于解决了围棋问题。2017年10月，DeepMind团队公布了最强版的AlphaGo Zero。经过短短3天的自我训练，AlphaGo Zero对此前战胜李世石的旧版AlphaGo的战绩是100:0。经过40天的自我训练，AlphaGo Zero又打败了AlphaGo Master版本。AlphaZero模型总体结构还是比较简单的，主要的部分是是蒙特卡洛搜索树MCTS和卷积神经网络CNN。AlphaZero模型不像早期的Alpha Go模型，采用监督学习策略网络和估值网络两个网络，而是只有一个网络，既是估值网络也是策略网络。它完全通过从随机初始状态开始进行自我对弈训练。并行训练多个网络，在每个检查点，基于当前最优的神经网络，评选出最优的网络用来生成训练数据。
思考：显然，对于规则简单的游戏世界，各大人工智能公司研发的算法基本已经战胜了人类，通过吸引世人的眼球，提高了公司的知名度。然后，面对真实的世界，简单的规则少之又少，很多问题的解决还需人们不断探索，人工智能还有很长的路要走。

以上皆为自己一点不成熟的思考，还请各位看官一起辩论探讨。

上一条：设计一个判断奇偶数的神经网络模型下一条：c++中的cin使用注意事项