肖波
博士生导师
硕士生导师
副教授
性别:男
联系方式:xiaobo@bupt.edu.cn
学位:博士学位
在职信息:在职
所在单位:人工智能学院
学历:研究生毕业
所属院系:人工智能学院
办公地点:教三803,教三718
电子邮箱:
邮编:
通讯/办公地址:
邮箱:
AlphaGo战胜人类的思考——为什么围棋是人工智能技术最先突破口之一
肖波 2021.4.12修改
游戏规则简单。相对于其他智能,如模拟某种动物的智能,没有各种不易量化的输入。如模拟人的智能行为,输入就有听觉、嗅觉、味觉、视觉、触觉、甚至幻觉、直觉等等,这种输入众多,无直观规则,对于人工智能学习技术难度更大。真实世界远比游戏复杂的多,因此选择游戏作为人工智能技术的突破口,也是最容易想到的选择。
结果判别简单,无需标注。棋类最终的结果,不需要标注,直接使用简单的判别规则就可以判别胜负。如围棋,只需数一下黑方的白方的占地。再如象棋,“将”或“帅”被杀死即为输。人工智能解决众多的有监督学习问题,大量的高质量标注样本是比不可少的,这需要耗费大量的时间成本和人力成本,此外,现实世界中,往往有些问题即使是未标注样本也很少,这就大大限制了模型的训练。而像棋类等众多游戏,直接应用规则就就得到结果,从而可以非常方便的训练模型。
围棋动作空间范围比较适合当前人工智能技术和算力。通常来说,游戏的决策空间比较少,使用强大的算力,就非常容易被穷举,例如国际象棋,对人类的挑战性不高。而若决策空间过大,像魔兽等网游,考虑到游戏分辨率和鼠标可操作的范围,每一步的选择空间会更多,以当时的人工智能算法和算力,应对起来还比较困难。当然,经过不断发展和演进,目前的算法击败可以击败人类顶级选手。而对于围棋,棋盘一共有 361 个落子点,每个步骤的选择空间范围最多不超过361种,每一步的决策空间不会过少,也不会过多。所以围棋是最为适合的人工智能最新技术应用和示范的对象之一。虽然每个步骤的选择空间范围最多不超过361种,但围棋的全部状态有3361种。注意的是,并不是361!,因为361!只是所有棋子布满围棋棋盘的全部状态,围棋是允许位置上不落子的,每个位置上有三种状态(黑子,白子,无子)。此外,围棋还允许提子,所以一盘棋有可能多于361手。由于状态数量是天文数字,因此不能像通过穷举解决国际象棋一样来攻克围棋。
围棋的影响力巨大。围棋起源于中国,春秋战国时期即有记载,蕴含着中华文化的丰富内涵,是中国文化与文明的体现。在国际象棋程序“深蓝”战胜人类最高棋手时,人们一度认为这只是依赖计算机的计算能力,要战胜公认为最复杂的围棋程序,靠计算机穷举原理上就是不可能的。因此一旦在围棋上,计算机算法有所突破,一定会引起世人瞩目。事实也是如此,2016年3月,DeepMind开发的AlphaGo围棋程序与围棋世界冠军李世石进行围棋人机大战,以4比1的总比分获胜,一时成为全世界人工智能领域的焦点。
一般来说,各种游戏的过程都是一个序列决策的过程。根据当前的状态,选择合适的动作,力求最大的回报。而强化学习正是以此为对象而提出的。虽然强化学习的概念几乎与“人工智能”的概念同时出现,但同样是因为早期算力的不足和算法性能的不足,早起的强化学习技术无法解决围棋游戏。既便如此,对于对算力要求不高的问题,强化学习早期已经取得了非常不做的进展。
蒙特卡洛树搜索MCTS。早期的棋类 AI 基本上使用的是博弈树算法——但是用在围棋上,效果很差,原因有两个:一是棋局评判能力要求更高,不能像国际象棋一样给每个棋子和位置设置不同的分值。二是计算能力要求更高,因为其搜索空间已经达到3361,绝对算是天文数字了。我们首先想到,使用蒙特卡洛方法解决这一问题。注意,这和蒙特卡洛树搜索不是同一种算法。蒙特卡洛法方法是评判棋盘局面的一种方法,由于围棋很难写出好的估值函数,于是上世纪有人提出了一种神奇的方法:双方在某个局面下”随机“走子,直到终局或者残局为止,随机很多次,计算胜率,胜率越高的局面就越好。不需要写极其复杂的估值函数,直接随机很多盘棋,就可以得到每个动作的估值。这种方法看似简单,但其实是有弊端的。比如当算法下了某步棋之后,对方有 100 种应对—— 其中99 种会导致劣势,但是有 1 种必胜下法,那算法就绝对不能下这步棋,因为对方会只选择必胜算法。而蒙特卡洛树搜索正是解决这一问题的算法,它首先是一棵树,每个结点就是一种决策,采用不断迭代采用选择、扩展、模拟、回溯等操作,最终结果就是,越优秀的节点,越有可能走,而走得越多的节点,越是优秀的选择。蒙特卡洛树搜索在 2006年提出,就能够战胜业余的段级选手,在当时是很大的突破,当前现在又有不少变种被提出。需要注意的关键一点是,蒙特卡洛树搜索是采用自己的UCB公式来作为选择的依据,而非完全依赖于结点的value、访问频度或概率。每个结点的UCB考虑了平均value,总次数,本结点经过的次数。
随着深度学习技术的出现,基于深度神经网络的强化学习技术终于解决了围棋问题。2017年10月,DeepMind团队公布了最强版的AlphaGo Zero。经过短短3天的自我训练,AlphaGo Zero对此前战胜李世石的旧版AlphaGo的战绩是100:0。经过40天的自我训练,AlphaGo Zero又打败了AlphaGo Master版本。AlphaZero模型总体结构还是比较简单的,主要的部分是是蒙特卡洛搜索树MCTS和卷积神经网络CNN。AlphaZero模型不像早期的Alpha Go模型,采用监督学习策略网络和估值网络两个网络,而是只有一个网络,既是估值网络也是策略网络。它完全通过从随机初始状态开始进行自我对弈训练。并行训练多个网络,在每个检查点,基于当前最优的神经网络,评选出最优的网络用来生成训练数据。
思考:显然,对于规则简单的游戏世界,各大人工智能公司研发的算法基本已经战胜了人类,通过吸引世人的眼球,提高了公司的知名度。然后,面对真实的世界,简单的规则少之又少,很多问题的解决还需人们不断探索,人工智能还有很长的路要走。
以上皆为自己一点不成熟的思考,还请各位看官一起辩论探讨。