从AlphaGo人机围棋大战解读人工智能技术

2017-12-29 10:58作者宫书畅江苏省南京第一中学
电子制作 2017年16期
关键词:走法蒙特卡洛国际象棋

作者/宫书畅,江苏省南京第一中学

引言

2016年3月,由谷歌旗下DeepMind公司的团队开发的围棋人工智能程序AlphaGo以4:1的战绩击败了世界围棋冠军李世石。1970年以前,人们普遍认为只会执行固定程序的电脑不可能在国际象棋和围棋的比赛中战胜人类冠军;20世纪70年代,国际象棋程序的算法思路大致奠定,智能程序开始取得胜绩。1997年,“深蓝”计算机战胜卡斯帕罗夫,成为首个在公开化比赛中战胜国际象棋人类冠军的计算机,围棋随之成为人机对弈的下一个主战场。2015年10月,AlphaGo程序在一场公开比赛中5:0完胜欧洲围棋冠军、职业二段选手樊麾[1]。人工智能快速发展的同时也让人感到忧虑。国内外有很多小说和电影描述了智能机械脱离控制、引发叛乱甚至奴役人类的场景。物理学家斯蒂芬·霍金也表达了它对人工智能的担忧。他说:“成功制造出一台人工智能机器人将是人类历史上的里程碑。但不幸的是,它也可能会成为人类历史上最后的一个里程碑。”

本文的工作主要分为两个方面。一方面从AlphaGo的核心算法进行分析,详细的论证了AlphaGo的工作原理。另一方面,作者结合人工智能的现状,从技术等角度提出对人工智能发展前景的思考,从而得出人工智能发展不会威胁人类社会的结论。

1.AlphaGo核心算法分析

在AlphaGo之前,国际象棋人工智能程序“深蓝”主要采用的是暴力穷举法,即在国际象棋有限的棋盘上,找出所有的能走的走法,然后对它们进行分析和估值,最后找出所有走法中最佳的一个。由于国际象棋棋盘小,走法数量不会太大,所以通过暴力穷举法“深蓝”得以取得胜利。但是围棋棋盘大,交叉的网格点多达361个。加之对棋盘上的多个交战点和大局观的把控,暴力穷举法很显然是不可取的。

AlphaGo主要采用的是神经网络和蒙特卡洛搜索相结合的方法,其神经网络主要实现了决策过程,即决定下一步的走法,而蒙特卡洛树搜索则是决定了每一步的前进过程。因此,本文将从以下两个方面对AlphaGo的核心算法进行详细分析。

1.1 四个神经网络

为了实现围棋对弈的过程,AlphaGo使用了四个神经网络,分别为三个策略网络:快速走子网络(Rollout policy)、监督学习策略网络(SL policy network)、强化学习策略网络(RL policy network)和一个值网络(Value network)。快速走子网络是一个简单的神经网络。它的准确率不是很高,但是它运算速度极快。快速走子网络能够快速地模拟对弈,提高了对棋盘上局面的评估能力。监督学习策略网络比快速走子网络复杂很多,是一个13层的深度卷积网络,它可以根据当前棋盘的布局给出下一步的走法。这两个神经网络都是通过储存在KGS围棋平台上的3000万条数据进行训练的。强化学习策略网络的训练数据是由监督学习策略网络得到的,这样能进一步强化神经网络。因此,强化学习策略网络得到的结果更加接近最优策略。[2]值得注意的是,正是对局中之所以使用监督学习策略网络产生备选走法而不是强化学习策略网络,是因为后者使用的训练数据是由神经网络产生的,这使得它产生的走法过于单一,而前者使用的训练数据来自于人类大师,其方法更为多元化更有利于找到最优解。值网络输出的值表示了在所有玩家都使用了最优策略的情况下,最终的胜率是多少。而最优策略的获得是来自于强化学习策略网络,训练值网络所需的数据又来自于强化学习策略网络所产生的结果。

1.2 蒙特卡洛树搜索

蒙特卡洛树搜索算法的原理是先随机走子,然后通过棋局最后输赢的结果来更新原先的走法,并设定随机走子的概率与先前计算出的走子价值成正比。多次的随机模拟后,使最好的方案涌现出来。[3]蒙特卡洛树搜索对评估函数的要求非常简单,只要可以判断棋局最后的输赢结果就行了。AlphaGo沿用了深蓝时代的算法框架,在状态空间中使用的信息汇总策略也与蒙特卡洛树搜索方法完全一样。但AlphaGo运算能力明显提高的主要原因是成功地改进并使用了状态空间搜索的策略和一个合理的棋局评估函数,即上文所阐述的4个神经网络。AlphaGo通过传统的蒙特卡洛树搜索将策略网络和价值网络结合起来,使得AlphaGo具有了更加类似于人类思维的“深思熟虑”。

2.人工智能的思考及展望

围棋是人类智慧的集大成者,是人类智慧的巅峰。然而李世石的失败似乎标志了人工智能已经攻破了这一高峰,拥有了比人类更高等的智慧。人类在为这一突破而感到兴奋的同时,也不禁感到了一丝恐惧:人类不再是地球上最具智慧的存在了。智能机械在未来与人类是敌是友,我们不得而知。

2.1 智械危机

“智械危机”一词来源于《守望先锋》的游戏背景故事中。奥尼卡公司对机器人生产技术进行了革命性改良,因此整个世界的经济大幅度发展。被称为“智械中枢”的可以自动生产机器和可以自我改良的软件算法被授予了专利。这是一个有着学习能力、可以自我升级、分布区域广泛的人工智能。随后,智械中枢开始崩溃。当这些失去作用的智能机械觉醒后,立即对所有人类发动了战争。没有任何一个国家可以靠一己之力关闭一个智械中枢。曾经令人类引以为豪的机械适应能力,如今成为了最危险的敌人。而这一切危机的源头正是对人工智能的开发和应用。人工智能代表了科技的高峰,是对人类思想的模拟。它比任何理论科学都更加接近于人类的生活。它潜藏着人类对人类本身学习力以及对科学技术的恐惧。人类越是依赖技术的革新带来的生活水平上的提高,就越是担心科技这把双刃剑的剑锋有一天会砍向自己。但是,从理性的角度来看,世界上运算再快的人也比不过计算器,跑得再快的人也追不上火车。机器在各个方面早已超越了人类多年。但仅凭这些,并不能说明计算机和火车比人类更加高等。除此之外,就目前人工智能的研究现状看来,人工智能还不能完完全全地做到像人类一样独立地思考,人工智能的行为均是依赖于外界训练集的输入,所以本文认为在科幻作品中的智械危机是不会出现在现实当中的。

2.2 人工智能的发展

如同上个世纪的计算机一样,人工智能将会在未来发挥巨大的作用。现在,人工智能已经被广泛运用了。比如邮箱的垃圾邮件过滤器、iPhone的助手Siri、科大讯飞的语音输入、乃至谷歌开发的无人驾驶车等,可见人工智能已经极大的方便了人类生活。目前人工智能是科学研究的焦点之一,谷歌、Facebook、百度、腾讯等互联网公司均设立了人工智能实验室将人工智能技术作为未来研究的重点。在欧美,发达国家也都在致力研究人工智能计划,如欧盟“人脑工程项目”、美国“大脑研究计划”等。[4]

在未来,人工智能将会取代许多传统行业,例如快递员、售货员、会计、司机、清洁工等职业。[5]这些人工智能机器不需要工资,只需要提供电和网络就会一直工作。这些人工智能机器在为社会创造更多财富的同时,也不可避免的会造成大量人群的失业,但是,这也会使人们会努力寻找新的产业,世界的产业结构从而发生改变,从而人类社会得到进步。

3.总结与展望

AlphaGo与李世石的对弈是由4个神经网络通过蒙特卡洛树搜索的方式来完成的。这4个学习网络包括3个策略网络和1个值网络,它们都是在3000万条围棋数据直接或间接的训练下得到的。策略网络中监督学习策略网络负责对当前局势提供走法,强化学习策略网络和快速走子网络负责预估棋局走向。而值网络负责对棋局的最终结果进行预估。蒙特卡洛树搜索把4个神经网络结合了起来,通过大量的模拟对弈筛选出赢面最大的走法。AlphaGo在击败人类围棋大师的同时,人们也开始担心人工智能在未来潜伏的威胁。虽然在各种科幻小说和电影中智械危机都有出现,但是通过分析,本文认为这些情况是不会出现在现实生活中的。人工智能将在未来更快的发展,并协助人类工作,提高人类的生活质量,创造出大量的财富,甚至推动社会的进步。从更强大的搜索引擎、高精度的语音识别功能到能够独立完成大量工作的智能机械,从可以照顾孩子的教育机器人到能够关心老人的陪伴机器人,人工智能在今后的发展将会为人类社会带来福音。

* [1]黄铂钧 . AlphaGo 来了 ![J]. 科学世界 , 2016(4)∶4—11.

* [2]黄铂钧 . 程序也能作画 [J]. 科学世界 , 2016(11)∶92—95.

* [3]陶九阳, 吴琳, 胡晓峰. AlphaGo技术原理分析及人工智能军事应用展望[J]. 指挥与控制学报, 2016, 2(2)∶114—120.

* [4]阮晓东. 从AlphaGo的胜利看人工智能的未来[J]. 新经济导刊 , 2016(6)∶69—74.

* [5]许嘉凝. 从AlphaGo的胜利看人工智能[J]. 自然科学∶全文版,2016(3)∶00149—00149.

猜你喜欢
走法蒙特卡洛国际象棋
面向纳米尺度金属互连线的蒙特卡洛模拟方法研究
俄罗斯为什么被称为“国际象棋王国”
斐波那契数列与走楼梯
基于蒙特卡洛法的车用蓄电池20h率实际容量测量不确定度评定
马踏连营
追梦路上要做——象棋达人
许银川先胜万春林
马尔科夫链蒙特卡洛方法及应用
一共有多少种走法