阿法狗大胜，人类该怎么办

2016-04-26 20:08马尧

世界博览 2016年7期

马尧

阿法狗的核心技术是深度学习方法，也就是说，它的围棋知识不是像“深蓝”那样是编在程序里的，而是它通过大量棋谱和自我对弈自己学会掌握的。

3月9日一15日，为期七天的阿法狗与李世石的围棋“人机大战”落下帷幕后，谷歌智能系统阿法狗以4：1的绝对性优势战胜韩国顶级棋手李世石。

起源于中国的围棋一向是智者的运动。其变化多端以及对大局观和战略观的高度要求常常被人称道。1998年电脑深蓝战胜国际象棋冠军卡斯帕罗夫之后，围棋被认为是人工智能无法战胜人类的最后一项棋类运动。然而事情发生了变化：最近的人机大战中，电脑阿法狗（AlphaGo）继5：0战胜欧洲冠军樊麾三段后，又以4：1的总比分将现世界围棋职业大赛百灵杯亚军、前世界围棋第一人并夺取过14个世界冠军头衔的韩国围棋名将李世石九段挑落下马。这不仅是世界围棋史上的大事，也是人工智能发展的新阶段。

国运兴，棋运兴

围棋是中国的国粹，在南北朝时传入日本。在唐朝年间，两国棋手也有过不少切磋，中国围棋名家顾师言以三十三手“镇神头”击败“日本国王子”的故事更是流传甚广。就竞技水平而言，中国围棋水平在日本之上。此后，中日围棋交流一直没有中断，一直到明清时代。进入16世纪，日本围棋开始走上职业化的道路，棋手水平开始反超中国。特别是进入近代之后，中国国力贫弱，围棋水平不升反降。围棋名手吴清源甚至不惜在抗战期间背负骂名加入日本国籍，以此来维系自己的职业生涯。

改革开放之后的中国与日本在各方面开展了交流，围棋自然也不例外。1984年开始的中日围棋擂台赛成就了聂卫平和常昊等国手的威名。正当中国棋手在中日围棋擂台赛上斩将夺旗，大展雄风之际，韩国围棋开始异军突起，并开始对棋坛长达十数年的统治。自从1988年曹薰铉击败聂卫平夺得应氏杯冠军以来，韩国至2015年1月在世界大赛中共计57次夺冠，超过中日两国的总和。其中李昌镐、李世石、曹薰铉分别夺得17、14和9个冠军，位列前三位。一时间，韩国围棋压得中日同行喘不过气来。

随着2010年第14届LG棋王杯决赛中国棋手孔杰零封李昌镐夺得虎年首冠，中国围棋开始吹响反攻的号角。在古力领军的中国围棋80后选手的强力反击下，韩国围棋甚至在2013年度颗粒无收。而韩国天王级的棋手李昌镐5年期间收获8个亚军;李世石则在2014年后再没有登上世界冠军的领奖台，最近结束的百灵杯中以半目告负于中国小将柯洁，成就了这位少年英雄的三冠梦想。让韩国围棋界灰心的是，自二李之后，韩国围棋界再无天才，除朴廷桓和申真谞外，其他皆不堪重用。日本更惨，所谓的少年天才井山裕太被柯洁杀得“血溅五步”，连招架之功都没有。至于一力辽之流，更是不值一提。反观中国，除柯洁外，时越、陈耀烨、芈昱廷、唐韦星、江维杰等一大批少年天才棋手横空出世，标志着中国围棋的复兴已经成为现实，中国棋手统治棋坛的时代已经到来。

国运兴，棋运兴。日本棋手横行棋坛的时代正是日本国势强盛的时代;韩国棋手称雄棋坛的十年正是韩国经济腾飞的十年;而中国棋手统治棋坛的那一年，中国的GDP超过日本，成为世界第二，三年之后，中国成为世界上最大的工业国。

阿法狗大胜

然而，正当人们对世界围棋格局的中国王朝进行展望时，一位“棋手”横空出世，“他”不是中日韩棋手，甚至不是人，而是人工智能棋手——阿法狗。

2016年1月27日英国《自然》杂志刊登文章称，谷歌的人工智能系统阿尔法围棋2015年10月份以5比0的战绩完胜欧洲冠军、职业围棋二段樊麾，这是人类历史上，围棋人工智能（AI）第一次在公平比赛中战胜职业围棋手。2016年3月，人机大战开始升级：阿法狗的对手换成了韩国名将，14次世界冠军的获得者李世石九段。尽管与世界围棋第一人柯洁九段交手的记录为难堪的2胜8负，但谁也不敢小觑这位百灵杯的新科榜眼的实力。李世石与阿尔法围棋的围棋人机大战为五番棋挑战，但无论比分如何将下满五局，比赛采用中国围棋规则，执黑一方贴3又3/4子（即7.5目），各方用时为2小时，3次60秒的读秒机会。

2016年3月9日，围棋人机大战首局在韩国首尔四季酒店打响。赛前猜先阿尔法围棋猜错，李世石选择黑棋，等阿尔法围棋下了186手，李世石算清后投子认输。3月10日，围棋人机大战展开第二局较量。阿尔法围棋执黑先行，最终阿尔法围棋执黑于211手获胜且优势明显，总比分2比0领先。3月12日，围棋人机大战展开第三局较量。李世石执黑先行，到阿尔法围棋下了176手后，李世石只有投子认负。围棋人机大战前三盘人类三连败。3月13日，围棋人机大战展开第四局较量。在接连三局负于“阿尔法围棋”后，“输得只剩裤衩”的李世石放下包袱，终于迎来了“围棋人机大战”的首次胜利。3月15日，围棋人机大战展开第五局对决。第280手，李世石投子认负。这次围棋人机大战的最终比分定格为1比4。

阿法狗的优点与缺陷

阿法狗之所以获胜，在其具备的三个巨大优势：第一，与“深蓝”完全不同的学习能力。1997年“深蓝”战胜国际象棋大师卡斯帕罗夫，但它的意义完全不能同阿法狗。相比。阿法狗的核心技术是深度学习方法，也就是说，它的围棋知识不是像“深蓝”那样是编在程序里的，而是它通过大量棋谱和自我对弈自己学会掌握的。而且，这种学习能力具有相当大的通用性。自己学习的能力，使得计算机有了进化的可能;而通用性，则使其不再局限在围棋领域。尽管这个能力目前还很初级，但却展现了极好前景，使得以前困扰我们的人工智能自我学习问题，有了解决的可能。这是一个很大的创新和进步。

第二，局部落子和整体棋局着法的平衡能力。阿法狗通过深度学习产生出来的策略网络（或称走棋网络），在对抗过程中可以实现局部着法的优化;通过估值网络实现对全局的不间断的评估，用于判定每一步棋对全局棋胜负的影响。而且，还可以通过快速走子算法和蒙特卡洛树搜索机制，加快走棋速度，实现对弈质量和速度保证的合理折衷。这些技术使得计算机初步可以既考虑局部得失，又考虑全局整体胜负。而这种全局性“直觉”平衡能力，正是过去我们认为是人类独有的。

第三，超出人类对围棋博弈规律的理解能力。在五番棋的对抗过程中，从观战的超一流棋手讨论和反应可以发现，阿法狗的着法有些超出了他们的预料，但事后评估又认为是好棋。有棋手就认为，人类真的可以向计算机学习围棋，加深对围棋规律的理解，觉得“它可能比我们更接近围棋之神”。这意味什么？意味着阿法狗的深度学习算法，甚至可以从大数据中发现人类千百年来还未发现的规律和知识，为人类扩展自己知识体系开辟了新的认识通道。

阿法狗如此神奇，是不是就无法战胜？也未必。有专家提出两点克制方式：一、攻其策略网络，加大搜索空间。进入中盘后，职业选手如能建立起比较复杂的局面，每一步棋都牵连很多个局部棋的命运（避免单块、局部作战），则阿法狗需要搜索空间则急剧加大，短时间内得到的解的精度就会大打折扣。通俗地说，非常复杂的变化，人算不清楚，现阶段计算机的计算力更没办法。李世石九段的第四局棋就有这个意思，所以扳回一局。

二、攻其价值网络，万劫不复。阿法狗的价值网络极大地提高了之前单纯依靠MCTS来做局势判断的精度，但离准确判断围棋局势还有不小的差距。神经网络还不能完全避免在某些时候出现一些怪异（甚至错误）的判断，更何况其训练样本还远远不足。这也是为什么有了价值网络还仍然需要依靠快速走棋来判断局势。不能说阿法狗不会打劫，而是害怕在棋局早期的多劫并存。即，打劫要乘早，太晚了搜索空间变小，即便价值网络失效，还可以靠快速走棋网络来弥补。开劫应该以在刚刚进入中盘时期为好（太早劫财还不够），并且保持长时间不消劫，最好在盘面上能同时有两处以上打劫。没有了价值网络的阿法狗其实水平也就职业3-5段左右。

人工智能并非全是福音

当今世界第一人柯洁已经放出豪言，要和阿法狗一较高下。这将是一场胜利。首先，在刚刚过去的人机大战中，阿法狗的优势和缺点想必柯洁已经了然于胸并引起足够重视，相比起李世石刚开始迎战时的无知无畏甚至自大，柯洁的心理状态应该更好;其次，柯洁对李世石的胜率达到80%，棋力远在后者这个过气明星之上，因此，柯洁对阵阿法狗的胜率更高。何况李世石也曾赢过一局，说明阿法狗并非不可战胜。

然而这场人机大战的意义不仅仅是在围棋领域，更在于人工智能方面。一般说来，机器智能主要分为三大类：计算智能、感知智能和认知智能。在计算智能领域，以科学运算、逻辑处理、统计查询等形式化规则运算为核心，在有些方面计算机早已超过了人类，比如“天河”的科学运算和“深蓝”基于规则的暴力搜索。但也有些还无法超越人类，比如复杂符号推理。在感知智能领域，以图像理解、语音识别、语言翻译、运动控制等为代表，近期由于深度学习方法的突破，取得了重大进展，开始逐步趋于实用水平。

但是，在认知智能领域，以理解、推理和决策为代表，强调“会思考”、“能决策”等，因其综合性更强，更接近人类智能，研究难度更大，长期以来一直进展缓慢。阿法狗在深度学习技术上的突破，使其在自主学习、理解和推理能力上取得重大进步，使我们终于在认知智能方面看到了曙光，尽管现在还非常非常的初步。然而这种进步对人类来说带来的并非全是福音。由于人工智能在催生更多的聪明武器和自主化无人平台、提高对战场态势的认知速度、拓展认识信息化战争机理的新途径、助推兵棋推演实现真正的人机对抗、使指挥信息系统克服智能辅助上瓶颈等防务领域的巨大价值，必然会被用于战争，如果是这样，恐非人类之福。

（本文作者为上海外国语大学国际关系与公共事务学院特约研究员）