阿尔法元：每一次它都变得更聪明

2017-11-23 08:30

方圆 2017年21期

阿尔法元通过与自身对弈实现了自身能力的提升，每一次它都变得更聪明，每一次棋局也更有挑战性

在金庸的小说《射雕英雄传》里，周伯通“左手画圆，右手画方”，左手攻击右手，右手及时反搏，自娱自乐，终无敌于天下。这个桥段着实留在一代人的记忆中。

现实世界中，亦有这么一个“幼童”，他没见过一个棋谱，也没有得到一个人指点，从零开始，自娱自乐，自己参悟，用了仅仅40天，便称霸围棋武林。

这个“幼童”，叫阿尔法元（AlphaGo Zero），就是今年5月在乌镇围棋峰会上打败了人类第一高手柯洁的阿尔法狗强化版AlphaGo Master的同门“师弟”。不过，这个遍读人类几乎所有棋谱、以3∶0打败人类第一高手的师兄，在“师弟”阿尔法元从零自学第21天后，便被其击败。

10月19日，一手创造了AlphaGo神话的谷歌DeepMind团队在Nature杂志上发表重磅论文Mastering the game of Go without human knowledge，介绍了团队最新研究成果——阿尔法元的出世，引起业内轰动。虽师出同门，但是师兄弟的看家本领却有本质的差别。

“过去所有版本的AlphaGo都从利用人类数据进行培训开始，它们被告知人类高手在这个地方怎么下，在另一个地方又怎么下。” DeepMind阿尔法狗项目负责人David Silver博士在一段采访中介绍，“而阿尔法元不使用任何人类数据，完全是自我学习，从自我对弈中实践。”

David Silver博士介绍，在他们所设计的算法中，阿尔法元的对手，或者叫陪练，总是被调成与其水平一致。“所以它是从最基础的水平起步，从零开始，从随机招式开始，但在学习过程中的每一步，它的对手都会正好被校准为匹配器当前水平，一开始，这些对手都非常弱，但是之后渐渐变得越来越强大。”

这种学习方式正是当今人工智能最热门的研究领域之一—强化学习（Reinforcement learning）。

昆山杜克大学和美国杜克大学电子与计算机工程学教授李昕博士介绍，DeepMind团队此次所利用的一种新的强化学习方式，是从一个对围棋没有任何知识的神经网络开始，然后与一种强大的搜索算法相结合，“简单地解释就是，它开始不知道该怎么做，就去尝试，尝试之后，看到了结果，若是正面结果，就知道做对了，反之，就知道做错了，这就是它自我学习的方法。”

这一过程中，阿尔法元成为自己的“老师”，神经网络不断被调整更新，以评估预测下一个落子位置以及输赢，更新后的神经网络又与搜索算法重新组合，进而创建一个新的、更强大的版本，然而再次重复这个过程，系统性能经过每一次迭代得到提高，使得神经网络预测越来越准确，阿尔法元也越来越强大。

其中值得一提的是，以前版本的阿尔法狗通常使用预测下一步的“策略网络（policy network）”和评估棋局输赢的“价值网络”（value network）两个神经网络。而更为强大的阿尔法元只使用了一个神经网络，也就是两个网络的整合版本。

从这个意义上而言，“AlphaGo Zero”譯成“阿尔法元”，而不是字面上的“阿尔法零”，“内涵更加丰富，代表了人类认知的起点——神经元。”李昕教授说。

上述研究更新了人们对于机器学习的认知。“人们一般认为，机器学习就是关于大数据和海量计算，但是通过阿尔法元，我们发现，其实算法比所谓计算或数据可用性更重要。”David Silver博士说。

李昕教授长期专注于制造业大数据研究，他认为，这个研究最有意义的一点在于，证明了人工智能在某些领域，也许可以摆脱对人类经验和辅助的依赖。“人工智能的一大难点就是，需要大量人力对数据样本进行标注，而阿尔法元则证明，人工智能可以通过无监督数据（unsupervised data），也就是人类未标注的数据，来解决问题。”

有人畅想，类似的深度强化学习算法，或许能更容易地被广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域。不过，究竟有多大实际意义，能应用到哪些现实领域，李昕教授表示“还前途未卜”，“下围棋本身是一个比较局限的应用，人类觉得下围棋很复杂，但是对于机器来说并不难。而且，下围棋只是一种娱乐方式，不算作人们在生活中遇到的实际问题。”

那么，谷歌的AI为什么会选择围棋？

据报道，历史上，电脑最早掌握的第一款经典游戏是井字游戏，这是1952年一位博士在读生的研究项目；随后是1994年电脑程序Chinook成功挑战西洋跳棋游戏；3年后，IBM深蓝超级计算机在国际象棋比赛中战胜世界冠军加里·卡斯帕罗夫。

除了棋盘游戏外，IBM的Watson系统在2011年成功挑战老牌智力竞赛节目Jeopardy游戏一战成名；2014年，Google自己编写的算法，学会了仅需输入初始像素信息就能玩几十种Atari游戏。

但有一项游戏仍然是人类代表着顶尖水平，那就是围棋。谷歌DeepMind创始人兼CEO Demis Hassabis博士曾在2016年AlphaGo对阵李世石时就做过说明，有着3000多年历史的围棋是人类有史以来发明出来的最复杂的游戏，对于人工智能来说，这是一次最尖端的大挑战，需要直觉和计算，要想熟练玩围棋需要将模式识别和运筹帷幄结合。

“围棋的搜索空间是漫无边际的——比围棋棋盘要大1个古戈尔（数量级单位，10的100次方，甚至比宇宙中的原子数量还要多）。”因此，传统的人工智能方法也就是“为所有可能的步数建立搜索树”，在围棋游戏中几乎无法实现。

而打败了人类的AlphaGo系统的关键则是，将围棋巨大无比的搜索空间压缩到可控的范围之内。David Silver博士此前曾介绍，策略网络的作用是预测下一步，并用来将搜索范围缩小至最有可能的那些步骤。另一个神经网络“价值网络”（valuenetwork）则是用来减少搜索树的深度，每走一步估算一次游戏的赢家，而不是搜索所有结束棋局的途径。

李昕教授对阿尔法元带来的突破表示欣喜，但同时他也提到，“阿尔法元证明的只是在下围棋这个游戏中，无监督学习（unsupervised learning）比有监督学习（supervised learning）更优，但并未证明这就是最优方法，也许两者结合的semi-supervised learning，也就是在不同时间和阶段，结合有监督或无监督学习各自的优点，可以得到更优的结果。”

李昕教授说，人工智能的技术还远没有达到人们所想象的程度，“比如，互联网登录时用的reCAPTCHA验证码（图像或者文字），就无法通过机器学习算法自动识别”，他说，在某些方面，机器人确实比人做得更好，但目前并不能完全替换人。“只有当科研证明，一项人工智能技术能够解决一些实际问题和人工痛点时，才真正算作是一个重大突破。”

昆山杜克大学常务副校长、中美科技政策和关系专家丹尼斯·西蒙（Denis Simon）博士在接受采访时表示，阿尔法元在围棋领域的成功说明它确实有极大的潜力。阿尔法元通过与自身对弈实现了自身能力的提升，每一次它都变得更聪明，每一次棋局也更有挑战性。这种重复性的、充分参与的学习增强了阿尔法元处理更高层次的、战略复杂问题的能力。但缺点是这是一个封闭的系统。“阿尔法元如何能够超过自身的局限获得进一步的成长？换句话说，它能跳出框框思考吗？”（文章来源：澎湃新闻）endprint