在一场关乎人与机器、人工智能乃至人类未来命运的“人机大战”中,代表人类出战的韩国著名棋手、最近十年世界冠军头衔最多者李世石不敌谷歌人工智能系统AlphaGo(阿尔法狗),当胜败尘埃落定时,更多注意力被放到了“AlphaGo靠什么击败李世石”这个问题上,相比用穷举法暴力破解而战胜卡斯帕罗夫的深蓝,拥有自主深度学习进化的AlphaGo显然更让世人震惊。
全球关注的人机世纪之战
人们总是对未知领域充满了好奇与敬畏,从计算机诞生之日起,各种有关人工智能的猜想便从终止过。人们一方面希望人工智能能够超越人类智慧,一方面又害怕被科技超越,矛盾的心态下,每一次以智慧为焦点的人机对战都会成为市场关注的焦点。
2016年3月9日至15日,被称为“世纪人机大战”的韩国棋手李世石VS谷歌围棋机器人AlphaGo的比赛最终以AlphaGo赢得四局落下帷幕,虽然本身关注和懂得围棋的人并不多,但这场人机世纪大战却通过各种渠道让全球亿万计的人们知道了—人类智慧被人工智能打败了!回顾以往的人机大战,人类并非永恒的胜者,美国IBM公司的“深蓝”超级计算机以2胜1负3平战胜了当时世界排名第一的国际象棋大师卡斯帕罗夫,但绝大多数人却不以为意,除十分接近的胜败结果外,深蓝主要是依靠运算能力穷举所有路数来选择最佳策略,它当时可以实现每秒两亿步的运算。很多人觉得卡斯帕罗夫的落败与体力有关,深蓝的策略多少有些“无赖”。
但AlphaGo却在“深蓝”获胜十九年后的今天,拥有自主深度学习进化的AlphaGo以难以让人争议的过程和结果,在围棋这一人类智慧竞技的高地上战胜了韩国棋手李世石。
能够深层学习的AlphaGo
“深蓝”之所以能够有超人的绝佳表现,几乎纯粹是靠运算能力。依靠存储的数百万个国际象棋案例,能在众多可能性中进行筛选,从而确定下一步棋的最佳位置。这给人感觉在用体力玩智慧游戏了,但AlphaGo却给人们展示了一个几乎完全靠自学,并通过观察成功与失败案例来掌握得胜技巧的系统。谷歌利用大数据与深度学习的技术优势为AlphaGo构建了一套策略网络,机器通过深度学习能力,模拟人脑的机制来学习、判断、决策。即AlphaGo可以从大量的棋谱和对局中学习策略,形成一套落子决策判断与数据解读的能力体系,让其在冲杀状态下懂得一套试探与引导的能力,最终成功击败人类棋手李世石。
人类是惟一能够将直觉(隐式的)和符号(显式的)知识结合起来的物种,人类具有这样的双重能力,将前者转换成后者,然后通过后者的反馈反过来改善前者,这在以往是人类拥有的特殊性和唯一性。但今天,AlphaGo无缝使用了分层的网络(即深度卷积神经网络)进行直觉学习,强化,评估和策略,配以强悍的计算能力,它完全不需要解决任何语义复杂性并且可从容地从现实考虑中分离,人的思维模式加上科技的理性结合,这让AlphaGo能够在对局结束前30分钟就向Google技术分析团队报告自己确信必胜。
下一步是理解
没有人性弱点的AlphaGo让我们看到了人工智能神经网络的前景在于它在不断缩小机器和人类之间的差距,而且随着技术开发者的跟进,人工智能将会对理解人类语言,揣摩人类情感。
理解人类,这对于巨头们的想象空间在于,基于用户需求的商业决策会因此更加精准。人机对战让我们看到,推理、判断、分析问题等功能处理之外,识别人的情感与情绪与对人的语言理解力将是未来发展的高地。
围棋大战,只能体现出,在封闭规则的计算领域,机器比人类聪明得多,因为我们的心算能力本身与计算器相差甚远;但是思维、对话、情感等都是不确定的。而前面说到,机器没有情绪,只有它懂得了人类的语言,逐渐了解人类表达的意思甚至是情绪,才意味着人工智能达到了更高的领地。AlphaGo及其背后的AI领域真的能实现,而这一切都是建立在搜索的原理与算法的未来改进上。
小知识:它不是一条狗
阿尔法围棋(AlphaGo)是一款围棋人工智能程序,由位于英国伦敦的谷歌(Google)旗下DeepMind公司的戴维 西尔弗、艾佳 黄和戴密斯 哈萨比斯与他们的团队开发,这个程序利用“价值网络”去计算局面,用“策略网络”去选择下子。2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手樊麾;2016年3月对战世界围棋冠军、职业九段选手李世石,并以4:1的总比分获胜。
四位一体的AlphaGo系统
归根到底,AlphaGo系统目前还是一件科技产物,其本身由走棋网络、快速走子、估值网络和蒙特卡罗树搜索四个部分组成,正是这四个部分的协同与融合,让AlphaGo拥有能够学习的智慧,最终战胜李世石。走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。 估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,形成一个完整的系统。
让电脑拥有棋感的走棋网络
走棋网络把当前局面作为输入,预测/采样下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点,它就给出361个数,好招的分数比坏招要高。以往的科技只是单纯基于规则或者基于局部形状,利用简单的线性分类器训练完成走子,整个过程是不可能形成类似人类围棋选手的棋感。
AlphaGo去利用更高效的、宽度为192的网络(正常棋盘上有361个点,电脑给出361个数,好招的分数比坏招要高。),下出有最高置信度的落子。这样的做法一点也没有做搜索,但是大局观非常强,不会陷入局部战斗中,说它建模了“棋感”一点也没有错。但是走棋网络会不顾大小无谓争劫,会无谓脱先,不顾局部死活,对杀出错等等,更多像是高手凭借“自觉”在下棋,因而需要加入搜索功能,让电脑做出有价值的判断。
追求效率的快速走子
作为人类智慧竞技的高地,围棋用用天文数字般的局面数,走棋网络能让AlphaGo达到3毫秒的下子速度,但想要进一步提高AlphaGo的“反应”及“思考”能力,就需要快速走子系统的帮助了。
利用传统的局部特征匹配(local pattern matching)加线性回归(logisticregression)的方法,AlphaGo在吸纳了众多高手对局之后就具备了用梯度下降法自动调参的能力,从而实现了2微秒的走子速度和24.2%的走子准确率。24.2%的意思是说它的最好预测和围棋高手的下子有0.242的概率是重合的,相比之下,走棋网络在GPU上用2毫秒能达到57%的准确率。在AlphaGo有了快速走子之后,不需要走棋网络和估值网络,不借助任何深度学习和GPU的帮助,不使用增强学习,在单机上就已经达到非常高的水平了。
锦上添花的估值网络
估值网络对盘面的评估应用上同快速走子有些重叠,都是通过模拟落子得分评估当前及后面布局的优劣,但通过估值网络和快速走子的互补,在复杂的死活或对杀时,也就是进行到中盘阶段的时候,估值网络的重要性就会得到提升。前面提到AlphaGo能够提前30分钟知道自己必胜,估值网络就起到了很大的作用。
尽量选择更好的蒙特卡罗树搜索
“蒙特卡洛树搜索”是一种启发式的搜索策略,能够基于对搜索空间的随机抽样来扩大搜索树,从而分析围棋这类游戏中每一步棋应该怎么走才能够创造最好机会。
一位名叫苏椰的知乎用户举了这样一个例子,以通俗的语言进行了解释:假如筐里有100个苹果,让我每次闭眼拿1个,挑出最大的。于是我随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个……我每拿一次,留下的苹果都至少不比上次的小。拿的次数越多,挑出的苹果就越大,但我除非拿100次,否则无法肯定挑出了最大的。这个挑苹果的算法,就属于蒙特卡罗算法:尽量找好的,但不保证是最好的。
拥有两个大脑的AlphaGo
AlphaGo是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。
AlphaGo的第一个神经网络大脑科学全称应该是“监督学习的策略网络(Policy Network)”,观察棋盘布局企图找到最佳的下一步。团队通过在KGS(网络围棋对战平台)上最强人类对手,百万级的对弈落子去训练大脑。这就是AlphaGo最像人的地方,目标是去学习那些顶尖高手的妙手。这个不是为了去下赢,而是去找一个跟人类高手同样的下一步落子。AlphaGo这个大脑的出色之处在于不单要模仿学习,更要追求速度,不断模拟计算围棋局面变化,最终选择正确率最高的落子。
价值评估则可看做AlphaGo的第二个大脑,通过整体局面判断来辅助落子选择器。AlphaGo能够决定是否通过特殊变种去深入阅局面和落子,如果局面评估器说这个特殊变种不行,那么AI就跳过阅读在这一条线上的任何更多落子。
深度神经网络的运用
人类在下围棋时,通常会经历常识-棋感-计算-判断四个过程,AlphaGo的常识源于其“监督学习的策略网络(Policy Network)”带来的深层学习能力,而棋感和计算则需要深度神经网络同蒙特卡洛算法的融合,两者的融合让AlphaGo整个运作方式更接近人类。通过对比使用蛮力计算的“深蓝”眼中的国际象棋落子思路和AlphaGo眼中的围棋落子思路会发现,围棋的复杂度需要更“聪明”的AI才能完成了。
两个大脑加上深度神经网络,AlphaGo以Value networks来评估大量的选点,而以Policy networks来选择落子,并且开发了一种新式算法来结合蒙特卡洛算法和以上两个神经网络。在这种结合下,研究者们结合参考人类职业对局的监督式学习,和AI大量积累自对弈实现的深度学习,来训练和提高AI的围棋实力。
AI的进步与期望
围棋代表了很多人工智能所面临的困难:具有挑战性的决策制定任务、难以破解的查找空间问题和优化解决方案如此复杂以至于用一个策略或价值函数几乎无法直接得出。通过将策略和价值网络与树搜索结合起来,AlphaGo终于达到了专业围棋水准,让我们看到了希望:在其他看起来无法完成的领域中,AI也可以达到人类级别的表现。
当然,这一切都是建立在人类千年来在围棋领域积累上的,没有积累就不会围棋AI的今天。AlphaGo让世人看到了AI领域的巨大进步,但想要真正理解人类和语言,其还有一段很长的路要走。相比围棋,人类在生活上的行为习惯,需要AlphaGo们拥有更出色的学习能力以及判断能力,无论是存储容量还是搜索算法,都需要几何倍数的递增,从这个角度看,现在担心AlphaGo们拥有自己的意识或情感,都太早了一些。
渗透进入人们生后的AI
AlphaGo不是DeepMind惟一项目,也不是最大的项目。DeepMind的最终目标是智能助手、医疗和机器人。另外,尽管AlphaGo只是针对围棋开发的系统,但其原理可以被应用到现实问题中。以医疗为例,IBM已经依靠认知学习平台“Watson”进入了医疗领域,Watson在泰国和印度的两家医院协助医生诊断乳腺癌、肺癌和结肠直肠癌。尽管Watson自身不会诊断疾病,但它能够找到医生应该进一步认真检查的地方,并提出治疗方案。
而无人驾驶汽车其实也可以看做具备了身躯的AI,家喻户晓的特斯拉汽车便使用了基于深度学习的现有计算机视觉技术。当然,工业或者服务用机器人都是AI渗透进入人们生活的表现。AI公司们正在努力晚上其产品,争取能够无缝进入人们生活的各个领域,当AI设备在可靠性、适应性和灵活性等方面都有长足进步时,人们未来的生活也将变得更美好。
谷歌改变人类的野心
AlphaGo很强大很厉害,但对于近年来谷歌的谋划而言,AlphaGo无非是其在人工智能领域的小玩具而已。改组Alphabet的谷歌,疯狂地在全球收购各个尖端前沿领域的顶尖公司,把触角伸到了生命科学、人工智能、无人驾驶、虚拟现实等等许多的领域。AlphaGo背后的英国Deepmind公司,只是他们收购的许许多多家公司中的一个而已。
除了传统Youtube、Gmail和地图等等互联网业务,生命科学、人工智能、无人驾驶、虚拟现实等新领域其实谷歌并没有赚到什么钱,更多是对未来的投资和布局,但今天,AlphaGo的表现已经让我们看到了谷歌的投入回报,再加上众多具有颠覆性或者划时代意义的谷歌黑科技,让我们清楚看到了谷歌改变人类未来的野心。相比之下,国内BAT三大巨头在技术积淀和领域格局方面,就显得有些小气了。
人工智能的竞赛
在2010年到2015年期间,企业对人工智能创业公司的投资增长了15倍。BBC预测,人工智能市场将继续保持高速增长,2020年全球市场规模将达到183亿美元,约合人民币1190亿元。庞大的数据和潜力,足以让企业们疯狂。
在硅谷,截至2015年初就有超过1700家创业公司加入人工智能浪潮—这一数字过去1年还在不断增加之中。谷歌、Facebook、亚马逊等科技巨头们的巨大投入都推动AI整个领域取得巨大进步。图像识别、语音识别已经成为苹果、微软、Google、IBM等科技大公司激烈竞争的焦点,而在医疗识别、模拟大脑图像等细分领域中,也涌现出不少初创的科技企业。可以说,一场席卷全球的AI竞赛正在展开,谁能让科技变得更聪明,谁就有望在未来的竞争中占据有利位置。
写在最后:绝非取代
如同第一个工业革命中蒸汽机的出现取代蓝领工作一样,人类多个工种被人工智能最终取代也无法让人避免。但人工智能能够更精准、高效地帮助人们完成工作是肯定的,而人类那具有惟一性的大脑,未来的定位应该在创造!人类大脑和人工智能的合作,一定能共同推动整个人类社会的进步。