阿法狗启示录

2016-04-29 00:00:00
智族GQ 2016年7期

黄世杰(Aia Huang)从盛着光亮的黑色棋子的木碗中取出—枚棋子夹在中指和食指间,透过金属丝镜架的眼镜凝视了片刻,目光锁定在了棋盘上一块几乎是空的区域,将黑色棋子落在一枚单个白子的左下方。在围棋术语中管这种做法叫“肩侵”,从侧面入手,远离棋局的主要形势。

桌子的另一端,是过去十年最厉害的围棋选手李世石,他停住了。看着棋盘上散布着的37枚棋子,随后站起来离开。

在50英尺之外的评论席上,迈克尔雷蒙德正在通过闭路电视观局。雷蒙德是世界上唯一一位达到围棋九段的西方围棋选手,这种情形让他陷入两难。他和李世石同样感到震惊,“我真的无法说清这一步是好还是坏。”雷蒙德对在线关注棋局的两百万观众说。

“我认为这是错误的。”另一位英语评论员、美国围棋协会的传媒副主席克里斯·加洛克(Chris Garlock)说道。

几分钟后,李世石走回比赛房间。他坐了下来,没有触碰碗中的白色棋子。—分钟过去了,又一分钟——15分钟过去了,这对锦标赛中选手所能利用的两小时来说是个重大的停顿。最终,李世石拿起一枚棋子落在了黄世杰刚刚走的那步黑棋的上方。

黄世杰的那步棋才刚刚是棋局的第37步,却让李世石再没能从这重击的一步中缓过来。在4小时20分钟后,他放弃了,输掉了比赛。

但黄世杰并不是这场围棋比赛真正的胜者。他只是听从由他左边的平板显示器发出的指令,显示器连接到附近首尔四季酒店的一间控制室里,接入了遍布世界各地的谷歌数据中心的上百台电脑。只是借黄世杰之手,这场比赛背后真正参与博弈的“大脑”是一个叫作AlphaGo的人工智能机器,在这场可能是人类设计出的最复杂的棋局中打败了当今世上最优秀的棋手。

在同一间屋内,另一位围棋专家樊麾(法国国家围棋队总教练)也在观战,他曾三次获得欧洲冠军。起初他也对第37步困惑不已。但他曾和AlphaGo交战过,与其他人不同的是,他是AlphaGo的练习对手。在5个月内,樊麾和这台机器对弈了上百次,帮助AlphaGo的创造者研究它的运行方式。樊麾屡次败退,但他开始渐渐理解AlphaGo了——他也是唯——个。樊麾认为这步肩侵并非人类行为。沉思了10秒钟后,他似乎燃大悟,“太美了。”他说。

在这场五局三胜的比赛中,AlphaGo目前领先李世石——或者说机器领先人类——2比0。第37步显示了AlphaGo并非单单机械重复经年累月编入的程序或是执行强硬的预测运算法则。这一刻AlphaGo证明了它“理解”了,或是至少让人分辨不出是真的理解还是模仿。在李世石看来,AlphaGo展示出了围棋手称作直觉的东西,—种以人类达不到的方式打出美妙比赛的能力。

但不必为李世石或是人类的失败而过度惋惜。李世石并不是个牺牲者,第37步棋也并不是第一个机器开始压倒人类思维的时刻。恰恰相反:第37步棋代表着机器和人类终于开始共同进化了。

当大卫·西尔韦(DavidSilver)还是名来自英国东海岸Suffolk的15岁国际象棋锦标赛选手时,戴密斯·哈萨比斯(Demis Hassabis)已是战无不胜的国际象棋神童。哈萨比斯是个真正的奇才,出生于伦敦,有着中国新加坡背景的母亲和希腊塞浦路斯背景的父亲,一度成为全世界排名第二高的14岁以下国际象棋手。他参加地方锦标赛作为练习并且想着多赢点儿也无妨。“我早就知道哈萨比斯了,那时他还不知道我,”西尔韦说。西尔韦作为研究员,领导创造出了AlphaGo。“我看他出现在我的城市,赢得比赛之后离开。”

两人相识于剑桥的计算神经科学本科,这是一门研究如何理解人类思维以及未来机器如何变得智能的学科。但真正让他们走到一起的是游戏,不论是棋盘上的还是电脑的。

那时是1998年,哈萨比斯和西尔韦毕业后自然而然地共同创立了一家电子游戏公司。哈萨比斯常常和同事下围棋,受他的影响,西尔韦也开始自学。“能赢哈萨比斯几乎是—种荣誉象征,”西尔韦说。“我知道他才刚开始对这游戏感兴趣。”

他们加入了当地的国际围棋俱乐部,和二段、三段的棋哥:对弈,这相当于空手道中的黑带级别。另一方面,他们忍不住思考围棋是怎么成为—种机器从没能破解的高智能竞技。在1995年一个叫Chinook的计算机程序战胜了世界上最顶尖的西洋棋手。两多后,IBM公司的一台名为“深蓝”的超型计算机战胜了国际象棋世界冠军卡斯帕罗夫。之后的几年,机器不断在Scrabble棋、黑白棋,甚至电视智力竞答上屡获胜利。根据博弈论,围棋同国际象棋、西洋棋一样,是完全信息博弈,没有机会的成分,没有隐藏的信息。通常这些容易被计算机掌握,但围棋偏偏不能。

可问题是,围棋看起来十分简单。3000多年前发明于中国。围棋中两个棋手在一个横竖各19格的方格棋盘上对弈。棋手轮流在交叉点上落下黑棋子或白棋子,尽可能围堵或隔离对手的领地。人们说下棋像是战争的隐喻,但其实更像一场单独的战役。围棋像全球战场,或是地缘分政治。棋盘上一个角落的棋子能牵一发而动全身,此消彼长。在一局国际象棋中,按照给定的顺序一个棋手通常有大约35种可能的走法,而在围棋中有大概200种。在整场对弈中,那是完全另一个水平的复杂程度。围棋盘上可能的形势超出了宇宙中原子的数量。

不同于国际象棋,围棋棋手不论是人类还是机器都无法预计每个可能的走法所导致的终极结果。最顶尖的棋手凭借直觉下棋,而非粗略的算计。“一盘好棋看起来就很美,”哈萨比斯说,“看上去就像遵循某种美学。这就是围棋为什么千百年来仍如此引人入胜。”

2005年,哈萨比斯和西尔韦的游戏公司倒闭了,两个人分道扬镳。西尔韦在阿尔伯塔大学(Alberta)研究人工智能的初期形式,叫作增强学习,一种通过让机器自己一遍一遍完成任务并追踪带来最多回报的决策的学习方式。哈萨比斯则在UCL获得研究认知神经科学博士学位。

2010年他们又找到对方。哈萨比斯在伦敦合伙成立了一个叫DeepMind的人工智能公司;西尔韦加入了他的团队。他们的野心不小:创造出综合的人工智能,真正能思考的人工智能。但他们总得先着手做点儿什么。

这个起始点自然是游戏竞技。这对人工智能其实是个很好的测试。游戏是受到制约的,不像真实生活,游戏是个被围困起来的小宇宙,你可以客观地判定输和赢,成功或失败。DeepMind结合了增强学习和深度学习。深度学习是—种新锐的方法,在海量的数据集合中摸索出模式。为了证明这是否行得通,研究员们教给他们的人工智能雏形玩太空侵略者和Breakout(一种打砖头的游戏)。

结果证明Breakout奏效了,基本上像乒乓球,不过并不是和对手将一个像素球弹过来弹过去,而是碰到—个彩色砖墙反弹回来。碰到的那块砖就会消失;如果没接到弹回来的球,或是没碰到墙扑空了,就算输。在玩了500多次后,DeepMind的系统自动学会了以某种角度发送球以保证它能停在那儿,来回弹,将砖墙一块一块击掉。这是Breakout经典的模式,但DeepMind计算机每次都能准确无误,并且以人类反应能力远远达不到的速度。

寻找投资人时,在一次晚宴上,哈萨比斯拦住彼得·蒂尔,蒂尔是著名的PayPal的创始人,Facebook的投资人。哈萨比斯只有几分钟时间和他交谈。得知蒂尔很热衷国际象棋,哈萨比斯进一步对他发动攻势,说这竞技游戏存活如此之久是因为骑士和主教的技能和弱点之间的创造性的张力。蒂尔让哈萨比斯第二天来讲讲他的想法。一旦某位硅谷巨头对你产生兴趣,好事便会传千里,引起所有人的兴趣。通过蒂尔,哈萨比斯认识了埃隆·马斯克(Elon Musk),马斯克和谷歌的CEO拉里佩奇(LarryPage)讲了DeepMind。谷歌很快便以6亿5千万美元收购了这家公司。

加入搜索引擎巨头之后,哈萨比斯在一次谷歌的联合创始人谢尔盖·布林(SergeyBrin)也在的会议上演示了Atari,两个人发现他们有着共同的热情。还在斯坦福的研究生院时,布林太沉迷于玩围棋以至于拉里·佩奇都担心Google还能不能诞生出来。

就这样,当布林遇见哈萨比斯,他们聊到围棋。“你知道,DeepMind在几年内可能打败世界围棋冠军,”哈萨比斯对他说,“如果我们真的花心思研究的话。”

“我觉得那不可能。”布林说。

哈萨比斯听到他的回答,就这样,开始了游戏。

在第二局定出胜负时,西尔韦进入为AlphaGo搭建的控制室,就在比赛另一边的大厅里。它的大脑分布在世界各处。在这些显示器前,西尔韦可以看到一点儿AlphaGo的思维,监控它的健康状况,追踪它对每次游戏结果的预测如何运行。

点几个按键,西尔韦就可以收集到AlphaGo在游戏过程中的决策记录。他聚焦在第37步之前发生了什么。

在DeepMind和AlphaGo之前,人工智能研究员用机器系统地预测每一步的结果,以此破解围棋局,通过计算机“暴力法”,这很像1997年IBM的Deep Blue如何在国际象棋比赛中打败卡斯帕罗夫。我当时还是个新人记者,在PC杂志中报道了这场比赛。而李世石对战AlphaGo,人们认为这是人工智能的重要时刻。奇怪的是,如同李世石在这场比赛中的第二局,Deep Blue也在对卡斯帕罗夫的第二轮时走出了人类走不出来的一步棋。卡斯帕罗夫像李世石—样遭遇落败,但卡斯帕罗夫没有像李世石一样战斗,他几乎立即放弃了——在压力下屈服了。

但单凭暴力法从来不足以赢得围棋局。这个游戏有着太多的选择,可能导致太多的结果,即使是对于计算机来说。西尔韦的团队另辟蹊径,建造了一台可以学习如何合理地下棋而不是比赛的机器。

在DeepMind近伦敦国王十字站的办公室内,团队将3000万人类围棋走法灌输进深度神经网络,这个网络由硬件软件组成,松散地仿效人脑内的神经元的网络。神经网络实际上很常见:Facebook使用它们为照片中的脸添加标签;谷歌使用它们辨识安卓智能手机指令。如果你将足够多的你妈妈的照片输入神经网络,它就会能够认出她。给它输入足够多的演讲,它就能学会识别出你说了什么。给它输入3000万步围棋走法,它就能学会下围棋。

但仅知道规则并不能成为能手。第37步并不在那3000万步之中。那么AlphaGo是怎么走出这—步棋的呢?

AlphaGo知道这步风险很大——某种程度上它可以“懂得”任何事。“它知道这步是专业棋手不会走的,当它探查得越来越深,它就能压倒最初的指引。”西尔韦说道。某种程度上,alphaGo已经开始独立思考了。它的决策并非基于它的创造者编入它的数码DNA中的规则,而是基于它自己领悟出的运算法则。“它真的是通过它自己的操作和分析过程认知到的。”

事实上,机器已经算出人类专家棋手也走同样的这步棋的可能性是万分之一,所以AlphaGo就走了这步。

在它学会根据人类可能的行动下棋时,西尔韦使机器自己与自己博弈。它一局接一局地和一个同它自己神经网络轻微不同的版本对弈。当它行动时,它追踪哪一步能导致最大的回报,占领棋盘上最大的领地——西尔韦在研究生学院研究的增强学习技巧。AlphaGo开始形成自己的机械套路。

但这只是一小部分把戏。西尔韦的团队之后将百万的非人类的行动输入第二个神经网络,教它像卡斯帕罗夫(或DeepBlue)观察接下来的国际象棋局的方式一样来预计结果。它没法像国际象棋局一样计算所有可能的行动——这仍然不可能。但在集合了它自己下了这么多局之后收集的所有知识之后,AlphaGo能够开始预计一局围棋大概会如何进行了。

能从你没见过的初始条件揣测结果?那就是所谓的“直觉”。AlphaGo在第二局凭直觉走出的就是那第37步,—种超乎最厉害的人类棋手能达到的洞察力。连它的创造者也预见不到。“当我观看这些棋局,你不知道那有多紧张,”西尔韦从控制室回来之后对我说。“我真的不清楚将会出现什么情况。”

你付给一家公司六亿五千万美元不是让它来造一个会玩棋盘游戏的电脑的。深层学习和神经网络是谷歌很多服务项目的基础,包括它强大的搜索引擎。增强学习,AlphaGo的另一个不算秘密的武器,已经在教这家公司的实验室机器人挑拣和移动各种物品了。你能想象这场比赛对谷歌的人有多重要。埃里克·施密特——主席和前CEO——在第一局之前乘飞机赶到现场。Jeff Dean,谷歌最著名的工程师,也来看第一局。谢尔盖·布林来看第三、四局,带着他自己的木棋盘。

比起工作这更是令人紧张的成败关头。在比赛时,我和哈萨比斯散步经过钟路区,这是有600年历史的首尔的文化政治中心。我们聊天时—个年轻女人睁大了眼睛认出了哈萨比斯,他的脸出现在整个韩国的电视和报纸上。女人见到他像见到了泰勒·斯威夫特或是贾斯汀·比伯一样激动得要昏倒。

“你看见了吗?”我说。

“是的,”哈萨比斯面无表情地回答,“总是这样。”

他没在开玩笑。计算机工程师通常没有粉丝,但韩国有800万人下围棋,李世石是民族英雄般的人物。在中国,有超过两亿八千万观众在看这场对弈的直播。

所以在李世石输掉第一局又输掉第二局时,粉丝们原本眩晕的兴奋感被削减并变得阴沉也很正常。当第二局结束时,一位名为周先生的中国记者在评论室拦住我,很乐意和对AlphaGo抱着技术突破的看法而非只是围棋杀手的人聊上几句。

但之后我问他怎样看李世石的败局。周先生指向自己的胸口说:“这令我感到悲哀。”

我也感到那种悲哀,从前独属于人类的东西现在不是了。这场围棋对弈揭示出的事实使我们意识到机器已经跨过了—个门槛,他们已经超越人类的能力范围。当然机器仍不能进行真正的对话,它们无法自己想出一个好的笑话,它们不能玩看手势猜字谜游戏,他们不能复制潜移默化的常识。但AlphaGo无可置疑的优越性向我们显示了机器现在可以模仿并且超越驱动着世界上最优秀的围棋棋手们的人类直觉。

李世石继续输掉了第三局,AlphaGo确保了五局三胜中的胜利地位。在之后的媒体发布会上,哈萨比斯坐在李世石旁边,李世石为使人类失望而道歉。“我应该展示一个更好的结果的。”他说。

在李世石讲话时,哈萨比斯产生—种突如其来的感觉。作为AlphaGo的创造者之一,他是自豪的,甚至得意的,机器达成了很多人认为它做不到的。但他也感到作为人类出自人性的不情愿,甚至开始希望李世石会赢得一局。

在第四局进入20分钟之后,李世石又一次深陷困境,他这回比较有侵略性,在棋子到处分散的棋盘上他选择集中火力在某一区域。但Alphago开始采用更加扩张性的风格,采用更整体的方法衡量整个棋盘。在第37步时,AlphaGo将黑子落在一块只有单独一枚白子的区域,离开了主要的形势范围。又一次,在第四局,机器采用这种令人有些想不通的方法操控了局面。

AlphaGo已经显然赢了比赛。李世石再怎么玩也注定输了,但他是在代表人性继续下棋。77步之后,他似乎迟疑了。右手托着下巴,他前后晃了晃,在椅子上转动又揉了揉颈椎。时间一点点儿过去。

继续左手握着脖子,他好像要行动了。李世石用右手前两只手指捏起一枚白色棋子,放在了棋盘非常中央的位置,直接落在两枚黑子之间。这是第78步,这是在两个宽阔拥挤的区域之间的“楔形移动”。这步有效地将AlphaGo的防御切断成两半。机器眨眼了,当然不是真的眨眼。但它的下一步很可怕。李世石看了黄世杰一眼,目光很犀利,好像黄世杰就是他的对手,而不是那无数个电路。

在AlphaGo的控制室,运行机器的人们停下手中的工作,盯着监控。在李世石绝妙的第78步之前,AlphaGo认为它的胜算在70%。8步之后,胜算大大减少。突然之间AlphaGo似乎由Deep Blue的继承者变成了卡斯帕罗夫的。难以置信人类能走出这一步——可能性是那熟悉的万分之一。

像人类一样,AlphaGo也会措手不及。到比赛的第4小时45分钟,AlphaGo放弃了,像人类—样,输的也可能是它。

“到那一刻AlphaGo之前经历的所有思考都没用了,”哈萨比斯说。“它得重新开始。”

最后一局开始了,我本该和哈萨比斯及他的团队观战。但就在我去找他们前,一个Google的人在记者招待室找到我。“我们很抱歉,”她说,“团队改变了主意,他们不希望最后一局时有记者在场。”

她离开之后,我转向跟我一道前来拍摄的摄影师。“你知道这意味着什么?”我说,“AlphaGo大概要输了。”

没错,棋局开始时AlphaGo犯了—个新手错误。在棋盘下半部—个棋子多的区域,机器将它的白子落得离李世石的黑棋子太近,失去了整个地盘。AlphaGo的直觉使它失败了,像人一样,机器也有盲点。

但当这一局延长进入了第三个小时,AlphaGo挽回了自己的竞争。在三个半小时时,李世石的时间要用完了。在比赛规则下,他现在不得不在一分钟内走出每步棋,否则就会失掉机会,但在右上方有一块很大的空地还没有棋子。每一次他都等到最后一秒才走出下—步。

AlphaGo的时钟也快用尽了。两位对手开始以几乎不可能的速度博弈。棋盘摆满了棋子。在这几局中,第一次感到这棋局好像要玩到尽头了——在最后一次计分前,两边都不会放弃。但到了第五小时,李世石和

AlphaGo之间的差距变得太大了。李世石放弃了,AlphaGo岌岌可危但仍然占优势地位。

在全世界,只有另一个人能声称自己了解李世石的感受:樊麾,三次欧洲冠军,AlphaGo的教练。在10月份非公开的比赛中,他以0胜输给了机器5次,那是为在首尔更大的比赛进行的训练。之后,樊麾加入DeepMind作为雇佣棋手,一次次和机器对弈——一次次输。

但就当樊麾对AlphaGo的失败经验渐渐积累时,有趣的事情发生了,樊麾开始对围棋有了全新的理解。和其他人比赛时,他开始赢得更多——包括四次连赢顶尖棋手。他的排名迅速上升,是AlphaGo训练了他。

因此在比赛期间我问樊麾,我们应该如何看到李世石和机器的对弈?

“我们应该安慰并尊重李世石。”樊麾说。

这些日子中,世界上最大的最富有的科技公司在使用与创造AlphaGo同样的技术来寻求竞争优势。哪个应用能更好地识别出一张照片?哪个又能更好地回应声音指令?很快这些相同的系统就会帮助机器人和它们以更加接近人类的方式与真实世界互动。

但比起非人类的AlphaGo闪烁出的人性,这些实际用途都太平庸无奇。一种基于AlphaGo产生的亚文化开始前所未见地涌现,比方说,谷歌的照片应用。在德国杜塞尔多夫,一位游戏设计、媒体和通讯方面的教授现在运营一个向第37步棋致敬的推特账户。在读了我对首尔棋赛的报道后,来自佛罗里达的45岁的电脑程序员给我写邮件说她将AlphaGo的第37步棋文在了她右臂内侧,而她左臂的内侧,是李世石的第78步棋——受到上帝之手点拨的一步。

在第四局过后,李世石和哈萨比斯坐在—起,从前的游戏奇才告诉李世石说他理解这种压力。他理解他的创造力和什么驱动着他。“我也曾是一位棋手,”哈萨比斯说。“如果我走了另一条路……我知道达到那种程度需要怎样的付出和牺牲。”

李世石说和机器对弈重新燃起了他对围棋的热爱。就像对樊麾来说,AlphaGo开启了他围棋生涯新的局面和视野。“我已经有所长进了,”李世石说。“这给了我新的启示。”从那之后他没输过棋局。

在锦标赛之前,哈萨比斯告诉全世界AlphaGo的人工智能技术能掀起新一轮科学研究,机器为人类指点下一个重大突破。那时,没有事实证明,这些宣称有些空洞——典型的科技界大肆渲染式的噱头。但现在并非如此了,机器做出了近乎人性的举动,甚至迢越了人类。但在这个过程中,机器激发了人类更高的水准。是的,你可以把第37步看作机器超越创造他们的人类的征兆。或者认为这是—粒种子,“如果没有第37步,我们也不会有第78步。”