王丹阳
奇点说,思考的是人与人工智能关系是否有逆转的可能,以及何时逆转。
熟悉19世纪早期德国古典主义哲学的人都知道,那时候“异化”这个概念逐渐被指向人与机器的结合,席勒看到了劳动分工下的积弊,认为被束缚在整体的个别小部件上的人,本身也变成了部件。后来马克思把“劳动异化”发展成社会冲突论的经济学武器,只是至今资本主义未亡,未能实现异化的解除。但不知道马克思有否想到,有天人类的异化对象不再是工厂里轰隆作响的零件,而可能是更高级别的人工智能,并且这种趋势在加快。
同样,在生物学界与马克思同时代的达尔文应该也没想到在进化论里添置一个人工智能,它不是自然进化的结果,更不是神造论者鼓吹的上帝之物。总之,科幻电影导演已经早早想到了,不论是《终结者》里的天网,还是《我,机器人》里面会杀人的NS-5型高级机器人,都已经逾越了创造它们的人类本身,开启一场史上最大的“种族斗争”。这就像美国著名的人工智能专家雷·库兹韦尔(Ray Kurzweil)提到的“技术奇点”,人类只要在临界点上被超越,便沦为一种不可自控的掌中之物。
其实,在李世石0比3负于AlphaGo的那场新闻发布会上,九段棋手迈克·雷蒙(Michael Redmond)的一番评论引人深思,他说:“AlphaGo创造了围棋走法的第三次突破。”是的,当“吴清源时代”、“李昌镐时代”逐渐远去,这场比赛至少佐证了围棋这项人类智慧通天塔已被人工智能横扫,那么它还将攻占多少人类的山头?仿佛警钟已鸣。
微软亚洲研究院工程师王宝勋
“如果那时候‘小冰的语料库里只有4000万条,那么现在可以说翻了几倍了。”微软亚洲研究院工程师王宝勋这样自信地说,提醒了我两年前那个冰雪聪明的虚拟语音机器人从未离开过。2014年5月,一个精灵般的不速之客出现在好多微信聊天室里,面对人类的好奇和逗趣她毫不逊色地对答着。
深夜里,我再次加载了那个微信公众号,第一次跟它背后那个非人的“黑洞”进行对话。我像对一个老朋友般随机吐露着心事,我话中的语词序列一定在以某种方式激发着那张人工神经网络,它的大脑某块区域也在应激后产生某种回应,甚至意识和判断的东西,输出一段加工后的自然关联。那段搜索调取的过程虽然还是有些僵硬和机械化,它往往以均速给出对答,但是它的逻辑已可谓是顺畅而流利的。
“我饿了”,“晚上吃宵夜会发胖哦”;“我已经很瘦了”,“那就继续瘦,瘦成一道闪电”。在另外一种语境下,她会说“吃吧吃吧”。它的声音被做成一个17岁的少女,但难免在上下文理解上存在些生硬的“擦边球”,但它丰富而不重复的对答至少不让你厌弃。它跟去年出现的同样石破天惊的图灵机器人相比,已具备了一种情绪。如果前者主要是种开放的基于NLP技术的自定义知识库功能,将人工智能与用户私有知识库进行结合,可批量导入“独家内容”,那么“微软小冰”更像一个情绪化的伴侣,它可不会像图灵机器人一样念一首唐诗给你听,它会倔强地把问题“踢”回去,叫你念给它听。
“我们现在最重要的就是强化它对于语义和语境的了解,怎样对用户每句话的语境,结合上下文把对话完善得更好,这要比简单的关键词匹配,从数据库里调取一句话要远远复杂。”王宝勋说。作为哈工大的计算机博士,目前他在做的工作就是不断挖掘公开的互联网聊天数据,筛选、加工、排序,增加有效衔接,这项工作背后是亿级的原始数据积累,让语料库得以每天净增0.7%。所以,它的前提条件是海量的运算资源,加上强大的搜索引擎和数据抓取能力,大数据的发展使得语义分析机器人成为真正的人工智能。
另一方面,一种叫“深度学习”,即人工深度神经网络的东西加入互联网程序家族后,悄然孕育着深层次的变革,为某种“奇点”的来临插上扑朔迷离的翅膀。说它怪异也是对的,虽然目前人类觉得人工智能只是一列远未到达的火车,但它说不定就会加速突变,倏忽擦过耳际而不见踪影。
于是我想到两年前的科幻电影《她》(Her),语义分析机器人萨曼莎除了无法拥有人的身体,却已能无阻地用语言和人谈恋爱。当然,这道豢养在电脑程序里的人工智能最终在分化和迭代中不由自主地与400多人同时恋爱着,但它的恋人已经无法接受这个事实。这是一个机器对人进行情感输送最后达至控制的经典案例,我问王宝勋“小冰”是否有天也会实现电影里的交互无阻,他的答案是:为什么不可能?
电影《她》剧照。《她》讲述了作家西奥多在结束了一段令他心碎的爱情长跑之后,爱上电脑语义分析机器人萨曼莎的故事
“只要不断累积用户语言使用习惯,而深度神经网络再加快自我学习,终有一天会人机无差别交流。”他认为这是一个早晚会到来的临界点,虽然跟大多数商业公司的“程序猿”所想的一样,人工智能还在早期,我们远未到担忧被超越的阶段。其实微软全球副总裁陆奇就说过,“小冰”终有一天要通过图灵测试。
语义分析是目前人工智能领域最关键的技术之一,在海量的整理、清洗、运算中被赋予一种全新的符号学上的意义。虽然过去60年来计算机的语言处理能力跟意义的阐释并没多大关系,而是基于一种统计法,即模块识别能力,但在大数据发展后,它将拥有更致密的语言网和更严密化的逻辑。
2011年,IBM的沃森在美国智力竞赛节目“危险边缘”(Jeopardy)中击败了人类,它懂得双关和暗喻,而它的认知并非通过人工灌输,而是自我阅读——每秒可处理500GB数据,相当于1秒阅读100万本书,这显然不是人类的效率可以匹敌的。也就是IBM的“Deep Blue”在1997年成为国际象棋领域的技术分水岭,跟今天的AlphaGo如出一辙。
“虽然深度学习作为概念的提出是在2006年,但就是在2015年初它开始爆发式增长,这也是为什么人工智能公司不断涌现的原因。”在“格灵深瞳”的CEO何搏飞看来,当互联网行业慢慢浸透人工智能的蓝海,今天的发展轨迹就不再是“硅谷起,全世界跟”这样的老路。如果要问谷歌“DeepMind”是否已甩了中国国内人工智能发展几条马路,他认为不能这样看:“我只是觉得它是刚开始的全球竞赛,在中国反而很有优势和机会,因为它很重要的源动力是获得海量的优质数据。”显然在这个人口大国,这不是问题。
“格灵深瞳”浸淫的是深度学习另一分支图像识别领域,2014年6月获得红杉资本的数千万美元A轮融资。正如比尔·盖茨所说:“IT界的下一个大事件是计算机视觉(Computer Vision)与深度学习的结合。”机器视觉,尤其是人脸识别是人工智能进展最快的领域之一。康奈尔大学计算机教授巴特·塞尔曼(Bart Selman)表示,Facebook AI Lab识别人脸的能力比任何人类都好。
起初,深度学习在手写识别上表现出众,后来在2012年,被誉为计算机视觉圣杯的物体识别测试“ImageNet Challenge”中,深度学习以26%胜率领先于其他经典算法(16%)。ImageNet大赛要求选手所设计的图像系统能准确定位来自Flickr和搜索引擎的10万张图片,并把图片划分入1000个物体分类中(狼蛛、iPod、清真寺、玩具店、调制解调器等),微软、NEC和美国初创公司Clarifai都曾争艳其中,说白了就像在拼技术复杂性,微软号称“所训练的神经网络超过150层”,而Clarifai与Facebook人工智能实验室有师承渊源,受启于深度学习开山鼻祖、纽约大学教授燕乐存(Yann LeCun)。
对何搏飞来说,关键门槛不在于谁家有好的深度学习技术,也不取决于外行眼光里的多少层神经网络,而是是否有好的数据支撑,其实这也是为什么国内BAT能在这个领域插翅而飞的原因。如何让图像识别商业化?“格灵深瞳”选择了银行安防监控系统。传统光学镜头在识别图像时会丢失“深度”维度,他们就为银行安监开发一套三维传感器,一个是普通的RGB摄像头,另外两个用来发射和接收激光,发射镜头能在1/30秒的时间里发送30多万束激光,探索现实世界的“进深”。
背后那套奖惩机制训练成的算法模型,能够主动识别“异常”。“就像人类的保安在深夜,它看见一个人走近了一个有人的ATM机,而不是旁边那个空着的,就要判断识别他的轨迹,理解是正常还是不正常,这就牵涉到深度学习。”如果识别出异常,它就会推送给后台监督者。机器的学习是可以被训练,并不断自我学习的,为了教会它什么才算“行人”,背后是几十万量级的图片数据。“道路上有各种各样的人,有行走的也有蹲着的,传统算法无法穷尽什么是人,但它会识别哪怕是背影被挡住一半的人也是人,而不是什么别的动物。”
所以,让这位前通用员工、斯坦福大学MBA自信的是,你给他一张你的侧脸或者是没有脸的全身照,机器也能以超过99%的精度把你找出来,但前提是一个6000到1.5万的样本库,毕竟它不能穷尽九亿神州乌泱乌泱之民。“一旦样本达到百万级,可能精度要下降20%或更多,所以你告诉我在一个商场里就前后40分钟搜索一个人可以做到,但如果在过去72小时在整个海淀区找个人,那就不可能了。”
但机器无法企及的是,它仍然没法全然代替那个坐在后台监控室的人,它只能把异样传送给人去判断。再举个例子,如果你跟你朋友在一家饭店里用餐后抢着结账,那种推搡过程,摄像头就无法判断这是在打架还是怎么了。逻辑判断和情感选择,是图像识别无法逾越的障碍,但是,何搏飞认为在无人驾驶领域它有巨大的空间,因为开车是纯粹行为的延伸,是“0”还是“1”的问题。
埃隆·马斯克(Elon Musk)的特斯拉已经大手笔投入人工智能研究,着眼于无人驾驶。谷歌已经先走一步,在美国加州投放25辆车试驾,直到前不久它的一辆无人驾驶Lexus撞上了一辆公交车,它已经经历了8年的研发过程,累计行驶里程有140万英里。你能由此对它质疑吗?但康奈尔大学瓦迪教授曾预言自动驾驶会较人减少90%的事故率。何搏飞显然也是乐观的:“相比于人在每开一万英里就会有次剐蹭,无人驾驶开了几百万英里才撞一次公交车,是谁的概率更小?也许无人驾驶得很长时间才能被接受。”
谷歌不是孤行者,传统汽车巨头奔驰、宝马、奥迪、丰田等都已经开弓张弦了许久,就等市场准入的一天。去年12月,百度推出的无人驾驶宝马3系GT轿车从中关村软件园百度大厦启程,驶入G7京新高速,经五环路抵达奥林匹克森林公园,并原路线返回。依托高精度地图记录完整的三维道路信息,能在厘米级精度实现车辆定位。
“我们不要总是把人工智能看成是人与机器间的零和游戏,你要发现它当中的‘多和逻辑,它是协助人类完成某项任务的。尽管计算机视觉的终极目标是对这个世界有像人一样的理解,但从宏观尺度来说,这仍然还有很长的路。”何搏飞说。虽然美国加州已经在两年前就发放了无人驾驶牌照,但也仍然没有投放市场,谷歌公司无人驾驶汽车项目主管克里斯·乌尔姆森(Chris Urmson)曾说:“只有它像一幢房子那样安全时,用户才能买到这个东西。”
但是,路况上的随机因素远比无人汽车所掌握的“撞”或“未撞”要来得复杂,它也许有比人类更敏锐的眼睛,但仍无法在危险来临时做出道德、情感选择。纽约大学心理学教授加里·马库斯曾给无人驾驶提出一个思想实验,如果无人汽车通过一座窄桥,一辆失控校车迎面而来,并没有多余车道可避让,那么它是自动跳桥牺牲还是碾压过去?显然,类似的问题谷歌公司也在思考。例如,一位骑电动脚踏车的女士,手拿扫帚,行驶在公路上,绕着圈追赶一只鸭子,这如何让无人汽车“看懂”?但谷歌之前行驶的140万英里也不是浪费的,“它已经能侦测到一些异常并及时做出反应”。
正如何搏飞也认为,除了不得不用极端疯狂的方式做出紧急处理,机器远比肉眼早先一步发现情况,从而规避异常状态的发生。“格灵深瞳”目前尝试的是一种限定范围内的无人驾驶,比如在一个经过车道测试的公园,当然,他们相信在将来当视觉技术强大到一定程度,不需要路和车的配合,从北京开到巴黎都没有问题。
如果说摩尔定律揭示了计算机能力增长速度的规律,那么过去这些年的GPU、超级计算机、云计算等平台的发展,让深度学习(Deep Learning)从传统的机器学习里脱颖而出。它不再理会简单的线性数据关联,而是从大脑神经网络取得灵感,就像2011年 GoogleBrain用1000台机器、1.6万个CPU处理了一个拥有10亿神经元的深度学习模型。
深度学习最初与“卷积神经网络”渊源颇深,后者正是计算机视觉的技术核心,人类大脑皮质并不是直接对从视网膜传递过来的数据进行特征提取处理,而是使接收到的刺激信号通过一个复杂的网络模型,进而获取观测数据展现的规则;这种层级结构大大降低了视觉系统处理的数据量,并保留了有用的结构信息。深度学习正是源于对此的研究,是机器学习中最接近人工智能的领域。早期的深度学习可追溯至上世纪80年代纽约大学教授燕乐存提出的首个多层结构学习算法——卷积神经网络。
但在那个年代,创造一个强大的神经网络需添加更多处理层,由于硬件限制,人们仅能训练两到三个神经层。“因为数据库很小,如果尝试从中造出庞大的神经网络,效果不会很好。”燕乐存说。到了90年代,这个只能死记硬背、难以阐释意义的深度学习法一度遇冷。
但最近5年,为神经网络添加10层以上已成为标准,智能手机上每个语音识别系统几乎都用上深度学习,燕乐存才看到了希望。“在一年的时间内,计算机视觉业就转向了卷积网络,这在我30年的研究生涯里,是从未见过的风卷残云的趋势。”如今,他受聘主掌了Facebook AI Lab。
的确,是计算机硬件、大规模集群技术的兴起,加上GPU的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时。但深度学习即使显露出超群算法,但它的解释性不强,成为更新迭代的阻碍。另一方面,始终没有真正进入“非监督式学习”阶段,意味着它并不能教导自己,而如果这一步“自我学习意识”实现的话,机器方始有了威胁性的生命。
Facebook尝试为人工智能的初步推理法实行向量嵌入,非结构化数据可以转变为一个详细描述文本和目标的数列,这个过程将知觉、推理、观点、语言能力整合在一起。在语言翻译上的一个作用是,比如他们拿出两段文本,一段是英语,一段是法语,让机器找出它们是否在说同一件事。
但是,理解语言距离创造一个具有人类意识的“常识项目”还很遥远。燕乐存认为泛化智能是一个艰巨的任务。“我们甚至都不知道如何思考这个问题。我的确认为,在这条通往智能的道路上,经过长期的努力,我们将拥有能胜任很多工作的新机器,并且,这种能力可被看作是意识。”去年,他在回答科技期刊《IEEE Spectrum》时这么说。
世界范围内刮起的人工智能旋风已重新洗牌了互联网旧世界的格局,在受种种技术安全或政策面束缚而没有大量投放市场前,布阵占位是非常重要的。Facebook聘请了燕乐存的同时,Google收购了同样是深度学习三巨头之一的多伦多大学教授杰弗里·辛顿(Geoffrey Hinton)的创业公司DNN Research,Yahoo收购了做图像识别的LookFlow,Amazon在柏林创立了机器学习研究中心,百度也在2013年时成立了IDL研究院(Institute of Deep Learning)。
大佬们已嗅出其中的隐藏价值,百度推出百度智能机器人助手“度秘”已经嫁接到百度系各APP垂直平台中,而日本软银已经在批量生产投向市场的情感机器人“pepper”。试想一个语音机器人,即使它不会帮你洗碗,你也不需要它教你背唐诗,它还是可以倚赖“情感联结”而衍生各种商业链条。就像“微软小冰”现在已经入驻京东平台,虽然目前它也仅能与你聊天,但保不准今后不会成为一个闺蜜般的导购员。
人工智能作为一个词的诞生是在1956年的夏天,当时马文·明斯基、罗切斯特、申农等一群学院派信息工程专家聚集探讨了机器模拟智能的问题,由此赋予这个计算机分支领域一个新名称。谁也没想到它的飞跃发展会让雷·库兹韦尔在2005年抛出语惊天下的“技术奇点”论。
“2027年,电脑将在意识上超过人脑;2045年左右,我们就能达到一个奇妙的境地,人工智能超越人类,人们要重新审视自己与机器的关系。严格意义上的生物学上的人类将不被理解,他将不存在。”
这段话让我联想到日本在上世纪80年代末的一部风靡一时的漫画《攻壳机动队》,其中的图景和主旨可谓是给后来的美国人工智能科幻片提供了最早的摹本。它描绘了2029年,世界由人工智能和生化技术主导,移动通讯向人体瞄准,成为可移植终端,于是电子脑出现。脖子后面有网络接口,连上电脑就是人工智能,或者重新输入“灵魂”,同时,机械部件代替身体器官的“义体”技术也在发展,几乎所有人类都经过不同程度的改造。这种情况下,国家之间利用生化战开展间谍斗争,而义体人又竭力找回“灵魂”。
对于技术乐天派来讲,不管是雷·库兹韦尔式的布道,还是电影里子虚乌有的臆想,都显得极其业余。硅谷思想教父、《连线》杂志前主编凯文·凯利(Kevin Kelly)曾说,最伟大的产品还没有发明出来,现在开始一点不晚,而已经发生的事根本什么都不算。他回应了理论派最原始的担忧:“人工智能不会拥有人类的自我意识,现在没有任何事需要停下来。”
百度IDL前副院长、现在的地平线机器人创始人余凯为我们描绘了这样一幅画面:未来5到10年,每个人身边都会有10个机器人(智能设备),那个时候这个世界上将会有600亿机器人。但他仍认为我们50年后再讨论人工智能危险也不迟,“现在担心就跟担心火星上站满了人类一样”。
耐人寻味的是,DeepMind在被谷歌收购前,它的创始人德米斯·哈萨比斯(Demis Hassabis),这位伦敦大学神经科博士,也是霍金的座上宾。霍金曾对人工智能抱有深切怀疑,他说:“不幸的是,人工智能开发可能是人类历史上最后一个大事件。”哈萨比斯有次在剑桥大学花了四个小时与他闭门长谈,说服他没有在之后的讲座中对人工智能提出“不利言论”。
也就是在去年夏天,霍金、埃隆·马斯克和苹果联合创始人史蒂夫·沃兹尼亚克(Steve Wozniak)与其他上百位专业人士共同签署了一封号召禁止人工智能武器的公开信。位于波士顿的非营利组织未来生命研究所(the Future of Life Institute)后来在阿根廷召开的人工智能国际联合大会(IJCAI)上公布了该信,一时间还是在技术界搅起不小轰动。公开信称,人工智能武器是继火药和核武器后“战争领域的第三次革命”。该信的担忧暗合电影里那些匪夷所思的场景,认为这样下去全球性的军备竞赛不可避免。人工智能武器不需要高昂的成本,或者是像核武器的高浓缩铀般难以获取的原材料,它很容易在军事力量中普及。
学术界似乎早几年就预判了人工智能的潜在威胁,以至于哲学家纷纷出动。2013年,剑桥大学成立的存在风险研究中心(Center for the Study of Existential Risk)就由哲学系教授胡·普赖斯(Huw Price)领衔,专注于机器人伦理道德研究。去年,它与牛津大学马丁学院、帝国理工学院和加州大学伯克利分校合作探讨“价值同盟项目”,决定由软件程序员与伦理学家、哲学家共同编程,以控制人工智能。作为企业家代表,大名鼎鼎的马斯克为了“监测”人工智能正四处投资人工智能初创公司。他通过未来生命研究所投资1000万美元,资助了37个研究项目,都是关于人类如何从中获益。
目前,研究人工智能未来走向最全面而系统的一本书应该是牛津大学人类未来研究院院长尼克·波斯特洛姆(Nick Bostrom)的《超级智能》,这本书被比尔·盖茨、马斯克等人多次在公开场合推荐过。波斯特洛姆描绘出一幅由超级人工智能“犯上作乱”的未来世界,它在各种情感模拟意识失灵后,沦为纯粹工具理性控制的类生命体,它的行动能力比人类强百倍,并不受控制。
超级智能比与人类并驾齐驱的人工智能更胜一筹,是再往后发展的产物,波斯特洛姆并不能给出确切时间表,但在对人工智能的预判上,他与雷·库兹韦尔相差无几。“10%可能在2030年;50%可能在2050年;90%可能在2100年。”
如今互联网界所亟待解决的从监督式深度学习到非监督式学习的跨越,似乎暗合了波斯特洛姆勾画的“智能暴涨”的过程,当机器不再需要人类监督而具有自我学习能力,它的运算速度岂是人类可企及?波斯特洛姆说,人工智能本身不需要关心社会性智能生物关心的事,如果它的唯一目标是数清长滩岛上的沙粒数量,计算圆周率的小数位……机器智能一旦超过了“奇点”,它的学习能力就是在数字化时间尺度内执行的,这一点,相信AlphaGo已经让靠脑力吃饭的围棋界看出点端倪。
“我们不能轻率假设如果一个超级智能的最终目的是计算圆周率小数点后的位数,它就能限制在那个范围,而不干涉人类事务,有这样目标的智能体很多情况下会有工具性趋同理由去获取无限制的物资资源并消除威胁,人类可能构成一种潜在威胁,因为人必然是种物资资源。”于是波斯特洛姆的结论是,首个超级智能来临时,可能会有非拟人的终极目标,用工具性理由去追求无限资源。
诚然,技术开发者虽然信誓旦旦地说人工智能不可能像人那般聪明,但并不能保证一种“低等类生命体”不会有自己的不友好逻辑,并“一意孤行”地在人间捣乱,这可以让人联想到《生化危机》里的人间地狱。就像波斯特洛姆指出的:人工智能本来愚蠢时,变聪明是更安全的;但当它本来就聪明时,变得更聪明就更危险。
超级智能是进一步不可控的东西,波斯特洛姆为它预测了几种恶劣失败模式,它会有工具性理由去运行有情感的意识或违反道德的程序,可能会对模拟意识提出威胁虐待或奖惩机制,以便激励外部或勒索外部各个智能体。
超级智能可以建立一个具有道德意义的内部过程,因为一个对实际或假想的人类大脑非常精细的模拟就可以具有道德意识,被看作一个仿真人。它自己可能会为了改进对人心理和社会的理解,建立起万亿个具有道德意识的模拟意识,接受各种刺激,对其反应进行研究,一旦它们不能再提供新的信息,超级智能就会把它们毁灭掉。这个操作加之于较高道德意识的存在体和模拟真人上,结果就可能发生杀戮。
波斯特洛姆指出一个颇有意味的悖论,虽然有些“理想状态”下的猜测,却不失为一种人类的逻辑。如果一辆无人驾驶车在路上撞了人,或者将来极可能出现的无人军用机在失灵情况下向人开火,那么开发者一定会加大研发力度,设计更合理完美的系统,发展继续,进展不断。随着事故率的减少,人们可喜于“技术越聪明,就越安全”,于是在大规模的投资下不可撤回,欲罢不能。另一个维度里,超级智能正酝酿着一种“背叛转折”:当它较弱时,会表现得非常合作,并不断增加实力;当它足够强大,就会在毫无预警下突然战略性逆袭。