机器崛起：人机群体共生的新形态

2017-08-21 21:30王晓

文化纵横 2017年4期

王晓

AlphaGo与人工智能威胁论

去年3月，AlphaGo以4：1战胜李世乭，一度引发了世界范围内对于“人机大战”的狂热关注;今年1月，一个名为“MASTER”的神秘棋手60盘连胜狂扫各路棋坛高手，后被证实是AlphaGo的升级版;5月，AlphaGo以3：0战胜世界排名第一的天才棋手柯洁，“世界第一围棋高手”正式易主成为一台计算机。许多科学界与企业界的精英人士公开表示，这是AI发展的里程碑事件，纷纷寄期望于AI来解决目前企业甚至社会管理中的众多疑难问题。与此同时，包括埃隆·马斯克、斯蒂芬·霍金等人在内的许多科技界人士开始公开宣称担心AI崛起并威胁人类，与众多人工智能专家联名签署了一封禁止开发人工智能武器的公开信。

实际上，自从二战美国政府在参与研发原子弹的科学家们事先毫不知情的情况下，悍然在广岛和长崎投放了两颗原子弹之后，科学家们对于技术的发展可能会威胁世界安全甚至人类生存的反思从未停止。当时，由于机器过去的性能表现已经能够被用于调整机器的未来行为（维纳在其划时代的巨著《控制论》中将其称为“反馈”），已经出现了人们口中所说的“会学习”的机器，自动化也开始从军事领域向工商企业中渗透。自动炮火指挥仪与自动巡航导弹的出现，甚至引发了科学家们对于“按钮”战争[1]的思考：如果一台会学习的机器学会了编写让“自己按下‘按钮”的程序，它们是否会不惜一切——甚至是己方全军覆没的代价，来按下“按钮”以实现预定义的“胜利”目标？如果是这样，胜利还有意义吗？

AI的崛起会不会威胁人类？

“意义”也是区别人类与机器之不同的重要一点。在AlphaGo战胜柯洁之后，圈内便开始流行这样一句话：“柯洁输了会流泪，但AlphaGo赢了却不会笑。”对于机器来说，它们只是完成了预定义的一个目标，而实现这一目标的意义却无从判断。这也是马斯克等人担心AI技术会产生的威胁的原因之一，技术本身无所谓对错，但使用技术的人却有好坏之分。

人工智能与智能机器的前尘往事：遗失的控制论历史

人工智能这一术语，往往被认为是在1956年达特茅斯学院的一次会议上提出来的，当时约翰·麦卡锡对人工智能的定义是：“制造智能机器的科学与工程。”（the science and engineering of making intelligent machines）由此就不得不提及另外一个概念“智能机器”。在维纳于1948年出版了他划时代的巨著《控制论》之后，关于机器是否能够获得生命以及机器能否获得智能的问题，即引发了大量、热烈的讨论与思考。假设机器能够获得智能，那么接下来的问题便是：机器的智能是否有可能超越人类的智能？当时，战争的阴霾仍然笼罩在幸存下来的人们身上。这也引发了20世纪60年代科学家们关于智能机器是否会威胁人类生存的讨论。

持否定态度的人们认为，机器不能拥有任何程度的创造力，除非有事先输入，否则它无法产生任何输出。当然，维纳严厉地批评了拥有这类思想的人们，并指出：“机器能够并肯定会超越它们的设计者的某些局限性，并且当机器实现时，它们可能既是高效的又是危险的。”[2]使用奴隶和奴隶主来比喻机器和人的关系，维纳说到，我们不可能既要求一个奴隶非常聪明，又要求他完全服从他的主人。因此，维纳的观点是认同机器智能会超越人类智能并有可能威胁人类安全的。

在提出上文观点的同时，维纳同时指出：“原则上，我们并不能制造出我们永远都不了解其行为因素的机器。”[3]60年后的今天，深度学习成为了当下最火的一种人工智能技术，它证明，即便我们不能够解释技术背后的机理，也能得出我们想要的结果。一方面，这一事实极大地鼓舞了许多希望借助该技术解决某些难点问题的人们;另一方面，无论是投资理财、医疗救护还是军事行动，人类都不希望仅仅依靠一个“黑匣子”来做出决策。

实际上，维纳的《控制论》包含三个核心的思想：控制、反馈与人机交互。控制是指系统能够与环境交互进而塑造环境的能力;反馈描述了一种“使用机器过去的性能表现调整未来行为的一种属性”;[4]人机交互，使得人与机器共同组成了一个整体，一个“伺服系统”。在当时大众看来，控制和反馈，也许有些抽象、理论化和难以理解，但是第三个思想，“人机交互”，却激发了丰富的想象：机器能否活过来？机器能否获得智能？既然机器能够扩展人的体能，那它是否也会扩展人类的智能？既然能用人的思想来理解机器（拟人化的机器），那能不能用机器的思想来理解人呢（机械化的人体）？这些所有的问题，衍生了包括人工智能、机器人、機械大脑、VR等等在内的整个控制论学科群。当学术界在对控制论的研究范畴、应用范畴等问题进行讨论时，美国政府和企业界已经极大地推动了控制论在军事和工业生产中的应用。前者催生了大陆级别的高空放射炮塔SAGE，后者引发了“自动化工厂不招人”的严峻就业问题。

第二次世界大战带来了一个明显的启示：拥有领先生产能力的国家将会首先获得战争的胜利。但是这对于美苏冷战期间对太空和深海等极端环境的探索却毫无用处。因此，新的思考出现了，“可否借助自动化改变人类的身体，使其更好的探索极端环境，拓展国家疆土？”[5]由此，控制论的新产物出现了——赛博格。随后十多年间，美国空军、海军和陆军相继展开赛博格的相关研究，却并没有取得可实际应用的进展。如果不能改造人类身体，那么可否在地面建立虚拟极端环境，“训练”身体以逐渐适应环境？在这一想法的引导下，美国军方的第一款VR设备VCASS（全称为Visually Coupled Airborne Systems Simulator，视觉耦合机载系统模拟器）面世了。硬件设备的发展开始推动人们探索机器内部的世界——赛博空间。随着计算机技术的发展，许多人开始敏锐地意识到，尽管单个机器的内部空间扩展了个人的思想和意识，但人与人、人与机器、机器与机器之间的通信才是催生更大的智能的动力所在。在线社区、搜索引擎、互联网、物联网等概念相继诞生。借助机器进行的人类通信也引发了对新问题的思考，如何保证个人隐私不被滥用，如何安全地进行在线交易，如何利用现实以及虚拟世界中的通信设备在战争之前就通过舆论战来控制民意，从而不动一兵一卒就能取得战争的胜利，等等，进一步促进了当下科学界对于大数据、社会计算、国务管理的研究。因此可以说，维纳的《控制论》是当今整个智能科技蓬勃发展的精神之源、力量之泉。

机器扩展人类

从广义的角度来说，许多机器都是人类体能的扩展。汽车、飞机、轮船、潜艇甚至宇宙飞船，拓展了人类腿脚的可到达范围;斧头、螺丝刀、电锯甚至笔，扩展了人类手的应用范围;传声筒、军队号角以及电话，扩展了人类语言的传播范围;台式机、笔记本以及各种智能设备，不仅开始扩展我们大脑计算的能力，这些设备所收集的无所不在的感知数据也成为了计算机处理的“原料”，进一步增强了机器的智能。一定程度上，我们所制造的工具，已经成为了我们身体器官的延展。

除了直接使用工具来扩展人类能力之外，60年代也出现了一些使用机械来直接扩展人类躯体的探讨。这是因为，美苏的军备竞赛促进了人类势力在外太空的扩张，但同时，人类的身躯却无法适应真空极端环境，因此有些军事科学家提出了改造人的身体以适应极端环境的想法。虽然这一想法并未完全实现，但10年之后，科学家们开始意识到，既然难以改造人类身体以适应极端环境，那么是否可以在地面建立模拟极端环境，让人类逐步适应呢？而这一想法则进一步推动了虚拟现实（Virtual-Reality， VR）的发展。

机械化扩展人类物理躯体的想法，在20世纪70年代达到了一个高潮。随着美国在越南战场节节失利，一方面，美国陆军开始新型机械“驮兽”的研发，以帮助美军在越南的森林、沼泽和稻田中应对新的意想不到的战术问题;另一方面，在越战中经受物理与精神伤害的士兵被送回国内后，亟须重新“锻造”，从而有能力开始新的生活。

尽管大多数的科学研究专注于机械化进步对于人类体能的扩展，但科幻小说已经开始设想机器快速进化并战胜人类的情景。库尔特·冯内古特发表于1952年的《自动钢琴》（Player Piano），描述了在机器人替代部分脑力劳动后，人类幡然醒悟进行起义，但最终失败的故事。1955年，弗兰克·莱利的《赛博和福尔摩斯大法官》（The Cyber and Justice Holmes）则探讨了未来的法院系统，智能高效的机器取代了人类法官。这甚至引起了获得诺贝尔文学奖的伯特兰·罗素的反思：人类的存在是否必要？（Are Human Beings Necessary？）在这样的历史背景下，自然而然地出现了一些新的反思：当机器接管之后，人类会灭亡吗？英国星际航行协会前主席、曾被授予卡林加奖的亚瑟·克拉克对于这个问题进行了深入的探讨，他指出，生物进化，已经让位于一个更为快速的过程，技术进化。“直白而残酷地说，机器将会接管一切”。[6]当然，关于机器与人类关系的讨论，一直充斥在整个机器发展的历程之中。

在日本动漫《攻壳机动队》中，机械化扩展人类物理躯体的想法成为了现实

机器对于人类能力的扩展，当然不仅仅限于人类的体能，同时可适用于人类的智能。特别是随着计算机存储和计算能力的提升，这一机器对于人类智能的扩展愈加明显。最早意识到这一问题的人是约瑟夫·卡尔·罗·利克莱德（J. C. R. Licklider），他曾经担任过早期半自动地面防空系统（SAGE）的咨询顾问。在这个大型系统中看到的机器与机器连接和交互所产生的自动且精准的控制后，他产生了通过计算机构建“思维中心网络”的想法。20世纪50年代末，利克莱德就已经看到，对于SAGE以及当时的许多自动化系统，很大程度上，都是人类在帮助机器，而不是真正的人机共生。他在1960年发表的一篇文章中指出了人机关系发展的新方向：“让人感到希望的是，不久之后，人类的大脑就能和计算的机器紧密地耦合在一起了。”[7]

20世纪60年代初，在写给“星际计算机网络的成员和分支机构”的一文中，利克莱德正式提出了构建一个由计算机连接而成的网络的设想，也就是他所说的由一个个“思维中心”组成的网络。但这一网络，几乎花了整整20年才成长为后来大家所熟知的“互联网”。

人类增强机器

从某些方面看来，机器要比人类优秀得多，因为机器人会比人类更快、更精确地完成任务，而且不会生病、不会罢工、不会酗酒，极大程度上它会成为定制化的优秀员工。但从生物进化的观点，我们是风雅的、有情怀、有直觉且具有创造力的;相比之下，机器是死板的、冷冰冰的、數学公式化的而且重复乏味。“我们”，一定程度上来说，是美学家;而机器，则是没有生命且程序化的，不管它们在存储和计算能力上高出人类多少倍。

最早的时候，机器被写在卡片上的指令驱动进行工作，那时，虽然很多人担心机器会造成“失业”的现象，但本质上人们对于什么是机器做的事情、什么是人类做的事情，都是很清楚的。近年来，随着人工智能等技术的发展，关于两者之间的功能分界线，变得越来越模糊不清了。许多关于机器能否获得智能的讨论，都提到了“图灵测试”的概念。这一术语最早出现于英国数学家、逻辑学家、现代计算机之父阿兰·图灵一篇名为《可计算的机器及其智能》（Computational Machinery and Intelligence）的文章，文章开篇即提出了这样一个问题：“机器能够思考吗？”由于难以对“思考”进行定义，图灵提出了“模仿游戏”的概念，并声称它在某种程度上与智能等价。自此之后，通过“模仿游戏”[8]便成为了衡量机器是否是智能的一个标准。

了解图灵测试的人们都知道，图灵实际上是把机器理解人类语言（文本）的能力，即人-机文本通信，作为了衡量机器智能的标准。近年来，随着机器逐渐有了听觉、视觉以及触觉，许多学者专家都开始争论，听懂人类的讲话、识别物体的能力或者操纵物理世界中事物的能力，也应该作为评价机器是否智能的一部分，这又分别促进了语音识别、图形图像学以及微触觉传感技术的发展。不知有多少人还记得，2016年2月23日波士顿动力公司（Boston Dynamics）在YouTube上发布的一段视频中，Atlas推开玻璃门扬长而去的背影，是多么的逆天。

近20年来，机器不断向人发起挑战的另外一个领域，是下棋。从最开始的跳棋，[9]到后来的象棋和最近的围棋，赚足了世人的眼球。本质上，这三种棋类游戏，都是完全信息、确定性并且零和博弈的。这就导致，只要机器有足够的存储能力和计算能力，终究有一天，总会战胜人类。相比较之下，人类的世界要复杂得多，尤其是商业和社会行为，充满了多样、复杂且不确定性，即便是拥有宇宙最强武器“银河水滴”而且使用脑电波进行交流的三体文明来到地球，也无法在短时间内遏制或毁灭人类，更不要说目前水平的人工智能了。[10]

AlphaGo在与樊辉、李世乭、柯洁等人进行对战之前，已经得到了数量众多的计算机工程师、围棋高手、软件测试员经年累月的帮助、练习和“指导”，一定程度上可以说，不是一台机器战胜了一个世界顶级围棋选手，而是一台机器背后的许许多多的男人和女人一起，战胜了一个拥有血肉之躯的凡人。在这种场景下，还是机器扩展了人类吗？不是的，是人类增强了机器。

最近，这一趋势随着目前社交媒体与社会网络的兴起变得愈加明显了。目前公认的人工智能发展的一大瓶颈，是常识问题。很多情况下，这是由人类语言本身所具有的歧义性所导致的。因此，理解人们说话时的上下文语境就成为了衡量机器智能的标准之一。理解上下文语境又包括两个步骤：一是语音识别，二是语义理解。机器在第一步上已经做得非常好了，这一领域国内最具代表性的应用是“讯飞听见”;然而，机器在第二步却依然尚未取得明显的进步。目前的许多个人的人工助理，Siri、Contana或者小冰，只能识别简单的句子或“命令”。但是，随着越来越多的人机交互接口提供语音输入与输出的功能，机器在与人类进行交互的同时，也在学习人类的语言。大规模人类语音输入的出现，开始为机器的语义理解提供大量新的、真实的甚至实时的训练素材。

本质上，许多时候机器难以理解常识问题的关键在于，它并不能完全理解我们所生活的世界。就像陪伴了“80后”整个儿童年代的一首歌中唱的：

打雷要下雨，雷欧，（什么？）下雨要打伞，雷欧，（这我也知道！）天冷穿棉袄，雷欧，雷诶欧，天热扇扇子。智慧就是，（说啊！）这么简单。

歌中描述的都是对于人类很常见的情景，也是人类在面临这些状况时自然而然就知道怎么做的情景。但是，如果机器并不怕下雨，也不怕冷，更不怕热，那么它如何在面临这种环境时表现出人类所谓的“智能”？

另一方面，无所不在的社会网络与便携式智能设备相遇后，也碰撞出了新的火花——人肉搜索、“众包”以及多种通过超大规模人类在碎片化时间内的劳动，开始创造出巨大的社会和经济效益。人类开始主动地将知识贡献出来，帮助人工智能技术以及智慧机器，获取常识、演化成长。反过来，成长并连通的机器，也在为人类提供更加智能的服务，如基于位置、喜好、个人经历的个性化推荐服务等，开始组建成为大型的社会机器。正如Tim Berners-Lee与Mark Fischetti于1999年出版的一本书中所言：“借助计算机，我们能够在网络上创造出抽象的社会机器：由人类进行创造性工作而机器完成管理任务的过程……”[11]

社会机器的降临

网络时代最为著名的定律有两个，一是描述硬件设备演化发展的摩尔定律;二是描述软件网络演化发展的梅特卡夫定律。前者揭示了互联网时代信息技术进步的速度;后者阐明了互联网时代社会与经济价值发展的速度。梅特卡夫定律能够明确告诉我们的一点就是，网络上的个体数量越多，网络的价值也就越大。显然，“众包”就是这样一个例子，一个网络中的每个人所做的是非常小的一部分工作，共同努力就能创造出巨大的内容输出。这类情况最著名的一个例子是Wikipedia，目前已有超过200种语言版本，仅它的英文版网站就有超过500万篇文章，总文章数超过3800万篇，通过网站部署的350多种网络Bots来进行异常发现、维护和管理。

除此之外，还有另外一种利用人类共同合作来获益的方法。《科学》杂志信息科学领域唯一的编委James Hendler将其称为“人类计算”。[12]借助人类的输入，保障机器（及其内在的人工智能算法与技术）能够获得优良的“输入原料”，进而使得机器产生更好的“输出”，从而帮助人类完成某些任务。值得一提的是，中国科学院自动化研究所的王飞跃研究员在2001年时已经观察到了这一现象，并将其命名为“人肉搜索”（Human Flesh Search）。也是计算机科学中为数不多的由我国学者提出的原创性概念。今天，这种模式已经被广泛用于大型自然灾害发生之后的寻人和救援等工作中。显然，以无所不在的网络，以社会计算[13]和动态网群组织（CMOs）[14]为基础，融合人类与机器优势协同执行任务的社会机器已然初现形态。

另外一种常见的社会机器的形态，被称为“目的性游戏”（Games with a purpose， GWAP）。最早的一款游戏，被称作ESP，这一游戏的思想是对图片“打标签”，但并不是像某些主流的图像分享网站如Flicker或Instagram那样的做法，让人们上传自己的照片。很多情况下，人们在自己的社交媒体平台上上传照片并打上“我的男朋友”或“最好的姐妹”等标签，其实对于除了拥有者之外的人来讲，并没有任何用处。这也是机器所缺乏的常识的一种。而ESP，通过设计一种竞技游戏的机制来让人们主动对图像打上“有用的”标签，并进行排行。这样就利用人类的工作将几百万张图片进行了高质量的標注，而智能机器或人工智能算法也能利用这些高质量的标注进行进一步的训练和学习。

近年来，这样的设计也被用于城市道路状况监督、环境监测以及举报不法行为等，这些设计，显然只用到了很少的AI技术，但却正在为更强大的AI技术提供输入。AI，已经开始依赖于人们使用社会机器时产生的大量时间和空间数据，创造出更多、更大的突破。

AI = 智能的自动化

美国AAAI协会的前主席Nils Nilsson曾与John McCarthy对AI做出了这样一种解释：AI = Automation of Intelligence

该见解不仅与维纳的控制论思想一脉相承，也解释了从工程角度，人工智能的实质就是知识自动化。

去年，一部名为《西部世界》的美剧，席卷全球，为当下正热的人工智能又浇了一锅热油，也引发了全世界范围内对于未来的人机关系的探讨。剧中，所有的机器人接待员最终获得生命及智能，根据内置的机制与设定的“目标”，能够在面临不同境地时做出符合目标的决策。当然，《西部世界》目前只是文学上对机器智能的梦想，但生命和智能的确一直是人类最美好、最重要的两类追求。让机器获得智能，一定程度上就是让机器根据输入的知识，借助智能算法，如当下流行的长短期记忆网络（LSTM）、深度神经网络（DNN）、卷积神经网络（CNN）、深度信念网络（DBN）等，来解决知识型工作中遇到的问题。归根结底，是让机器围绕特定的目标/任务，结合数据处理、知识提取、算法分析、模型构建等形成决策制定流程，实现知识自动化。

经过约 200 年的发展，人类社会基本完成了工业化建设，并从工业时代迅速向知识时代转移，智能产业随之崛起。就像工业时代必须依靠工业自动化一样，知识自动化将是发展知识时代智能产业的基础与关键。近年来，随着网络化的虚拟空间成为与现实化的物理空间平行的一个实实在在的新空间，数据成为这一空间中最为重要的“矿藏”资源。未来产业一定是围绕数据的处理、知识的加工、智能的自动化建设而成，就像围绕地下矿藏的挖掘、加工和制造形成的大型现代企业一样。在新的产业中，成百上千的算法被集成到一起，形成“数据清洗厂”、“信息加工厂”、“知识生成厂”，甚至“决策制定厂”，使得它们面对具体问题时具有深度知识的敏捷性，针对具体问题时具有深度分析的聚焦能力，同时具有自适应精准实时地向目标收敛的能力，实现智能的自动化。[15]

然而，无论人类还是机器，都无法单独实现这点。机器，需要借助人类对于环境、对于其他个体、对于世界所拥有的常识知识;而人类，则需要机器更大的存储和更快的计算能力，进行决策。就像是深蓝战胜卡斯帕罗夫之后，人与计算机在国际象棋游戏中产生的合作。1997年，计算机登上世界象棋冠军的宝座，导致卡斯帕罗夫开始探索由个体人类与个体计算机组成的“半人马”[16]国际象棋比赛模式。“半人马”展示了一种人类能够基于自己的象棋知识进行决策，并借助计算机进行计算的混合力量，十多年来，它的表现逐渐超越了世界上最优秀的人类个体玩家与计算机个体玩家。然而，到了2012年左右，随着计算机在存储和计算能力上得到了极大的提升，“半人马”开始输给越来越强大的专门下象棋的计算机了。就在最近，出现了更高形式的“自由體”[17]国际象棋玩家，2016年时，它已经能够打败世界上最好的象棋机器了。看起来，机器（包括硬件的和软件的）和人类协同合作组成的团队，创造了任何单独一方都无法打败的极其强大的“社会机器”。

（作者单位：中国科学院自动化研究所）