薛少华
(北京理工大学 人文与社会科学学院, 北京 100081)
什么是机器人?目前,学术界和产业界尚未出现一个严格且得到公认的定义。如果根据某些广义的概念(机器人是一种具有输入功能与输出功能的机器),手机或洗衣机都可以被称为机器人。但是,这种广义的概念所涵盖的范围过于宽泛,显然与普通民众平常所理解的机器人完全不相符。因此,本文首先将“机器人”这一术语定义为一台具有人形的机器,它在外部物理世界中,能与环境对象或其他行动主体进行实际的真实交互行动,并让其他认知主体感受到它似乎具有“感知觉”和“思维能力”,这就是本文所要讨论的主要对象。
目前,认知科学与人工智能领域的主要研究方向就是心智计算理论,即认为心智具有模块性,其功能可以通过计算来实现,其主要立场可参见福多(Fodor)[1]、玛尔(Marr)[2]和皮立辛(Pylyshyn)[3]等的研究。人类心智的运作方式,就是对心理表征等内在符号进行操作的心理推理,并将意义赋予外在对象。因此,心智是一个建构的过程。对知觉而言,其中的感觉信息被心理过程组合起来进行一些推理处理,然后构成心智对外在事物的知觉。在这种哲学范式下,心灵被当做一台计算机,而心理意向活动就是心理表征(mental representation)的操作与计算的过程,其中最典型的理论便是Fodor的心灵计算理论(Computation Theory of Mind, CTM)。
在这种理论大行其道的20世纪80年代,符号操作、计算式的建构主义方法在计算机和工程应用方面取得了相当大的成功。举例来说,我们常常使用的搜索引擎,实际上其背后就是机器学习的算法。它可以根据我们所输入的关键词,来进行文本匹配,或推断用户的搜索目标和意图。同时,该算法还支持自然语言处理、机器翻译等,这也是经典人工智能方法的成功之处。最近,大规模依赖机器学习技术的数据挖掘、图像识别和统计预测系统已经被开发出来,国际象棋、医疗影像诊断和围棋等领域的人工智能技术与产品,目前已经能够击败人类最顶尖的专家,这是一个相当大的成就。这类系统的发展,业已成为计算机科学的坚实组成部分。
根据上述经典人工智能主流观点,外部行为的执行需要内部表征提供引导和推理决策,这种表征是具有关联内容的符号结构。在心灵计算理论中,知觉机制成为提供外部世界和内部表征之间的一种联系。如果我们要制造具有所谓的“感知觉”并能自主行动的机器人,那就必须要在人形机器人身上搭载能够模拟人类某些认知能力的传感器以及行动控制设备。如果我们要机器人去自主地执行任务,就要将人工智能系统搭载入机器人的硬件系统中,并且提供给机器人各种可以与外部环境进行交互行动的程序算法,进而使整个机器人系统做出适当的动作和行为。
然而,由于经典的人工智能进路无法完美解释动物的真正智能行为,其理论描述与客观实际相差过大而受到激进涉身认知科学研究者们如策梅洛(Chemero)[4]等的质疑。这些研究者们认为,物理世界中的智能系统都是生物系统,而其工作机制并非完全能够用纯粹的计算和表征符号来理解。一个生物式的智能系统,必须从它的栖息居所、小生境(niche)和它的知觉与行动能力来理解。如果我们要使搭载人工智能系统的机器人在这个意义上更接近于自然界的生物,那就需要解决传感器与动物感知系统的匹配问题、机器人的决策系统如何类似动物的感知和运动的耦合能力等问题。目前,传统的心灵建构方法与经典人工智能研究进路都遇到了不可逾越的困难。那么,假设我们想要制造出完美的机器人,应该如何进行研究与设计?
尽管很多学者如塞尔(Searle)[5]等对于所谓完美机器人的讨论,都表达了较为悲观的看法;然而,完美机器人作为强人工智能进路的一个终极目标,如何将强大的认知决策能力与类似动物般的知觉行动能力结合在一起,是很多研究者的夙愿。那么,这个难题是否有解决的可能性?答案并不是完全否定的。在机器学习技术将机器人的算法决策能力进行极大增强之际,基于涉身认知进路的人工智能理论也将机器人的行动能力进行了相当的提高。按照这个发展趋势,我们制造出那种完美的类人形机器人的难题或许会得到解决。为了详细地描述这种路径,首先从图灵机的设想开始。
图灵(Turing)[6]所要解决的问题是,如何用机器来代替人类进行计算。图灵在论文中将人的计算过程分为两步:首先,用笔在纸上写出某个符号,或者用橡皮去擦除某个符号;其次,在这个符号旁边的空白处继续写出或擦除某个符号。举例来说,我们通常用笔在纸上计算加减乘除的时候,就会列竖式进行计算。在计算的时候,手指会握着笔,然后进行涂写或者计算错误的时候会擦除。根据这样的过程,图灵设想了一种头脑中的计算机器来模拟人类的计算过程,这就是图灵机的最初灵感。图灵机由存储纸带和控制器组成,其中控制器包括读写头、寄存器和控制规则表。图灵机也是现代计算机的本质,而目前所有机器人系统中的算法也是基于图灵可计算原则。对于“判定性问题”的解释,图灵试图以图灵机的形式来展现其构想,而丘奇则采用递归函数和λ函数来形式地描述有效的可计算性,而这三者是等价的,这类问题也被称为丘奇-图灵论题,该领域的研究也是数理逻辑中的一个重要问题。它表现为寻求一种能行的方法、一种机械的程序或者算法,从而能够对某类问题中的任何一个在有穷步骤内确定是否具有某一特定的性质。在基于图灵机的当代超级计算机中,几乎可以模拟物理世界中可计算的一切现象,从天气变化、核弹当量直至当前媒体口中热门的围棋和电子竞技游戏对战。
然而,图灵机本身是一种抽象机器,而机器人则需要在实际的物理环境中即时当下地与环境对象进行物理交互。那么问题在于,机器人与环境的智能交互行动是否是图灵可计算的?对于这个困惑,多奇(Deutsch)[7]提出了一个物理版本的“丘奇-图灵论题”,即把计算概念和系统看作是一定意义上的物理定律,因此数学意义上的丘奇-图灵论题,同时也意味着自然界中相对应存在着这样一个数学论题的物理版本,这就是CTD原则(Church-Turing-Deutsch principle)。多奇认为,每个有限的真实物理系统,都可以被一台通用计算机用有限的方式完美模拟出来,即这个物理世界中的每个对象都是图灵可计算的。假设这个物理版本的“丘奇-图灵论题”合理的话,那么世界中的客观实体就是那些抽象算法或数学概念的外在物理表现。沿着这个思路下去,既然我们人类的大脑和外在的行为模式也属于这个世界的一部分,那么或许有可能被图灵计算机完全模拟和实现出来。目前基于图灵机的计算概念,我们除了能创造出虚拟的程序机器人(bot)之外,还能创造出各类面向不同需求的工业、医疗与娱乐的实体机器人(robot)。
根据CTD原则,如果我们将来能够创造出完美的实体机器人,那这种机器人必然是丘奇-图灵式的物理完备,即该机器人的心智认知能力与知觉行动能力可以完美地模拟人类。然而如前所述,心智计算理论目前是认知科学和人工智能技术的主导理论框架,当前最先进的机器人也无法完美模拟人类的心智和行为能力。因此,丘奇-图灵机器人系统除了需要基于逻辑的程序算法,对人类认知与心智能力如判断、决策和计算等进行完美模拟之外,还需要对外在的物理实在(动物-环境系统)的活动进行算法解释。这是因为,人类和其他动物一般通过身体运动来使用、操作和创建这些环境信息。那么问题在于,这些信息应该如何通过算法解释?当前主流认知科学理论对于这些信息的解释,主要采用了基于表征的间接知觉论解释,这同时也遇到了如错视觉、私人知觉对象、快照视觉与立体视觉和知觉不能直接通达世界等问题的困扰。这是因为动物常常通过身体运动来使用、操纵和创建这些信息,而且这些信息也并非香农意义上的信息,而是更加接近于生态光学(ecological optics)中的具有意义的直接可感知信息。大脑是“大脑-身体-环境”认知系统的组成部分,有些行为更依赖于大脑,就像另外一些行为更依赖于身体或者环境的其他特征。事实上,这种对于知觉信息的解释和处理,给我们留下了一个可能性,即对于某些知觉信息的处理可能不需要大脑。那么,这些信息是什么?这些信息对于一个完美的实体机器人而言,又意味着什么?下面我们将对这些信息进行大致的讨论。
生态心理学家吉布森(Gibson)[8]自创了“affordance”这一术语概念,用来描述动物使用其生物能力与环境对象进行交互活动中所承载的信息。并且,吉布森还使用其独创的生态光学理论,对目前认知科学中的知觉理论领域做出了巨大的贡献。基于其生态心理学理论,吉布森对认知科学的贡献在于将外在的感知觉感官材料的刺激,描述为知觉所获得的能量和生态光线分布中所包含的行动可能性信息。知觉是直接的,而非间接的。事物的意义并非认知主体所赋予的,而是事物本身就具有的属性。
早期的认知科学,其实质目标就是要发展出一种全新的信息处理理论。吉布森认为,相比于认知科学研究“在认识过程中信息是如何传递的”这个问题,更重要的问题在于“哪些信息才是可获得的?”在他看来,“人类与其他动物是如何产生信息的?”这样的问题,其实可以被更好地考虑成“人类或其他动物在环境中使用他们本身的能力时,在环境中存在着哪些信息资源?”区别于人类与其他动物自己建立了供其可生活的和可理解的世界这样一种主流观点,吉布森认为,是人类和其他动物在他们的生存活动中适应了世界中信息的流变,并与我们所生活的这个世界上的其他系统中的生物产生交互,进而不断地生存繁衍下来的。[8]与此同时,我们也应清楚地认识到,正统的科学哲学家和认知科学家如福多和皮立辛(Fodor & Pylyshyn)[9]、乌曼(Ullman)[10]和维拉和西蒙(Vera & Simon)[11]等很难理解这种观点。究其原因,很大程度上在于,吉布森关于认知与行动的理论框架的特殊性,与这些主流认知科学的理论框架有着本质的不同。在这些正统的认知科学家的理论中,知觉是人与其他动物在与环境交互的过程中的一部分,他们通过知觉来对具体的环境特征进行编码,再反馈到人的认知系统中进行信息处理,并对认知过程中的不同阶段进行分离,最后进行认知的分析。比克哈德和瑞奇(Bickhard & Richie)认为,吉布森的知觉观,领先于这些正统的认知科学家的知觉观。[12]而生态心理学的核心观点,便是认知与行为的交互,是非常细微和复杂的生物行为,那种纯粹科学式的对知觉的分解分析必然不成功。简言之,就是布鲁克斯(Brooks)所说的“这个世界就是其本身最好的模型”[13]。
董明珠认为格力股东“太短视”,做事从不轻言放弃的她决定自掏腰包,并联合万达、京东、中集集团等“大佬”,以个人名义入股银隆。
根据吉布森的观点,affordance这一概念实际上解决的就是如何描述动物与环境的交互这样的复杂生物行为。在生态心理学理论中,知觉是直接的,并不是一种心理推理机制。知觉本身就是一种行动,动物凭借自身的生物能力,就可以从环境中“拾取”到周围实物所提供的有意义信息,这种信息就是affordance。国内有学者将其翻译为“功能可见性”“可供性”和“机缘”等,但都无法准确表达其含义,因此本文仍旧使用原词语写法。所谓affordance,就是某个具体的环境给予在此环境中生存的有机体所提供的东西,可粗略地分为两种,即消极的 affordance(对有机体的生存产生威胁)与积极的 affordance(有利于有机体生存)。吉布森有时用一种语言学式的建构来指涉affordance,即“可(具体动词)……的(verb-able)”。
举例来说:
一个物理平面,如悬崖边缘→[承担(affords)→“可坠落的(fall-off-able)”] affordance;
一个物理实体,如苹果→[承担(affords)→“可吃的(eat-able)”] affordance;
一个物理事件,如燃烧着的火焰→[承担(Affords)→“可煮饭的(cook-with-able)”] affordance。
由于affordance 可以清晰地描述和定义动物在环境中行动的可能性,该理论实际上就为实体机器人与物理环境的交互这一目前人工智能的热点问题,提供了一种全新的研究范式和思路。遵循这一理念,在认知科学与人工智能领域新近的一些研究热点,就体现在如何制造出与物理环境能够实现完美交互的实体机器人,它们被称之为affordance机器人或生态机器人(ecological robot),它们目前的进展具体可参见新近的一些研究:萨辛等人(ahin E.,etc)[14]关于机器人通过对自己身体比例的认知,来确定自身行动的affordance信息和明确具体的行动可能性,并随后进行避障和通过狭窄区域等测试,取得了非常好的结果;梅塔等人(Metta G.,etc)[15]对affordance信息对于机器人的认知发展进行了一定的研究,并强调了机器人的身体对于机器人内部认知的形成具有重要的作用;提卡诺夫等人(Tikhanoff V.,etc)[16]则在iCub机器人平台上,对于机器人通过affordance模式的视觉信息来使用和抓取工具等进行了研究,等等。这些研究都聚焦于机器人的外在物理能力与当下环境条件或工具使用,并以吉布森对认知能力的解释来进行研究,并将机器人可读取的信息构造为affordance的模式,使得机器人对于外界的行动能力都大为增强。无疑,这些研究明确显示了吉布森的affordance理论对于实体机器人作为行动主体与物理环境进行交互研究,作出了巨大贡献。
然而,上述这些实体机器人的进步,显然还不能满足我们未来对于实体机器人的需求。这是因为,人类不仅需要机器人能够胜任在产业工厂的重体力劳动,而且还需要机器人去胜任人类不愿意做的那些3D[即肮脏的(Dirty)、枯燥的(Dull)和危险的(Dangerous)]工作;更进一步的是,随着未来老龄化社会加剧,在医疗卫生、家庭护理和情感陪伴等方面,对于机器人的需求更是与日俱增。这些环境与场景都对机器人的交互行动提出了更高和更为苛刻的要求,因此机器人仅仅能够与外在环境的客体对象进行交互,还远远满足不了人类的需求,社交机器人也逐渐走向了舞台。
带有社交功能的机器人,目前几乎普及到了所有电子终端设备的使用者,如智能音箱“小爱同学”、苹果手机语音助手“Siri”和虚拟聊天程序“微软小冰”等。这些社交虚拟机器人可以帮助用户进行日常行程安排、问题咨询回答和网络浏览购物等。然而,这些虚拟程序人对机器人服务的需求来说,几乎是杯水车薪。在未来,人类希望能够让机器人做得更多。
那么,什么是社交环境中的affordance?由于不同物种之间的行动能力不同,因此不同物种之间是否能够产生社交型的affordance信息,也是社交机器人领域要解决的难题之一。比如人类基于文化产生的一些肢体动作和面部表情,人类之间可以互相理解,但在其他动物看来,那些行为是没有任何意义的。以日常行为中人与人之间的握手活动为例,在某个具体的社交环境中,甲和乙两个人互相面对面走近准备握手,在这个时候,何时伸出自己的手、伸出哪只手、手要抬起来多高、两只手接触的时机、两人即将握手时的眼神接触、两人各自的情绪表现、肢体动作的互相协调等诸如此类的行动交互,都需要两个行动主体之间互相获取对方的行动可能性信息,然后再对自己的行动进行适配和协调。如果我们能将这种完美社交的行动能力,内嵌入那些医疗护理和家庭陪伴的实体机器人系统中,那么我们未来的实体机器人将会更加类似于人类。
那么,affordance理论除了能为机器人与物理环境进行完美交互提供相关的研究理论基础之外,是否还能够为社交机器人领域的研究提供一些理论资源和研究进路呢?答案是肯定的。吉布森(1979)也极具预见性认为,affordance并非仅仅可以为自然环境行动主体提供行动的可能性,还可以为社会环境中主体之间的交互提供相应的理论解释;而且除了环境,其他的行动主体如动物和人类都能够构造出affordance环境,并提供给行动主体进行相应的交互活动机会。在经典的affordance概念学习中,机器人交互研究主要应用于物理环境;而在社交环境中,机器人交互对象则是行动主体——即人类或者其他机器人,因此这种affordance带有了一定的社交属性。因此,affordance概念对于主体交互的解释涵盖了物理与社交两个环境领域。
在当下,学术界和产业界已经在大力发展和研究这种带有社交属性的机器人,目前的研究进展可参见布鲁肯斯等人[17]对于看护老人的辅助护理型机器人的研究与综述、培西尼等人(Pennisi P.,etc)[18]对于护理机器人应用于对自闭症的治疗与陪伴的研究综述和如兰德(Ruhland K.,etc)[19]对社交机器人关于人机交互中行为的生成与用户知觉理解的相关研究等。在上述这些研究与综述中,使用affordance理论去刻画和模拟社交机器人与人类之间的交互行为的研究也比较突出,如受到美国国防部先进技术开发局资助的一项社交affordance机器人与人类之间手势的交互与理解研究就非常具有前沿性。
研究人员舒、罗伊和朱(Shu, Ryoo and Zhu)[20]让虚拟机器人程序根据视频观看人类的社交行为,并且通过弱监督机器学习的方法来使机器人学习和理解人类的社交affordance行为模式,继而将该社交affordance的获取与理解技术应用到实体机器人身上,使实体机器人在自然环境与社交环境并存的条件下,能够同时获取与物理对象的affordance信息和机器人使用者的社交affordance信息,再根据上述信息调整和适配自身的交互行动。在该研究中,虚拟的机器人需要通过视频采集五个社交活动的数据集,即握手、击掌、伸手拉坐在地上的同伴起身、抛掷篮球与用手相接、两人换手递东西等。通过视频学习与程序模拟,虚拟机器人较好地掌握了与人类行动主体之间的一些基本交互行为,而该研究也是学界第一次在人类-机器人交互这个领域中,将社交活动中的affordance信息进行模拟和表征,而未来后续的研究将会把这种社交affordance行为模式与算法编码进实体机器人中,力图使机器人的行为方式更加自然,更像人类。
生态心理学的信息处理研究进路,并非是心智计算理论的一种对抗或反驳,相反它可以作为心智计算理论的一种补充或合作者,共同为解释心智做出应有的贡献。丘奇-图灵意义上的完美实体机器人实际上目前并不存在,但研究者们正在朝这个方向逐渐发力。我们可以设想,如果一个机器人能够完美地拾取自然环境和社交环境中的所有affordance行动交互信息,并且能够按照这些信息做出适应性的行动,这种机器人再辅之以仿生皮肤和外型的话,那么距离未来所构想中的完美实体机器人就又更近了一步。
在现实中,机器人还不能获得像人类这样的身体外观和生理特征。但与此同时,却有一个新的困难凸显了出来,那就是恐怖谷现象。众所周知,人类可以跟与自身几乎没有任何相似之处的玩偶、雕像和玩具进行有效的交互活动。事实上,人形机器人在形体上越接近人类,人类与人形机器人之间的和谐就会越来越差;直到机器人的外表动作与人类完全一致的时候,这种和谐感又会上升。这个有些矛盾的结果被日本机器人学家森政弘称为“恐怖谷”。当机器人越来越像人类的时候,我们对它们的情绪好感会持续上升,直到它们与人类的相似度太过接近但却又显得非常怪异时,我们对机器人的好感与信任便会大幅下降——在曲线上的表现就是直接跌入谷底。但是随着机器人的拟人化达到百分之百的程度时,这种具有共情的好感又会开始突然上升。
近年来随着技术的发展,社交机器人的逼真程度越来越接近于人类,如机器人索菲亚、性爱机器人洛克西等,因此“恐怖谷”理论的实现越来越成为了可能,机器人与人类外观之间产生了更加直接的相关性,因此这一现象极大地引起了人们的关注,也相应产生了很多的讨论和评估。“恐怖谷”理论认为,当机器人与人类相似程度超过一定程度的时候,人类对他们的反应便会突然变得极其反感,即哪怕机器人与人类有一点点的差别都会显得非常显眼刺目,从而使整个机器人有非常僵硬恐怖的感觉。
同时,神经科学家似乎也找到了“恐怖谷”效应的大脑生物机制。研究人员塞根等人(Saygin A.P.,etc, 2012)[21]发现,大脑的颞叶脑区中存在一个行动知觉系统,当某个主体在观看不同的对象时,该系统会产生神经元放电激活,这意味着主体会对不同的对象的行为模式进行评估,以便使该主体产生相应的情绪、决策与判断。在这个生物机制基础上,研究人员让被试者去观看三种不同的场景:
(1)让被试观看具有一副机械躯体和零件的机器人,同时检测其颞叶脑区;
(2)让被试观看具有一副仿真皮肤和肢体的人型机器人,同时检测其颞叶脑区;
(3)让被试观看一个真人,并监测其颞叶脑区的神经元活跃情况。
最终,实验结果非常有趣:当被试在观看机械躯体的机器人和真人的时候,其颞叶脑区的行动知觉系统活跃程度相差无几;但当被试观看人形的仿生机器人时,其大脑活跃程度呈指数倍增。这项研究说明,当被试在观看机械机器人和真人时,由于其大脑可以非常轻松地对观察对象进行分类和确认,因此不需要调动那么多的神经元去处理这件事情;但是当被试面对人形的仿生机器人时,由于其具有人形外观,但其行动模式却是机器人那样躯体僵硬不自然,因此大脑需要调动更多的脑区和神经元,根据其运动模式和外表情况对这个对象进行判断和分类。这种现象的产生,或许是一种人类通过生物进化出的生理反应,其目的可能是为了促使人们远离重病或丧失行为能力的人类,以促进和提高健康人类的生存概率。而另一个看似合理的理论假设,则是当我们观察一个外观太过于人格化的机器人所产生的那种非自然的肢体运动时,会引发我们对自己死亡的恐惧,如僵尸等。
“恐怖谷”理论认为,人工智能机器人越像人类,人们就越会变得不安,直到我们完全厌恶排斥它。研究表明,当机器人拥有某种类似于人类的特质时,人与机器人之间会更有共鸣。那么,我们怎样才能设计出我们愿意与之互动的机器人,而不是被它们打扰呢? 按照吉布森的affordance理论,将人类的交互行为方式(包括自然环境与社交环境中的两种信息)在未来编码进入实体机器人系统中,让实体机器人的行动更加自然和仿生,或许在未来的某一天,人类会乐意接纳那些与自己行动模式相同,通过行动能够互相共情和理解的丘奇-图灵机器人。
本文从图灵机的本质开始,设想了一种所谓完美的机器人,即物理版本的丘奇-图灵机器人,并尝试性地提出一个如何实现该机器人的可能性路径:在人工智能的研究中,使用吉布森的affordance理论去刻画和形式化机器人在自然环境与社交环境中的行动模式,使其更加接近人类自身的交互习惯和行为动作。并且,还在社交行为上对社交机器人的行为模式进行了探讨,讨论了社交机器人的应用会引发的人类社会伦理风险,这无疑加剧了社会在未来的变革程度与速度。在科幻作家菲利普·迪克的名著《当仿生人梦见电子羊》中,作者为我们描述了一个赛博朋克式的社会,在其中仿生人、复制人、机器人和人类共存,并引发了一系列社会伦理、人类认同等深刻问题的讨论。尽管森政弘的“恐怖谷”理论认为当机器人与人类的相似程度达到一定的高度时,人类就会对机器人产生好感,不再惧怕;然而,笔者所担心的是,当我们某一天真的处于菲利普·迪克所描述的那个赛博社会中,如果仅仅通过自己的知觉系统区分不出机器人与人类时,那是不是比恐怖谷更恐怖?