那顺乌力吉
(内蒙古师范大学 法政学院, 内蒙古 呼和浩特 011517)
当前,对人工智能发展的程度,一些研究人工智能和计算机科学的专家或从事该领域工作的人员揭示,机器远未达到人们所称赞或期望的那种拥有感知、认知、思维推理和规划等智能的程度*参见张玉宏《从深度学习“技因”缺陷看数据主义的进化方向》,载于《全国人工智能哲学与跨学科思维论坛论文集》。文中指出当前基于深度学习的人工智能具有“蛮力、‘暴食’数据居多、对某个小任务存在人工和能量消耗巨大”等缺陷。文中还引计算机科学家吴恩达对以深度学习为代表的人工智能的评价“表现虽然很精彩,但其水准还很低”来说明。。据加州大学洛杉矶分校计算机科学家朱松纯介绍,由于人工智能这一领域范围非常广,如涉及机器学习、视觉识别、语言处理、机器人、博弈、认知和推理等多种领域,因而即使是在人工智能这一工程实践中多年进行研究的某个专家,因其多年从事于某一领域的某一细节问题的研究,也很难管中窥豹,对人工智能的整体发展程度有所把握。
在这种背景下,朱松纯在给中国科学院自动化所做的一次讲座中,概述了人工智能领域的全貌以及各领域为使人工智能变成严格科学所做出的努力。他的讲座使人们更清晰地看到了目前人工智能的研究现状、成果以及机器人的灵敏度。他指出,目前的机器人不仅远没有达到智能化而且实际上非常愚笨,其任何一个小的动作例如开门都需要人在后面控制*参阅文献[1],文中提到2015年,为了测试人工智能的技术现状,美国国防部高级研究署在洛杉矶郊区Pomana做了一个DARPA Robot Challenge,其中韩国科技大学队因救灾现场开门、进行救灾等突出表现拿下冠军,不过开门等小动作都是人进行控制的。。
朱松纯针对当前流行的大数据、深度学习以及人工智能发展中的瓶颈,提出了“小数据、大任务”范式。该范式基于如下哲学假设:“任务塑造了智能。”该假设与其他很多哲学假设类似,直观且富有义理。笔者并不关注对这一哲学命题的论证。在此,笔者拟说明在“小数据、大任务”范式基础上思考类比能否对人工智能工程技术提供一种思路。
当前,在人工智能领域盛行“大数据、小任务”研究范式。具有全局意识的计算机科学家朱松纯提出将“小数据、大任务”作为人工智能研究的认知架构。他从“乌鸦在马路上看到核桃,通过观察,在人行横道上绿灯亮后将核桃放下,然后在电线杆上等待车辆通过破开核桃壳,核桃核出来,又等到人行道上绿灯亮后飞来吃”的例子受启发来论述“小数据、大任务”范式。他认为“智能是一种现象,表现在个体和社会群体的行为过程中”。智能系统的根源可以归结为两个前提条件:一是“物理环境客观的现实与因果链条”。智能系统的一个条件是受物理因果链条束缚。物理是智能生命的边界条件。对于一个智能生命的生活而言,物理因果是生活的边界。因此他断言,任何智能生命必须理解物理因果链条,并适应它。二是“智能物种与生俱来的任务与价值链条”。 智能生命在进化当中为了生存和繁衍顺利地展开,存在与生俱来的任务需求。智能生命为了生存有寻找食物和保持安全的环境等任务需求;为了繁衍需要有交配和交往等任务需求。这些任务本身在具体场景中包含多个任务环节。此外,这些任务也产生了许许多多的派生任务以及更高级的任务。动物的行为是任务驱动的。任务可以由价值观和决策函数来表示。
朱松纯认为,有了物理环境的因果链条和智能生命的任务和价值链这两个条件,其他的东西都是可以推导出来的。想要构造一个智能系统,如机器人或游戏虚拟人,我们需要定义“身体的基本行动功能”,然后再定义“模型的空间”,这种“模型的空间”包括价值函数。朱松纯用乌鸦的行为来类比说,智能生命就基于这两个基本设置(行动功能和价值函数)和进化中形成的两个条件,与环境发生关系。“模型的空间通过价值函数、决策函数、感知、认知、任务、计划等来表达,一个脑模型就是世界观、人生观、价值观的一个数学表达。这个空间的复杂度决定了个体的智商和成就。”[1]对于是什么使得这个模型在空间中运转起来(也就是说学习如何展开)的问题,朱松纯将以上两个条件转化为两点:外来数据和内在任务。外来数据有两个来源:观察和实践。“观察所得到的数据用于学习多种多样的统计模型,统计模型是统计关联与相关性,实际上就是某种时间与空间的联合分布。实践所得到的数据用于因果模型。”[1]因果模型是刻画行为和结果的一种模型,也就是刻画行为和结果之间关联性的模型。内在任务是进化中形成的内在的价值函数所驱动的行为。朱松纯认为,由于任务不同,不同生物质能对环境中不同变量有不同的敏感度,这样就形成了不同的模型。人脑和机器脑都可以看成是数据与任务的共同塑造。
在这种框架下,当前流行的深度学习方法是“大数据、小任务”范式。“大数据、小任务”范式大体上是针对某个特定的任务设计一个价值函数,然后用大量的数据训练特定的模型。据维基解释,大数据的大对于传统的数据处理软件而言不只在于数量的极大性,也在于不可计算的复杂度,因而无法用传统的数据处理软件来处理。朱松纯指出,这种范式对某些特定的任务,如人脸识别或语音识别,非常受用;但这种范式的最大问题是不可能进行泛化和解释的。泛化指的是将这种特定模型用到其他任务。
基于这一点,朱松纯坚持多年来一直提倡的范式转换:从“大数据、小任务”范式转换到“大任务、小数据”范式。“大任务、小数据”范式也就是能够进行大量任务,在进行任务时候使用很少的数据(至多刚刚够完成任务*这个要求不是计算机科学家朱松纯所限定,而是笔者通过理解加以限定的。)的研究范式。他为此给出了如下理由,认为人的各种感知和行为是由任务驱动的,它可以(朱松纯说这是一种假设)由前面的基本设置来刻画,不过对于智能生命而言,这种设置是亿万年进化而来的。通过进化而来的智能生命积累了大量的任务,然而完成某任务时大多只是依据小量的数据。
朱松纯指出对于如何定义大量的任务、人到底对多少任务感兴趣,以及所感兴趣的任务是什么空间结构等问题,心理学和认知科学并没有给出清楚的答案和说明。他认为这对于人工智能的发展而言是巨大的挑战。不过,朱松纯有一个哲学直觉:是任务塑造了智能,而非数据。
在此,计算机科学家朱松纯通过描述人工智能发展给我们的一个启示是“大任务、小数据”范式。在这种范式下,笔者拟探讨类比对人工智能带来的可能的启示。
与朱松纯教授相似,笔者也有一种哲学直觉:
a.任务塑造了智能;
b.在日常生活和科学活动的大多数任务中类比发挥了至关重要的作用,其中发挥更大作用的是类比学习;
c.因此,人工智能会从智能的类比学习中受到启发。
上面的推论中隐含了这样一个推理,如果任务塑造了智能,在智能的活动(日常生活和科学活动中的任务)中类比发挥了至关重要的作用,那么很可能类比在智能的塑造中占了很大的甚至极大的比重。这里的问题是我们对类比在日常生活和科学活动的任务中的角色的认识依然模糊不清,而仅仅停留在直觉层面上。即便如此,类比学习的路径依然是值得探讨和尝试的。
与深度学习需要大量数据进行训练不同,智能生命的学习是通过小量数据类比地进行学习。就如城市里的乌鸦吃核桃一样,乌鸦只需知道安全区域(时间:红绿灯转换时;空间:人行道)和破壳工具(马路上的车)。乌鸦在完成寻觅食物的任务中只需考虑很少数据(初次试吃时来回车辆会让乌鸦逃窜,从而上电线杆上观察)就能知道这些并成功完成任务。人们在日常生活中完成某项任务的时候也是运用小量数据通过类比推理来完成的。笔者从人工智能上的类比和人工智能中的类比两方面阐述类比在人工智能工程实践所具有的关键角色,并论述“大任务,小数据”范式下类比对人工智能的一种可能路径。
人工智能上的类比意指在人工智能工程实践中试图要造出能进行类比推理的程序或机器,从而在机器上实现人类类比推理的这一实践或研究。这一工程实践通常是由认知科学对类比推理的研究所带动的。这种带动分为两个派别:结构主义和基于案例的推理。这两个派别各有各的人工智能程序。结构主义的程序有基恩特(Genter)的结构映射引擎(Structure-mapping Engine,简称SME)、霍叶科和萨伽德(Holyoak and Thagard,也译撒加德)的类比约束映射引擎(Analogical Constraint Mapping Engine,简称ACME);基于案例的推理的程序有阿什利的Hypo软件和卡布内尔(Carbonell)的天才程序(Prodigy)[2]65-81。这两个派别分别从各自的原则或视角刻画人类的类比推理实践,从而试图在计算机上实现类比推理。结构主义以系统性原则(principle of systematicity)为核心强调类比的源域到目标域的结构映射。基于案例的推理则注重索引和案例库,用过去的案例来解决未来相似的案例。结构主义是对科学实践中类比推理进行分析的派别,而基于案例的推理则在日常生活和法律推理中盛行。阿什利的Hypo软件就是为法律推理而设计的。这种人工智能上的类比实现的传统最早可追溯到易万思(Evans)那里。他于1968年创造了类比(ANALOGY)程序,是为处理几何类比智能测试(geometric-analogy-intelligence-test)而设计的。较近的一种程序来自道格拉斯·霍夫施塔特(Hofstadter也译为侯世达)和米歇尔(Mitchell)的模仿者程序(Copycat Program)。按照霍夫施塔德的论述,该程序是为了发现富有洞见的类比及其心理上实现的方式[2]83。它旨在解决如下类型的问题:“令字母序列abc由abd替换;那么如何以‘相同的方式’替换字母序列ijk?”模仿者以如下的概念来运作:后继者、相同、最左边、最右边、第一个字母(仅只是a)、最后一个字母(仅只是z)、群(相连的字母)等。与前两者不同的是,模仿者是基于霍夫施塔德的哲学直觉的:概念的模型是某种重叠的具有涌现的光晕的(emergent-halo)。在模仿者中,核心概念是静态的、孤立的,它们与每一个作为概率云(probabilistic cloud)或光晕(halo)的节点相连。这些光晕是动态的、相互重叠的和流动的[2] 83-85。在运行上,模仿者相比结构主义和基于案例的推理的程序更像易万思的程序。
人工智能中的类比意指人工智能在理论和工程实践过程中通过类比推理受启发或直接应用类比论证乃至以类比学习作为一个子分支的这种联系。
追溯人工智能的历史,可以看到从最先开始到当前人工智能发展的人工智能工程实践中总是不乏受类比推理启发或应用类比论证的事实。我们所称的人工智能最早由图灵做了很多基础性的工作。这些工作包含在图灵称作智能机器的研究工作中,包括启发式搜索、类神经元人工神经元网络、遗传或进化算法等[3]515-570。而第一次使用人工智能这一术语的是由麦卡锡主办的达特茅斯会议。达特茅斯会议开启了到20世纪60、70年代的以逻辑推理为主导的人工智能发展第一阶段。笔者关注的是这一阶段中类比处在什么位置这一问题。
在早期人工智能理论中,符号人工智能是卓越的理论之一。其提出者纽厄尔和司马贺(也译作西蒙)是基于如下著名的物理符号系统假设而提出的:“就一般智能行动来说,物理符号系统具有必要的和充分的手段……‘一般智能行动’来表示与我们所看到的人类行动范围相同的智能……物理符号系统是通用机的一个例子。所以,符号系统假设就意味着智能将由一台通用的计算机来实现。”[4]纽厄尔和司马贺在提出假设时应用了如下类比推理:物理符号系统对一般智能行动(人类行动范围相同的智能);物理符号系统对通用图灵机。科普兰和普劳德富特较准确地将其概括为:“既然人类大脑的符号结构加工是人类智能的基础,那么数字计算机的符号加工也足以产生人工智能。”[3]527纽厄尔和司马贺提出的物理符号理论是一种假设,它是基于计算机科学是像经济学和细胞学说以及地质学那样的经验学科这种假设基础上的理论。对计算机科学而言,其实验就是制造新的计算机器和程序。
不难发现,纽厄尔和司马贺在物理符号系统假设中都应用了类比推理。这或许是因为人工智能的不确定性、模糊性以及人们对人工智能难于清晰把握所致。另外,类比本身的猜测性以及或然性也可能使其作为一个可取的方法。总之,在人工智能的早期历史中,人工智能中的类比不是罕见的事情。
人工智能中期是指从20世纪80年代到近几年之前的阶段。这一阶段以概率模型、统计建模、机器学习、随机算法为主要研究内容。在该阶段,人工智能中的类比表现在某个子分支如机器学习理论中,例如依据类比而构建其学习理论的研究方向。这一领域是基于案例的学习理论。一个明显的特征就是这一阶段的类比与人工智能的类比有重合的部分*关于这一点成果很多,其中较为显著的成果有Manuela M. Veloso: Planning and Learning by Analogical Reasoning, Springer-Verlag, 1994; Eyke Hüllermeier: Case-Based Approximate Reasoning, Springer,2007。。
当前盛行的“大数据、小任务”范式下的深度学习是第三阶段,是近几年才刚刚兴起的。它是人工智能学习理论中的很小的一个分支。前面已提到计算机科学家朱松纯所指出的这种范式的问题。在此,我们可以将其问题概括为:(1)它不直观,与智能生命完成任务过程不符;(2)更为致命的是,它只能通过大量训练才能完成特定任务,并且无法泛化。然而,智能生命是可以泛化的。
计算机科学家将“泛化”定义为把特定模型用到其他任务的过程。如果我们从哲学上辨析泛化,它具有两种意义:第一种是在一个领域内从一个任务的处理到相似的另一个任务的处理(如棋类中多种不同棋,甚至改变规则后的相同棋);第二种是跨领域的处理(如从棋类跨到其他领域)。实际上智能生命的日常生活乃至科学活动中泛化任务是一种类比推理实践*这是笔者的哲学直觉,有待讨论和展开。。智能生命从一个任务到另一个任务,依据相似性进行类比推理,并未涉及大数据方法、深度学习就可以迅速在与环境的互动中完成任务。例如,学习语言的时候,对一种新语言的语音或拼写,我们往往运用母语的相似音来标音或拼写以便记住。在这种过程中,我们不需要大量的数据和深度学习。这是按照相似性类比学习的典型例子。因此,我们认为小数据的类比推理为人工智能提供了一种可能的发展方向。正如张玉宏在分析人类的“举一反三”的方法后指出,“迁移学习”*参见张玉宏《从深度学习“技因”缺陷看数据主义的进化方向》,载《全国人工智能哲学与跨学科思维论坛论文集》,第34页。(“把过往其他类似的模型迁移过来”)是人工智能的发展方向之一。
然而,这里的问题是机器不能像智能生命那样灵活行动,其原因或许是因为没有像智能生命一样的复杂的整体的有机系统。因此,如果想让机器也像人或其他智能生命一样行动,那么就需要将人类的类比推理符号化。机器只能够懂得(在输入输出的宽泛意义上的)抽象符号。因此,笔者认为刻画人类类比推理并将其符号化是人工智能的一种可能路径。
类比推理符号化是一个正在形成的领域。我们看到,基于案例的推理的学习理论和类比学习理论是类比推理符号化的领先者。此外,近来逐渐形成了另一种类比推理符号化的道路:类比推理形式化[5] 564。数学类比研究、认知科学中类比研究和为溯因推理而提出的类比论证理论为我们提供了有益的启示。