徐英瑾 王 培
文化研究与文化建设
大数据就意味着大智慧吗——兼论作为信息技术发展新方向的“绿色人工智能”*
徐英瑾王 培
就目前情况而言,对于大数据技术运用的商业前景,溢美之词虽不绝于媒体,却罕有从信息技术哲学之高度做出对于该技术观念前提的批判性反思。实际上,大数据技术的运用必须以大数据的可获取性为现实条件,此可获取性只是当下历史机缘之恩赐而已,绝非人类社会运行之常态。而在这一前提缺失的情况下,大数据技术原有的利好面亦将迅速失效。基于此考量,我们倡导以所谓“绿色人工智能技术”作为大数据技术的替代者,以便通过对于信息处理平台自身“拟人性”的提高来降低其对于大数据的依赖,以期能最大限度地避免对公众隐私权的侵犯。而在此类新数据算法的设计过程中,德国心理学家吉仁泽提出的“节俭性理性”原则亦可成为相应的哲学指导。
大数据技术绿色人工智能节俭性理性统计学
所谓“大数据”(big data),乃是指在利用常规软件工具的前提下无法在可承受的时间内捕捉、管理和处理的数据集合。而所谓“大数据技术”,自然就是指那些利用非常规的软件工具对上述数据集合进行捕捉、管理与处理的技术。按照《大数据时代——生活、工作与思维的大变革》一书的作者迈尔-舍恩伯格(Victor Mayer-Schönberger)与库克耶(Kenneth Cukier)的观点,与传统的统计学技术相比,“大数据技术”的特点便在于:研究者不对研究对象进行随机抽样以获取相对可控的样本空间,而是直接将全部研究对象都作为样本空间。在他们看来,之所以这样做是可能的,乃是因为计算机科学在硬件方面的突飞猛进式的进展,已为大数据的存储与计算提供了极大的便利;而之所以这样做同时又是必要的,则是因为数据科学家发现:在算法不变的情况下,数据量本身的增长就足以大大提高预测的准确度了。[1]①在这里,作者提到:当数据量只有500万的时候,某种数据处理算法的表现是相对比较差的;而在数据量增加到10亿的时候,同样算法的输出准确率则从75 %增加到了95 %。同时,互联网的广泛使用所导致的海量数据的出现,也使得“大数据分析机器”的运作所需要的“弹药”似永无枯竭之可能。然而,时下国内的媒体宣传,似乎更多地聚焦于大数据技术所可能带给人类社会的种种便利之上,却对其自身的局限性着墨不多。而在为数不多的对于大数据技术负面作用的讨论中,更多地被提到的,乃是对于相关技术的滥用所可能导致的伦理风险,如“数据贪婪症”对于个人隐私的威胁,以及商业决策层以及政府首脑对于“数字化独裁”的迷信所可能导致的决策失误,等等。[2]但是,却很少有人从信息技术哲学与认知科学哲学的角度,更为深入地检讨大数据技术自身在哲学思想前提与路径策略方面的得失。而对于上述理论盲点的覆盖,也正构成了本文写作的初衷。
“大数据技术”其实只是早已枝繁叶茂的“信息技术之树”在最近所抽出的一根新枝而已。从总体上来看,教科书意义上的“信息技术”可分为计算机技术、通讯技术与传感技术等数大研究方向,而其中最为兴盛的“计算机技术”则至少包含了两个与“大数据技术”最为密切相关的技术分支:“人工智能技术”与“互联网技术”。如果将“人工智能技术”比作汽车制造业,而将“互联网技术”比作筑路业的话,那么,所谓“大数据技术”的目标,便是“利用既有的路网去直接完成旅行任务”——而在此过程中,旅行者既不需要“买车”,甚至也不需要去“租车”!或说得更技术化一点,大数据技术试图通过回避高级认知架构与思维路径设计的方式,直接对“信息高速公路”上涌现的数据进行利用,由此完成原本的人工智能程序所试图完成的某些任务(如“模式识别”、“自然语言自动化处理”等)。从这个角度看,大数据技术的崛起,无疑为广义上的“信息技术哲学”提出了如下问题:上述这种跳开“坐车”环节而直接利用既有信息通路达成目的的技术思路,在多大程度上是可行的?又在多大程度上是有局限的?而其可行性与局限性背后的深层根据又是什么呢?
关于这些问题,本文的最终评估结论可分为两个方面。就消极面而言,尽管我们很难否认“大数据技术”的确能够在“运作资源丰富”的前提下起到部分取代人工智能系统的作用;但更需要指出的是,上述前提的存在乃是当下历史机缘之恩赐,绝非真正的人类社会常态——而在这一前提缺失的情况下,大数据技术原有的利好面将迅速失效。就积极面而言,倘若现有的大数据技术能够包含对于人类高级认知架构的设计而一跃升级成为“具有大数据特色的超级人工智能技术”的话,那么由此所产生的新技术形态也将具备针对不用运用环境的适应性。而由此得到的额外利好消息则是:原本意义上的大数据技术在量的方面对于新输入的贪婪渴求,便会通过这种实质性的技术升级而得到某种遏制,其对于人类现有社会运作形态的干扰亦会变得更小。因此,它也将会成为一种更为“绿色环保”的数据处理技术。
不过,要说清楚什么是“绿色人工智能”,就不可能不涉及关于传统人工智能的议题。因此,我们将从一个更为切近的视角,比对传统人工智能技术与大数据技术各自之优劣。这里需要说明的是,本文将“大数据技术”视为“人工智能”的竞争对象的立论方式,只是为了简化问题讨论而给出的一种理论抽象。严格地说,在“大数据技术”与“人工智能”这两个端点之间,还有诸如“机器学习”这样的兼备“人工智能”与“大数据技术”色彩的即混合技术形态,我们会在文末给出对于时下流行的“深度学习”与“量子计算”路径的简评。
作为大数据技术的潜在竞争对象,传统人工智能技术的核心关涉乃在于如何通过对于人类认知架构或思维进程的算法化抽象来模拟人类智能,以解决人类在生产实践中所出现的种种技术问题。至于为何人工智能的研究要以“人类的认知架构或思维进程”为参考对象,则是基于这样的哲学见解:既然人类智能乃是我们迄今为止所知道的关于智能的最佳体现者,那么,本着见贤思齐的原则,人工的智能系统就应当至少在某些方面与人类智能具有相似性。
那么,人工智能到底究竟应当在哪些方面与人类的自然智能相似呢?一种自然的解答思路便是:人类思维中带有“不科学”之印记的那部分——诸如“一厢情愿”、“巫术思维”之类的“认知瑕疵”——均是应当在人工智能专家的建模工作中被过滤掉的“杂质”,因为它们只可能为我们的决策行为或求真活动带来负面效应。而反过来说,为了更好地将人类自然思维中的“理性精华”与上述“思维杂质”相互分离,人工智能专家就需要大胆引入逻辑学与统计学的形式手段来对人类自然思维进行“提纯”。譬如,在寻找事物之间的因果关系时,就不能过于信任自身的直观能力,而要建立一个 “贝叶斯网络”,以清晰地表述出我们可以想到的所有与当下任务相关的事件变量(甚至包括隐变量与未知变量),以及它们之间的所有已知的因果关系。尔后,系统便可根据相关网络节点所自带的条件概率表,自动计算出特点节点之间的关联权重值,最终从备选的因果假设束中遴选出最可能成真者。①对于贝叶斯建模技术的更多细节,请参看徐英瑾:《心智、语言和机器——维特根斯坦哲学和人工智能科学的对话》(人民出版社,2013年)1.4节的介绍。
在大数据技术的拥趸看来,人工智能的上述解题思路看似合理,实则过于“昂贵”。其“昂贵性”主要体现在如下两个方面。
其一,以贝叶斯网络为例,其本身的建立要人工智能专家与相关领域的专家通力合作,绝非易事。比如,人工智能专家们若想要建立一个“设备自检贝叶斯网”以便让歼击机机载电脑能够有能力自检故障,他们就需要向飞机设计者虚心请教,以便列出相关型号的战机所可能出现的故障所对应的所有的设备故障点。但是,即使这样的网络已经囊括了该型战机所可能发生的故障的所有原因(尽管这在实践中几乎是不可能的,因为飞机的实际使用往往会不断暴露出一些设计者所难以预估的故障点),这样的工作所消耗的时间也将是非常惊人的。假设某种飞机需要经历一次实质性的升级(比如更换主发动机、雷达以及火控系统等关键设备),那么原先完成的建模工作就必须推倒重来。
其二,相关的贝叶斯网络建立完成之后,我们还需要向各个节点输入数据,以便了解在某些事态变量发生的前提下目标事态变量也发生的条件概率。但如果我们需要相对精确地了解这些概率值的话,我们就必须建立样本空间,以便对诸变量之间的随动关系进行检测。这项工作所需要的时间与精力也是不小的。面对这些难题,大数据技术的支持者相信自己已找到了更为简易的解决方案。概而言之,大数据专家不会针对所要解决的任务建立一个专门的贝叶斯网络(或诉诸其他类型的问题求解路径建模工作),而会在忽略各种可能事件成因之间的层级结构的前提下,在海量的数据中直接搜寻事态之间的相关性。若用隐喻式的语言来解释,前者便是在对某些人进行“有罪推定”的前提下再去寻找证据,以图落实——或推翻——相关推测(而这些推测所构成的结构,无疑也就是相关问题求解路径的骨架);而后者的策略则是:干脆先对所有的居民进行“有罪推定”, 并由此回避了对于“某些人更容易犯罪”的理论性猜测。尔后,再对所有居民的各种行为所产生的数据进行全面处理,以便坐等真正的“罪犯”露出马脚。这样一来,无论是“建立假设结构”的重担,还是“通过随机抽样的方式建立样本检测空间”的负载,全都被卸下了大数据技术专家的肩膀。
那么,大数据技术究竟是如何可能做到将检测对象从所谓的“居民样本”扩大到“居民总体”的?或问得更具体一点:对于“哪些人更容易犯罪”的理论假设的构想固然需要投入心力,而将“全体居民”全部纳入监控对象,难道所需消耗的心力反而会更少吗?对于这个问题的解答的关键词乃是“互联网”。正是互联网的广泛使用,才使得“全体居民”(或近似于“全体居民”)的数据能够以一种相对经济的方式而被获取。下面便是两个具体案例。
第一个案例是关于“模式识别”的。“模式识别”本是一个典型的人工智能课题,其主要任务是如何让人工系统自动判定在某些纷乱的现象背后存在的本质结构——譬如如何确定手稿中的笔迹所代表的字符,以便使得扫描仪自带的程序能够直接将手稿图片转换为可编辑的WORD文档。面对这一问题,传统的模式识别研究(特别是那些诉诸人工神经元网络模型所做的研究②对于人工神经元网络建模技术的更多细节,请参看徐英瑾:《心智、语言和机器——维特根斯坦哲学和人工智能科学的对话》1.2节的介绍。)的解决思路是:我们先要预建一个样本库,以及与之配套的反馈学习算法,而系统则将通过对于样本库的学习,以及来自于学习反馈算法的纠偏,初步掌握模式识别能力。尔后,系统便可进而获取对于样本库之外的新案例的模式解读能力(除非新案例变得与旧样本过于不相似了)。很显然,在这样的研究路径中,无论对于样本库的设计,还是对于系统自身学习架构以及相关学习算法的设计,都会耗掉研究者大量的精力——一旦新出现的待识别案例与样本库旧案例之间的差距的确变得过大,原先的建模工作就有可能会被推倒重来。而与之对比,在大数据技术指导下的研究思路却要简单得多。譬如,当系统遇到内置程序难以解读的新字迹的时候,数据科学家根本不会着手从事原先程序的升级或改造工作——相反,他们会利用互联网将难辨认的图片广泛发送出去,尔后再让广大的互联网用户自己去判断这些字迹到底代表了哪些字符。然后,专家再利用互联网搜集用户的答案,统计出这些答案中的“一般意见”,由此确定难解字迹到底是哪些字符。以上,也便是时下已经得到广泛应用的ReCaptcha技术的核心思想。[3]
第二个案例是关于机器翻译的,即如何运用人工智能技术对一段语言文本进行自动化处理,以便将其转化为用另一种语言表述的新文本(但二者的含义必须保持同一)。大略地说,传统的机器翻译思路大致有两条。第一条是用计算机程序固化某些已知的语言学知识——如乔姆斯基的“转换生成语法”理论——并利用这样的程序来对输入的文本信息进行精细的语法分析。这样的进路便被称为机器翻译中的“符号式进路”。与之争锋的则是所谓的“统计式进路”,即在放弃对于句法规则的预先表征的前提下,直接统计一个对象语言词项被一个元语言词项所翻译的概率值。譬如,英文里的单词“know”究竟应译为“懂”、“知道”还是“晓得”,将根据“相关英文词出现后相关中文译词亦出现”的“后验概率”来确定。然而,在大数据技术的支持者看来,以上两个路线都是有问题的。具体而言,“符号式进路”将逼迫我们对自然语言的语法结构进行建模,并为乔姆斯基式的深层语法与自然语法之间的过渡提供精巧的“摆渡工具”——而这种理论色彩过浓的建模工作,必将难以对翻译实践中所涌现的大量新语例做出灵活的反应;至于“统计学进路”,则和前面所谈到的“模式识别”技术一样,都需要设定一个翻译例句库以作为样本空间。但由于该空间中所出现的所有翻译例句都应当是准确的(即所有例句都要达到所谓“官方翻译”的标准),样本库本身就不可能被建得很大,而对于它的拓展与维护也会变得相对昂贵。与之作对比,目前美国谷歌公司所采用的大数据技术对于这个问题的解决方案,则“机智”地绕过了“句法分析”与“建立例句库”这两道门槛。他们的具体做法是:直接从互联网上搜集所有现成的语料,而不避讳其中所可能出现的错误翻译甚至语法错误。耐人寻味的是,由于这种新的语料库在规模方面乃是由“佳译”所构成的理想语料库的上百万倍,其自然生成的规模效应,竟然使得产出译本的质量反而超越了传统机器翻译程序的输出质量。[4]
通过以上这两则例子,我们也就不难理解为何大数据技术的确对传统人工智能技术构成了某种威胁。简言之,很多人工智能技术所能够做的事情,大数据技术也能够做,而且似乎做得更快更好,也更少耗资源(无论是在人力方面还是在时间方面)。两相比较,大数据技术的确大有“胜出”之势。但是,从更深的角度看,这种“胜出”只是一种假象。从上面的分析不难看出,对于互联网的利用乃是大数据技术得以成功的秘诀——而这种所说的“互联网”不仅仅包括网络本身,也包括广大网络用户的自身的智力投入(如对于字迹的辨认工作以及对于外语的翻译工作,等等)。这也就是说,大数据技术是通过互联网这一管道大肆“剥削”了既已存在的人类智能,借以在与传统人工智能的竞争中占据先机的。换句话说,这种“胜利”其实是带有很大水分的(这就好比说,一个得到无数次场外求助的机会的智力竞赛参赛者,击败了一个没有得到任何此类机会的对手,可谓“胜之不武”)。
不过,大数据技术的拥趸或许会说,带有水分的胜利毕竟还是胜利,只要没有法律和伦理上的理由反对数据专家利用互联网提供的海量数据,我们又有何理由不去抄捷径呢?而笔者对于这一辩解的进一步回应则是:互联网带给大数据的春风并不总是那么强劲,而所谓的“捷径”也不总是那么顺畅,因为海量数据的轻易可获取性并不是人类社会的常态(实际上,从采集—狩猎时代以来的大多数时间段内,人类所能够获取的信息量一直没有超越“小数据”的范畴)。而即使在互联网已被广泛使用的当代,我们也可以随手设想出如下四种对大数据获取构成限制的情况。(1)在战争条件下,己方作战平台对于储存在“云”中的信息的调取很可能会遭到敌对方的刻意干扰,而使得大数据处理技术自身失效(与之相类似,我们还可以设想如下情形:在某国与某国关系全面恶化的情况下,一国切断海底光纤光缆,以使得另一国民用数据处理平台大面积瘫痪)。(2)即使在和平条件下,由于广大贫困的或未受教育的人口的线上交易活动并不活跃(或者根本不存在),对于网络数据的分析在很大程度上是以遗忘“不上线的大多数”为代价的。(3)在诚信广泛缺失的社会道德背景下,广大网络“水军”的存在,会使得一些特定数据(如对于商品的评价)的质量低到无法被其数量所平衡的地步。(4)在对于未知领域的探索过程中(譬如火星探险),人类所获取的相关信息量还远远没有达到“大数据”尺度的地步,因此大数据技术自身也会失去用武之地。但是,即使在所有这四种使得大数据技术被“冻结”的情况之中,我们也没有理由说人类的自然智能是无法在其中正常运作的。换言之,在信息稀缺的环境下,人类的自然智能会比大数据技术更具优势。
然而,大数据技术的支持者或许会继续反驳说:即使我们承认人类的自然智能会在信息稀缺的情况下发挥更大的威力,但是这一优势依然会被其在面对海量信息时所暴露出来的“不适应性”所抵消。因此,二者至多打成一个“平局”。对此,笔者的回应是:人类的自然智能的确无法全面打败大数据技术,而传统人工智能技术恐怕也不行——但“绿色人工智能”就难说了。在笔者看来,后者将为综合自然智能、传统人工智能与大数据技术的优势(却同时尽量回避其各自的弱点)提供一揽子的解决方案。
“绿色人工智能”是本文提出的一个新概念。这个概念的提出,受到了德国心理学家吉仁泽(Gerd Gigerenzer)对于“节俭性理性”(frugal rationality)问题的讨论的很大启发(这里需要说明的是,由于吉仁泽本人笃信关于人类心灵机制的计算机模型,因此,他的相关心理学理论就具有了某种横跨人类心智与人工智能的兼适性)。“节俭性理性”自然是针对“不节俭的理性”而言的。而在吉仁泽的话语框架中,“不节俭的理性”又可分为两类:“全能神理性”与“有限理性”。
“全能神理性”在近代西方思想史中的代表,乃是法国思想家拉普拉斯(Pierre-Simon Laplace,1749—1827)提出的“决定论”思想。若用今天的学术话语体系转述该思想,其自然科学的表达版本如下:如果我们能够知道所有的自然规律以及所有的微粒在某个特定时刻的初始状态的话,那么,我们原则上就能够知道某个特定微粒在任何一个别的时刻的运动状态。该学说的社会科学版本则如下:如果我们能够知道所有的社会规律以及所有的社会个体在某个初始时刻的状态的话,那么,我们也就能够在原则上预知任何一个个体在任何一个别的给定时刻会做些什么。很显然,“全能神理性”的想法和今天我们所说的“大数据技术”的哲学预设是有一点类似的:完整的数据加一点点科学知识(如拉普拉斯时代被奉若神明的牛顿力学知识),就足以支持我们对于未来的预言(只不过今天的大数据专家还没有狂妄到认为自己可以预言任何一个微粒在任何一个时刻的运动状态的地步)。
很显然,在大数据本身难以获取的情况下,对于上述理性的秉承并不可能在实践层面上给我们带来任何积极的后果。因此,一些学者就提出了一种与“小数据”环境更为匹配的新理性观:“有限理性”的代表性技术成果,是人工智能学科的行业奠基人之一、图灵奖与诺贝尔经济学奖双料得主司马贺(Herbert Simon,1916—2001)与其学术伙伴纽艾尔(Allen Newell,1927—1992)联合提出的“通用问题求解器”(General Problem Solver,简称GPS)设想。按照“GPS”的设想,一个智能系统的记忆库应当预装了很多“推理捷径”,以使得系统自身能够在资源有限的前提下,通过更为经济的方式来获得自己的推理目标。譬如,作为决策者的消防队长(或人工消防系统)就必须预存一个关于“如何救火”的预案库,并在面临救火任务时,随机抽取一个预案予以检测(这主要是指心理模拟意义上的虚拟检测)。按照司马贺的设计,如果检测的结果能够“满足”相关的目标——也就是成功灭火——那么,消防队长就会自动停止对于别的预案的考察,由此控制资源的损耗。
至于吉仁泽本人,则既不为“全能神理性”观喝彩,也不支持看似已经对前者提出批评的“有限理性”观。其理由非常简单:“有限理性”指导下的问题求解路径依然依赖于传统的统计学技术,因此所需要的数据量依然不小(尽管还没有达到“大数据”的级别)。然而,吉仁泽认为,在不少问题处理语境中,即使是对于这种规模的数据量的处理,也是用户的时间资源所无法承担的。在《使吾辈精明的简单思维土法》一开首,[5]他就提到了在判断心脏病突发的病人的病情时,急诊科的医生所实际使用的判断流程。不难想见,为了争分夺秒地与死神赛跑,相关的诊断流程必须是简单实用的,以及对于这些检测结果的统计学分析——尽管这种分析恰恰是标准的人工智能专家所倡导的。
下面这个心理学测验,将帮助我们看清楚,一种更为宽泛的“节俭性算法”是如何运作的。假设有这样一张考卷,考卷上有一列由美国城市名字所构成的对子,如“史普林菲尔德—旧金山”、“芝加哥—小石城”等。考生的任务,便是从每个对子里找出那个城市居民比较多的城市(在此期间任何考生不允许参考任何书籍以及网络上的相关信息),考官则根据考生的答对率进行判分。现在我们将考生的考卷分为两组:德国学生的答卷与美国学生的答卷。很多人都会认为美国的学生考分会高一点,在他们看来,美国学生总要比德国学生更熟悉美国城市的情况。然而,这个看法是偏颇的。作为一个大国,美国的行政区划以及相关的人口情况异常复杂,即使是一般的美国人,也仅仅是听说过不少城市的名字而已,却不是太清楚所有城市的人口规模。而作为德国学生,事情就要简单一点。他们做题的时候遵循的是一条非常简单的“思维土法”:凡是自己听说过的美国城市,一般就都是大城市,而大城市一般人口就多。总之,面对两个城市的名字“二选一”的时候,选那个看起来眼熟的地名就是了。而或许让人感到惊讶的是,这种看似“简单粗暴”的解题思路,成功率却相当了得。譬如,当吉仁泽和其合作伙伴做这个实验的时候,他们便发现德国学生的平均成绩明显要比美国学生好;而当别的研究者以“两个英国足球队中的哪一个会在曼联赛中获得更好成绩”为问题,分别测试土耳其学生和英国本土学生后,他们同样惊讶地发现:答案正确率高的,再一次是相对不熟悉英国本土情况的土耳其人。简言之,“将正面的属性——如‘人口多’、‘体育强’等——指派给你相对熟悉的地名”,便是在上面的实验中德国学生与土耳其学生得以打败美英本土竞争者的“制胜思维土法”。这便是所谓“节俭性理性”的典型运用实例。[6]吉仁泽甚至还认为,从演化论的角度看,人类的这种“节俭性理性”甚至在老鼠这样的啮齿类动物的心智配置那里就已经有了雏形了:因为就连老鼠也能够根据别的老鼠食用某种食物后的反应,来判断该种食物是否有毒,并同时回避那些从来没有任何老鼠吃过的新食物(需要注意的是,在此过程中老鼠不必真地具备对于食物自身的化学构成的知识,就如在前面的例子中,外国学生并不需要知道相关城市某方面特征的真实数据一样)。[7]
读者或许会说,这种“节俭性理性”也实在太寒酸了吧,因为其运作似乎完全排除了我们对于世界的因果关系的表征,而仅仅将判断的依据建立在一些似是而非的相关性之上。但问题是:这样的批评也能够被施加于大数据技术之上:因为该技术的拥趸也以回避因果关系表征作为自身的“技术特色”。为何大数据技术能够回避因果表征,而“节俭性理性”却不能呢?
大数据技术的支持者或许会反驳说,该技术对于相关性的把握是以对于即时获取的海量数据为根据的,而“节俭性理性”对于相关性的把握的根据,则似乎是某些来自于远古演化历程的内置心智配置。换言之,前者是“与时俱进”地把握相关性,而后者则是以“刻舟求剑”的方式获得相关性——二者怎么可以同日而语呢?对于这一批评,我们有两点回应。第一,正如前文所指出的,“大数据的可获取性”并非人类社会的常态,而是互联网时代带给我们的意外恩赐。由于支持这种恩惠继续起效的社会经济基础所具有的脆弱性,我们将所有的鸡蛋都放到大数据技术篮子里的举措,未必是明智之举。在这个问题上,向人类乃至别的哺乳类动物的原始心智学习研发新时代的人工智能系统,不失为一种降低风险的补偿性方案。第二,人类心智机制自身的“原始性”并不意味着其无效性。实际上,哪些原始心智的工作方式是能够继续适应现代社会的,哪些不能,是需要具体问题具体分析的。就前面所提到的对于城市人口规模的猜测实验而言,相关心智的运作规则乃是“根据城市有名度”来判断其人口规模——而其更为一般的形式乃是:根据某事物的某些更具凸显性(且更具可获取性)的指标数来猜测那些不那么具凸显性或可获取性的指标数。很显然,这样的运作规则因为足够抽象,因此就具有某种横跨远古时代与当代社会的兼适性,不宜用“刻舟求剑”之类的负面标签一贴了之。
大数据技术的支持者或许还会反驳说,上面我们的论证至多只能说明:基于“节俭性理性”的信息技术构建方案可以成为大数据技术的备份,而无法说明它可以全面取代大数据技术。让我们再来回顾一下前文所述的那个关于城市人口规模的测验结果吧:这个结果明明告诉我们,对于数据信息掌握量比较大的本国被试者来说,他们对于“节俭算法”的使用会因为“知道得更多”而变得更为艰难,而由此得出的测验分数也就更低。这难道不正意味着:远古心智所自带的“节俭性算法”与大数据环境无法兼容吗?对于这一反驳,我们的意见是:所谓本国被试者“知道得更多”的情形,需要得到进一步的分析。实际上,这些被试者“知道得更多”的,乃是关于被涉及城市的其他与人口相关的指标(如经济指标)的知识,以及这些指标与人口指标之间的因果关系。换句话说,正是因为他们的大脑已经激活了对于因果范畴的使用,节俭性算法的运作便自然得到了抑制,而后者所本有的“快速高效”的推理优势自然也就无从发挥了。但需要注意的是,因果范畴的激活本身并不单纯是数据规模变大的结果——而在某些情况下,这恰恰也很可能是数据量稀缺的结果。具体而言,对于美国本土的学生来说,他们稀缺的恰恰是对于相关城市在非美国人那里的知名度的数据——而恰恰是这种稀缺才使得他们的心智不得不开启了“花费昂贵”的对于人口规模的因果式调查模式。而在大数据环境下,一个与互联网连接的智能程序则自然能更为轻易地获取相关数据,并使得那种已经被程序化了的“节俭式算法”有了用武之地。
大数据技术的支持者或许还会继续反驳说,将节俭性算法程序与大数据库相链接的做法,在定义上完全可以被视为大数据技术的一个变种——那么,为何我们需要将其视为对于现有大数据技术的全面取代呢?相关理由有二。其一,正如前文反复提及的,节俭式算法可以和大数据链接,但也可以和小数据链接,因此,这种可适应于不同环境的灵活性就使得它很难被归类为大数据技术的一支。其二,节俭性算法的设计是植根于对人类现有心理机制的研究,而不是对于直接的数据环境的研究的产物。这就使得它与传统意义上的人工智能研究更具亲缘关系——尽管节俭性算法的“节俭性”是很难通过传统人工智能所仰仗的逻辑—统计进路予以实现的。说到这一步,我们也就可以对基于“节俭性理性”概念的“绿色人工智能”概念进行大致的阐述了。
现在我们来探讨一下与“绿色人工智能”相关的四个具体问题:为何称这种人工智能技术是“绿色”的?在实现层面上,它与吉仁泽的既有心理学理论之间的关系是什么?它与时下人工智能学界在“深度学习”方面的进步有什么关系?它的运用,对于当下我国社会经济发展与人文社科研究来说,具有什么现实的意义?
先来看第一个问题。众所周知,原本意义上的“绿色的技术”就是指对自然资源消耗更少且对自然环境破坏亦较少的技术。而在本文的语境中,“绿色人工智能技术”则同时是指一种对现有的人类价值体系扰动较小的技术(因为我们将人文环境视为广义上的“环境”的一个有机组成部分)。具体而言,它必须对“隐私”、“公民权”、“人类的自由选择权”等被常识普遍接受的价值标准抱有起码的敬意,并以此将技术异化的风险降到最小。若按照这种标准去衡量,现有的大数据分析技术就很难被说成是“绿色”的。用形象化的比喻来说,大数据的分析软件就像一头需要吞入大量数据才能够被喂饱的“哥斯拉”怪兽,因此,其对于数据的贪婪就具有一种“技术的自发性”(因为怪兽的食量本来就是由其身体结构所先天地决定的),而不能被仅仅肤浅地归结为相关从业人员的伦理意识与相关法律监督的缺位。不难想见,只要这样的怪兽的进食方式不改变,现代社会中那些反映公民隐私的数据就会每时每刻处于危险之中。相比较而言,一种基于“节俭式算法”的绿色数据处理技术则未必以大数据的获取为其运作的必要条件。至于那些与保护公民隐私相关的法律法规,自然也就更容易和这种在“进食量”方面更富弹性的新数据处理技术相结合,由此起到最大的功效。
再来看第二个问题。不得不承认,我们关于“绿色人工智能”的理念在哲学层面上的确受到吉仁泽不少启发,但是在具体的实现细节上却和他的原始设想有所不同。具体而言,我们和吉仁泽一样,也认为对于人类原始心智机制的模拟乃是相关工程学实践的必由之路,但是关于人类原始心智机制的具体构成,我们却和他有不同的意见。受到所谓“大规模心智模块论”的影响,吉仁泽本人相信人类的大脑是由一些专门的问题求解器所构成的超级工具箱,我们则倾向于认为大脑中存在着一个“通用问题求解器”——只是其运作方式更符合吉仁泽的“节俭性理性”之理念,而非司马贺式的“有限理性”理念。①关于如何在计算机层面将这种“节俭型”的“通用问题求解器”的算法细节予以夯实,王培曾在英语世界发表了大量相关著述;徐英瑾近年来也多次介绍与发挥了这些成就。徐英瑾在这方面工作的集成,参看《心智、语言和机器》一书;王培在这方面工作的最新集成,见《非公理逻辑:一种智能推理的模型》(Non-Axiomatic Logic:A Model of Intelligent Reasoning,World Scientifc Publishing Company, 2013)一书。
再来看第三个问题。直到目前为止,在提到“人工智能”这个话题的时候,我们仅仅涉及了传统的人工智能研究(以符号主义进路与统计学进路为代表)以及作为未来发展方向的“绿色人工智能”理念,却没有涉及时下如火如荼的一些新概念,如“深度学习”。乘此机会,我们也对其予以简评。就“深度学习”而言,它实际上就是将传统的人工神经元网络的内置层的层级予以规模放大的产物(比如,从一到两层的内置层扩展到七八十层),由此使得系统获得更为复杂的学习行为。从哲学角度看,这其实并非是对传统人工神经元计算模型的原则性突破,只是在现代计算机硬件技术高度成熟后增加系统“野蛮计算能力”后的产物。然而,也正是因为这样的已被升级的人工神经元网络在计算复杂性与硬件要求方面的大规模提升,它就很难说是“绿色的”(在这句话中,“绿色”一词就是在物理资源消耗意义上使用的,而并不主要是指对人文价值之维护)。然而,不得不承认的是,时下计算机学界关于行业发展的一些最新技术路径,都与我们理想中的“绿色智能技术”南辕北辙,却与同样迷信“更多更快”之原则的大数据技术心有灵犀。对此,我们只能表示遗憾。
最后,再来简谈一下本文所涉及的林林总总的信息处理技术与我国现有国情之间的关系。根据中国互联网络信息中心(CNNIC)于2015年7月23日在京所发布的《第36次全国互联网发展统计报告》,截至2015年6月,中国互联网普及率为48.8%,中国网民总数已达6.68亿人。近年来,随着移动支付手段的普及,中国网民线上的经济活动亦以更为惊人的速度增长。这些数据的客观存在,的确为大数据技术的运用提供了现实性。但抛开与小额线上零售交易相关的那部分数据不谈,对于理解中国社会运作的一些更为关键方面的真实数据——特别是经济运行数据——的可获取性却没有得到相应的提升,外界对于中国经济运作的评估往往还是基于推测。这也就是说,当下的中国本身就是一个“数据爆炸”与“数据稀缺”的复合体,光看到前一面而忽略后一面乃是有失偏颇的。在这样的情况下,中国的社会科学工作者就必须练就针对这双面相的“组合拳功夫”,做到无论数据多寡,都能游刃有余,进退有据。而要做到这一点,关于“绿色智能”的理念规划与相关的建模工作,或许能助上一臂之力。
[1][2][3][4] [英]迈尔-舍恩伯格、库克耶:《大数据时代——生活、工作与思维的大变革》,周涛译,杭州:浙江人民出版社,2013年,第51页、第七章、第128-130页、第51-55页。
[5][6] GerdGigerenzer et al.,Simple Heuristics that Make Us Smart, Oxford: Oxford University Press, 1999,p.4,pp.43-44.
[7] S. A. Barrett,The Rat: A Study in Behavior, Chicago: Aldine, 1963.
责任编辑:罗 苹
N39
A
1000-7326(2016)10-0028-08
*本文系国家社科基金重大项目“基于信息技术哲学的当代认识论研究”(15ZDB020)的阶段性成果。
徐英瑾,复旦大学哲学学院教授(上海,200433);王培,美国天普大学计算机与信息科学系副教授。