论数据归纳推理

2021-11-24 23:16
哲学分析 2021年6期

张 怡

随着计算机科学技术和互联网的发展,利用数据进行科学研究已经成为常态,而其中数据归纳更是最重要的方法之一。尽管在技术上数据归纳已经出现大量文献,但在哲学上对数据归纳进行系统研究仍然存在着较大的空间。本文力图从哲学角度对此作一些探索。

一、卡尔纳普的思想遗产

从逻辑上说,归纳推理面临的最大难点是众所周知的休谟问题。为了解决休谟问题,学术界曾经沿着两条路线展开。一条是通过附加前提把归纳论证转化为演绎论证。因为从经验上用以往归纳推理的成功来论证归纳方法的合理性是行不通的,所以只有让归纳推理的前提得到完善才能有效避免归纳论证的质疑。另一条是通过概率推理给出一个高概率论证。在科学研究中归纳推理是不可避免的,只要我们能够对归纳方法给出一个高概率说明,那么归纳论证是可辩护的。但是,第一条路径依赖于附加前提的正确性,因而又陷入关于归纳推理合理性的循环论证。后一条路径由于涉及概率本质的主观性和客观性之争,也是困难重重。20世纪中叶,卡尔纳普试图把两者结合起来,从概率的角度重建归纳推理的逻辑体系。

卡尔纳普的基本思路就是要像弗雷格形式化处理演绎系统那样,为归纳建立一个形式化的概率系统。他认为,演绎逻辑是L-语言蕴涵的理论,推理过程中结论通常是蕴涵在前提之中。归纳逻辑则是部分L-语言蕴涵的理论,只要我们能够找到合理的路径说明被推演出的命题是逻辑地包含在前提之中,并且能够从概率上计算出来,那么归纳论证就是可辩护的。为了形式化处理上的严谨,卡尔纳普构造了一个无限语言条件下的正则函数系统m来定量化地处理归纳推理中的确证度。当科学语句以概率的描述方式出现时,正则函数系统M就是在[0,1]范围内变化的一个数值函数。于是,卡尔纳普按照以下规则进行构造①R. Carnap, “On Inductive Logic”, Philosophy of Science, Vol. 12, No. 2, 1945, pp. 72—97.:

(1)将语言LN中状态描述赋以任意正实数的值,它的和为1。

(2)对于LN中其他语句j,它的值m(j)如下确定:

(a) 如果j非L-假,m(j)就是在j范围内这些状态描述m-值的和。

(b) 如果j为L-假,那么它的值就是零,m(j)=0。

(c) 对于任意一对语句e,h,只要e非L-假,那么C(h,e)=m(h,e)/m(e)。

这里,卡尔纳普得到了学术界熟知的确证度概率公式,即C(h,e)=f(h,e)/f(e)。他这样处理的目的无非是为了解决两个相关的基本问题:一个是把归纳仍然看作两个命题之间的语言推演问题;另一个是认为归纳的概率值仅仅取决于语句之间的逻辑关系,而与经验无关。卡尔纳普认为,在这样一个逻辑框架下,“归纳推理的形式使我们有可能对休谟的主题给出满意的答案”②R. Carnap, Logical Foundations of Probability, Chicago: The University of Chicago Press, 1966, p. xv.。

卡尔纳普在具体处理时把归纳划分成两类:一类是“概率1=确证度”;另一类是“概率2=相对频率”。概率1是一个逻辑概念,它表示两个语句或者两个命题之间的逻辑关系,也就是确证度的概念,其核心要义就是认知主体对某一数据实体所做假设的置信程度。概率2含义在科学研究中,特别是在统计中经常使用,它表示我们可以通过经验的方式对事件的发生加以确证。他提出:“拟概述的归纳逻辑系统适用于有限语言系统LN(N=1,2,3,等)的无限序列和无限语言系统L∞。L∞指的是个体的无限域,由个体常量a1,a2,等(或‘a’‘b’等)指定,而LN仅仅包含了N个个体的有限域,它由个体常量a1,a2,……,aN等指定。个体变量x1,x2,(或者x,y等)仅是发生在这些语言系统上的变量。”①R. Carnap, “On Inductive Logic”.在这样一个逻辑语言系统上,符号C(h,e)可以表示为基于证据e的假说h的确证度。例如,证据e是芝加哥的人口数为300万,200万人是黑头发的。假设某人p是芝加哥人(h),那么通过两个语句的数值关系可以得到p是黑头发的确证度是3/2,在这里h是被证据e所蕴含。可见,归纳的逻辑意义与语句的具体经验意义没有关系,而仅仅与语句的先验概率有关。因此,归纳逻辑中的确证度C(h,e)可以看作是假说h被证据e蕴涵地给出。在卡尔纳普的归纳逻辑体系中,科学语言的逻辑语句被转换成一串数值符号,通过对数值符号的形式化分析,并把先验概率指派到那些可能的符号串上,通过运算就可以预测事件发生的概率。卡尔纳普归纳逻辑系统事实上开创了数据归纳的先河。

但是,卡尔纳普处理归纳逻辑面临一个技术性困难。他是将科学语言的逻辑语句转换为一串数值符号,并且要求归纳的形式化语言与观察语言相对应。因此,LN中其他语句j的先验概率就会依赖于经验语句的概率,也就是说包括m(h,e)和m(e)在内的概率分布会完全依赖于描述对象的科学语言。这样,当描述对象的归纳语言越来越充分,归纳推理过程中所得到的确证度C(h,e)就会越来越偏离符号序列(数据),从而最终完全依赖于科学语言的语境。由于卡尔纳普的归纳逻辑的概率系统与科学内容的语义之间发生了必然的关联,从而休谟问题仍然得不到解决。美国人工智能的先驱者索洛莫洛夫(R. Solomonoff)认为卡尔纳普归纳逻辑的形式化处理很有意义,但是处理符号m(h,e)和m(e)的概率分布方法有问题,计算的方法在数据处理中操作性也不强。如果我们能够直接从数据中获得概率分布,而不用去考虑数据的各种理论或科学的语义解释,那么卡尔纳普留下的问题就可以解决。

二、数据归纳的含义与哲学特征

当我们在科学研究中利用计算机进行归纳推理时,科学观察总是可以表达为一系列二进制的数码形式。不管这些数据是连续的还是离散的,它在归纳过程中都能够被理解为一个符号序列的外推形式。申农(C. E. Shannon)曾经在1951年发表了题为“印刷英语的预测与熵”的一篇文章中提出,对于一个英语语句来讲,比如,“Today, we ar□”,当我们知道了前面一些语词时,方块“□”中应该打印什么?原则上,它可能是26个字母中的任意一个。但是,通过对后续字母的先验概率分析,比如文本的统计,可以算出e是最可能的字母。申农的信息论方法可以推广到0,1的二元数码序列上。比如,对于{0,1,00,01,11,000,……}这样一个字符串,我们要预测随之而来的0与1的三位数组合是可以通过字符串概率来计算的。当经验现象转化为二元数码形式时,虽然进行归纳要比上述例子复杂一些,但是仍然可以进行概率计算而无需考虑它们的语义内容。索洛莫洛夫认为:“我们相信,对符号序列使用当前的外推方法将产生与真实世界中的概率值相对应的概率值,而且,以这种方式获得的真实事件的概率值将在很大程度上独立于符号和它们表征事件之间所设计的对应关系的性质。”①R. Solomonoff, “A Formal Theory of Inductive Inference: Part I”, Information and Control, Vol. 7, No. 1, 1964, p. v.二进制数码形式的数据归纳之所以可以进行概率计算,主要原因之一是二进制数码存在着前缀码特征。所以,数据归纳就是利用二元数码的前缀复杂性特征通过计算机递归操作进行推理的方法。在形态上它可以归为三个类型:“第一个是推断字符串和/或数字的序列;第二个是推断一组无序的字符串和/或数字;第三个是推断一组无序的元素对,这些元素可能是字符串 和/或数字。”②R. Solomonoff, “Three Kinds of Probabilistic Induction”, Computer Journal, Vol. 51, No. 5, 2008, pp. 566—570.受算法信息理论的支配,数据归纳的哲学特征可以具体化为以下几个方面。

第一,多重解释原理的数字化。多重解释原理是古希腊晚期哲学家伊壁鸠鲁重要的思想遗产。他在给匹索克勒的信中提到:对于研究自然来讲,“如果一切都按照多重原因的方法来解释,那么一旦我们适当地考虑了关于它们的合理说法,一切都会顺利地进行,并且符合现象。但是,每当我们承认一个,却又拒绝另一个与现象同样一致的论点时,很显然我们完全放弃了对自然的研究从而陷入了神话之中”③Diogenes Laertius, Lives of the Eminent Philosophers, Book 10 (86,87,88), Pamela Mensch (trans.), Oxford: Oxford University Press, 2018.。伊壁鸠鲁的多重解释原理以往只是一种哲学理念,但在数据归纳中它却成了计算的一个必要条件。当经验命题或科学观察陈述转化为二元数码的数据形式时,由于二元字符串存在着许多不同的组合,它的假说空间一定是多重的。出现的任何一种数据假说都是可能的,因此对它们的归纳操作必须满足无差别原理。比如,一个字符串X=(0,1,00,01,……),我们通过前面已知的符号想了解未来的符号是什么。很显然,000是其中的一个选项,但是100011也是选项,只是它们表达了不同的假说。通常对于一个n位的字符串Xn={0,1},不同的长度Xi(i<n)和Xj(j<n)本身就意味着不同的描述。从算法概率演算的角度讲,只要我们对某一事件发生的条件不能够做到充分了解,那么按照无差别原则或者不充分推理原则,不同的结论都是平权的。无差别原理的平权思想意味着凡是与数据一致的解决方案都是有意义的,从算法概率处理的角度把它们全部留下。数据归纳的这一特征实际上是伊壁鸠鲁多重解释原理的数字化,它让有意义的二元数码形式都置于数据归纳条件下,成为数据归纳的无差别原理。

第二,奥卡姆剃刀原理的量化计算。奥卡姆剃刀原理通常也被称为简单性原理。在算法信息理论产生以前,它在科学推理过程中也仅仅是一个启发性的哲学理念,并无定量形式。波普尔曾经对奥卡姆剃刀原理给予负面评价。他认为简单性观念一直在无批判地使用,好像简单性是什么,为什么应该是有价值的是理所当然的。他明确地讲:简单性“这个概念尚未精确地加以确定”,因此“我不赋予‘简单性’这个词丝毫重要性”①波珀:《科学发现的逻辑》,查汝强、邱仁宗译,北京:科学出版社1986年版,第111页。。因为,可证伪性可以替代它。但是,在数据归纳过程中,对于字符串Xn={0,1}存在着许多描述。假设,di是Xn的第i个描述,整个di的二元数码长度为Li,那么,根据0,1的随机分布,通过贝叶斯定律计算整个字符串的概率分布就有:2-L(si),整体的概率为P(x)=。很显然这个公式表示了二元数码长度最短者具有高概率,直观上这是奥卡姆剃刀原理的直接表现。所以,澳大利亚国立大学的著名教授赫特(M. Hutter)认为,自从索洛莫洛夫、柯尔莫哥洛夫(Kolmogorov)和柴亭(G. J. Chaitin)建立算法复杂性理论以来,奥卡姆剃刀原理有了定量的表述。②Tor Lattimore & Marcus Hutter, “No Free Lunch versus Occam’s Razor in Supervised Learning”, in David L. Dowe (ed.), Algorithmic Probability and Friends: Bayesian Prediction and Artificial Intelligence, Berlin: Springer, 2013, p. 223.

第三,算法信息的复杂性。在数据归纳过程中,我们可以看到二元字符串长度最短者具有高概率性质,奥卡姆剃刀原理可以量化。但是,奥卡姆剃刀量化的合理性依赖于用二元数码表征经验命题时是否存在着这样一个普遍的属性。在数据归纳中,我们一般是用一个有限的二进制字符串来描述一个给定的对象,如果一个对象至少存在一个简短的描述,那么称它为“简单”的;如果它的所有描述都很长,那么称它为“复杂”的。假如存在着一个最短的描述,那么从信息传递的代价上讲它是最优的。柯尔莫哥洛夫在不知道索洛莫洛夫工作的情况下,从数学上独立地处理了算法的复杂性问题。他证明了“对于一个任意已知x的客体y的‘相对复杂性’可以定义为用于从x获得y的‘程序’P的最小长度L(P)”③Kolmogorov, “Three Approaches to the Quantitative Definition of Information”, in A. N. Shiryayev (ed.), Selected Works of A. N. Kolmogorov, Volume III, Information Theory and the Theory of Algorithms,Dordrecht: Springer,1993, pp. 184—193.。柯尔莫哥洛夫的工作表明,只要我们把经验命题转化为二元数码形式,那么一定存在着一个最短的数码描述形式。索洛莫洛夫是从算法概率理论,而柴亭从算法随机性上证明了理论上最短的数码描述形式是存在的,只是操作上存在困难。算法信息的复杂性表明数据归纳有着扎实的数学哲学根基。

三、数据归纳对休谟问题的解决方案

哲学上数据归纳的合理性在一定程度上依赖于对休谟问题的解决力度。休谟在阐述归纳问题时,提出这样一些基本观点。从逻辑属性上看,归纳是一种概然的逻辑推理,而概然推理是建立于我们经验过的那些对象与我们没有经验过的那些对象相互类似的假设上。从归纳过程看,归纳推理包含着对未曾经验过的对象的预判,但是,“不可能有理证性的论证来证明:我们所没有经验过的例子类似于我们所经验过的例子”①休谟:《人性论》上册,关文运译,北京:商务印书馆1996年版,第107页。。从人性论上讲,人类的经验总是有限的,我们只能假设却永远不能证明,我们所经验过的那些对象必然类似于我们所未曾经验过的对象。所以在休谟看来,“任何对象单就其自身而论,都不含有任何东西,能够给予我们以一个理由去推得一个超出它本身以外的结论;第二,即使在我们观察到一些对象的常见的或恒常的结合以后,我们也没有理由得出超过我们所经验到的那些对象以外的有关任何对象的任何推论”②同上书,第161页。。因为对象之间的关系与观念之间的关系是不同的,期望利用对象之间的关系来达到有关观念之间关系的解释是不可能的。但是,当经验命题转化为二元数码序列时,休谟问题的解决出现了重大转机。

数据归纳对休谟问题的解决方案是将归纳的逻辑属性转化为归纳的数学计算。因为从有限数据作为命题前提进行逻辑推断必然得到的逻辑结论超越了前提的知识范围,所以在数据归纳过程中寻求数据命题之间的逻辑关系是不可取的。如果数据归纳是一个二元数码的计算问题,那么归纳推理的逻辑过程就转化为计算机的递归操作,同时人类的经验的有限性也相应地成为一个误差问题。只要是计算机的递归操作符合邱奇—图灵命题,也就是说,二元数码的数据处于一个能行可计算的条件下,那么这个误差随着数据量的增加呈现收敛状态,甚至是出现趋零情况,那么休谟问题可以解决。索洛莫洛夫在晚年曾经问柯尔莫哥洛夫的弟子莱昂纳德·莱维(L. Levin),为什么柯尔莫哥洛夫没有能够从柯氏复杂性中直接发现数据归纳中的普遍概率分布,莱维的回答是,当时他们认为归纳不是个数学问题。③R. Solomonoff, “The Universal Distribution and Machine Learning”, The Computer Journal, Vol. 46, No. 6, 2003, p. 2.从索洛莫洛夫与莱维的对话中我们可以看到,在人工智能领域里,数据归纳现在被看成一个数学计算问题而不是一个逻辑问题。

如果休谟问题是一个计算问题,那么从有限数据作为命题前提到结论的得出必然依赖于贝叶斯定律的递归操作,而贝叶斯定律的运用又会涉及先验概率的确定问题。所以,在数据归纳的计算处理过程中,休谟问题的解决就转化为先验概率的确定问题。为了解决这个问题,归纳算法概率的先驱者在数据归纳的算法处理上寻求二进制的编码方法。索洛莫洛夫最初希望找到一个近似的概率分布,它和实际概率分布几乎一致。于是,他“用数据字符串的最短描述长度和它可能的延续体来定义这个字符串的先验概率”①R. Solomonoff, “Inductive Inference Theory: A Unified Approach to Problems in Pattern Recognition and Artificial Intelligence”, in Proceedings of the Fourth International Joint Conference on Artificial Intelligence, Tbilisi, Georgia, U. S. S. R. 1975, pp. 274—280.。这个想法虽然很好,但有时面临着误差的发散现象,而莱昂纳德·莱维则用前缀码特性解决了这个问题。根据二进制编码的克拉夫特不等式,由前缀码特性可以得到通用的先验概率分布。比如,对于特定图灵机M来说,s是描述经验对象的字符串,si是第i个字符输入串,它的长度为L(si)位,那么随机二进制输入是si的概率正好是2-L(si)。如果x是某个特定程序的输出,那么输出是x的概率是所有si的求和,即PM(x)= Σi2-L(si)。对于这个公式从直观上可以看到,s不仅仅被视为抽象的二进制字符串,而且也是表示真实世界的字符串。同时,“具有短的和/或数字的‘描述’……的字符串赋有高的先验概率。具有长的和/或有些描述的字符串赋有小的先验概率”②R. Solomonoff, “A Formal Theory of Inductive Inference: Part I”.。也就是说,在数据的二元的数码表达中最简单的假说具有最短的描述,而且存在着一个通用的先验概率,它与观察数据的语义无关。二元数码中先验概率的存在的确是一个重要发现,它解决了贝叶斯定律递归操作的可计算问题。加拿大滑铁卢大学李明教授认为,“后来许多数据归纳推理模型和原理都可以看作是算法概率理论的可计算近似”③Ming Li & Paul Vitányi, An Introduction to Kolmogorov Complexity and Its Applications, New York: Springer, 1993, p. 290.。

尽管先验概率的发现在解决休谟问题的途径上迈出了关键的一步,但是在经验命题转化为二元数码的数据形式时,由于二元字符串会存在着许多不同的组合,计算机的递归操作还是面临着何时可以判断最终获得了具有最短的二元代码的“描述”问题。对于这个问题,柴亭认为,一个由二元数码构成的形式化系统,计算机自身是无法判断何时可以中止递归操作。比如,对于一个二元数码系列S,如果可以通过归纳找到P是S最短形式的程序,只要是可以进行归纳,P就不是随机性,那么一定存在着另一个程序P′比P短,它可以产生P。这样就存在着一个算法程序,“从P′计算P,从P计算S”,它可以实现产生S。这个算法程序尽管比P′稍稍多几位,但是却说明了P不是最简的程序。①G. J. Chaitin, Information, Randomness & Incompleteness: Papers on Algorithmic Information Theory, New York: World Scientific Publishing Co Pte Ltd, 1990, p. 17.柴亭的工作揭示了二元数码的数据归纳存在着不完备性。哥德尔曾经提出,一个完备的形式化系统,任何相容的形式体系都不能用于证明它本身的相容性。图灵也据此提出了一个本质上自洽的计算系统一定存在着不可计算性,“停机问题”就是哥德尔定律的自然延伸。数据归纳体系中同样存在着类似的问题,任何最简的程序都是随机性的,因此不可能编出一个程序自主判断数码的最短性。这样,在休谟问题转化为数学计算的过程中,一方面算法概率理论表明数据归纳存在着一个普遍的先验概率,最短的二元数码长度具有高概率属性,另一方面,计算机的递归操作由于形式系统存在着不完备性,因此又无法判定二元数码长度何时为最短。所以,休谟问题本质上是一个形式系统的完备性问题。

四、数据归纳的哲学评述

如果说数据归纳中的休谟问题本质上是一个形式系统的完备性问题,那么休谟问题的哲学评价就变成一个如何理解数据归纳中存在着不完备性的哲学问题。

在理论层面上,数据归纳存在着不完备性意味着用二元数码的形式系统处理归纳的理论体系是相容的,至少这个形式系统在具有前缀码条件下具有数学意义上的科学性。事实上,索洛莫洛夫就用算法概率理论解决了“古德曼绿蓝悖论”的新归纳问题。②R. Solomonoff, Does Algorithmic Probability Solve the Problem of Induction?, Oxbridge Research, P. O. B. 400404, Cambridge, Mass. 02140, 1997.所以,数据归纳过程中出现的不完备性与哥德尔不完备性定律、图灵“停机问题”一样,是一个关于形式化科学知识的限度问题。在经验世界中,只要人类利用计算机去研究真实现象,那么这种研究一旦转化为数据形式就会存在某种不可计算性的问题。这种现象并不是说经验世界本身存在着关于可知和不可知的限度问题,而是形式化的模型世界存在着限度问题。于是,我们利用计算机进行数据归纳就存在着方法论上的两难困境:一方面,我们不得不利用计算机来处理大量数据;另一方面,只要我们对数据进行归纳处理,更进一步说,处理形式化的经验世界,又必然存在着不可计算性现象。这样一个困境意味着数据归纳中休谟问题的解决还存在着一个操作上的合理性问题。

实践中的任何一个归纳问题在被转化为计算机处理时,总是通过特定的预测模型来进行的。美国著名经济学家和复杂系统思想家布莱恩·阿瑟(W. B. Arthur)在解决“埃尔法罗尔问题”(The El Farol Problem)时通过计算机实验得出一个基本结论:只要在预测模型合理的条件下,计算机操作时间足够长,那么归纳的结果就会趋于一个理性的阀值。①W. B. Arthur,“ Inductive Reasoning and Bounded Rationality: The El Farol Problem”, in W. B. Arthur, Complexity and the Economy, Oxford: Oxford University Press, 2015, pp. 30—38.也就是说,在实践中数据归纳的合理性就是指合理地解决预测模型下计算机的递归操作。所谓递归操作,就是在给予任意序列的数据情况下寻求一个合理的、输出最短而又可以产生此数据的程序,它是一个半计算的理论问题。尽管布莱恩·阿瑟的实验结果是客观的,但是计算机操作中休谟问题的核心困难并不是能否作出归纳推断,而是依据已知的二元数码能否判断未来二元数码命题的真假。这里既涉及对数据归纳推理和数据归纳解释的本质理解,也涉及对算法概率的处理究竟持客观主义哲学立场还是持主观主义哲学立场的问题。

卡尔纳普曾经提出:“从一个样本到另一个样本的推断被称为预言推断”,预言推断在逻辑上必须依赖于前一个样本的确证度,因此“预言推断是最重要的归纳推断”②R. Carnap, Logical Foundations of Probability, pp. 85—86.。按照卡尔纳普的这个想法,索洛莫洛夫认为,在二元数码的数据处理中,“借助于归纳推理,我的意思是指一个过程,它包含了对许多现象的观察和一般规律的公式化,这些规律描述了所有观察事例中那些特殊部分之间的关系。当一般规律被发现了,就可以利用已经被观察到的那部分数据来预测同一类现象中那些未被观察到的部分。归纳推理的通常形式是预言”③R. Solomonoff, “The Mechanization of Linguistic Learning”, Proceedings of the Second International Congress on Cybernetics, Namur, Belgium, 1958, pp. 180—193.。比如,假设x是一个长度|x| =n的有限二元字符串,y是未来的数据字符串,那么在特定的图灵机条件下从概率理论上讲,紧随x的未来二元数据字符串为1而不是为0的概率应该是:p(x1)/p(x0)+p(x1)。这样,通过不断递归计算,整个未来数据字符串的概率应该收敛为:P(y|x)=P(xy)/p(x)。索洛莫洛夫的这个想法得到谷歌旗下深思(DeepMind)公司高级研究员哈特(M. Hutter)的支持。哈特明确地讲:在数据推理中,“归纳法就是从过去预测未来的过程,或者更准确地说,是在过去的数据中寻找规则并使用这些规则来猜测未来数据的过程”,所以,“归纳法也可以被更广泛地理解为包括对某些给定数据得出结论的过程,甚至包括预测未来的过程”④M. Hutter, “New Error Bounds for Solomonoff Prediction”, Journal of Computer and System Sciences, 2001, pp. 653—667.。算法概率理论就是通过后继数据提升先验概率的可靠性,从而增强对某一数据实体所作假设的置信程度。这种观点本质上是对数据归纳持主观主义的哲学立场。索洛莫洛夫明确讲:“在ALP中,主观性发生在‘参照物’的选择上——通用图灵机或通用计算语言”,“很明显算法概率的主观性是必然特征,它保证智能系统把过去的经验合并到解决未来问题的技术中去”①R. Solomonoff, “Algorithmic Probability—Its Discovery—Its Properties and Application to Strong AI”, in Hector Zenil (ed.),Randomness Through Computation: Some Answers, More Questions, New York: World Scientific Publishing Co. Pte. Ltd, 2011, p. 153.。从现代人工智能理论的发展来看,对数据的概率处理持主观主义的哲学立场也许更加有利于实践中对休谟问题的合理性解决。

基于概率的主观主义哲学立场,二元数码的概率计算中贝叶斯定律的运用实际上就是在数据D中把所有的可能假说H构成一个样本空间,并且假设其中至少有一个假说Hi为真。如果我们知道先验概率P(Hi),那么通过条件概率P(D| Hi)可以算出数据D的后验概率P(Hi|D)。事实上,如果归纳推理仅仅停留在这一步,那么后验概率总是逻辑地被条件概率所蕴含,这样休谟归纳问题是得不到解决的。但是,贝叶斯定律的目的是解决从所观察的数据中推测未来发生的数据,并且不断进行递归操作。所以,在归纳推理中贝叶斯定律应该是一个连续应用的过程,后验概率在随之而来的经验判断中不断地得到确证度的提升。可见在数据的递归操作中运用贝叶斯定律进行归纳推理的过程,实际上蕴含着对未来的一种预言。从这个意义上讲,数据归纳如果不考虑主观信念的变化,那么它只能是一种归纳推断;如果数据归纳包含着主观信念的变化,那么它应该是包含着预言的归纳推理。这样,在包含着数据预言的归纳推理中,休谟问题在实践中只是一个计算机递归操作的误差问题。只要这个误差趋于收敛状态,休谟问题解决的实践合理性就是可以理解的。

从算法概率理论对休谟问题的解决中我们可以看到,数据归纳提出了科学解释的新的基本要求。在传统的科学哲学理论体系中,尽管科学解释的模型很多,但是共同的要求是被解释语句能够通过解释语句之间的逻辑关系得到必然性的说明,从而让人们更加明白或者理解。然而在数据归纳推理中,由于研究对象通过二进制语言的映射转化为形式化语言,因此当我们直接面对数据时如何让数据更加明白或者能够理解就成为一个新的解释问题。在数据没有转化为二元数码前,如果它存在着一个先验概率的前提,那么通过演绎数据能够得到很好的解释。但是,科学研究常常面临的是海量数据。在海量数据面前,数据的先验前提或者先验命题不能预先知道,或者根本就不存在,数据演绎解释就无法进行。当数据转化为二元数码形式后,由于前缀码导致先验概率的存在,理论上可以进行数据的归纳解释。当然,这种解释同时又受制于二元数码的不完备性。所以,澳大利亚计算机科学家和物理学家华莱士(C. S. Wallace)讲:“我们可以这样来看一组数据的解释,即在已知一组相对小的前提下,数据并非出乎意料。‘并非出乎意料’,我们的意思是前提要么暗示数据命题,或者更普遍地说,暗示接近数据。”②C. S. Wallace, Statistical and Inductive Inference by Minimum Message Length, New York: Springer, 2005, p. 14.数据归纳推理中的数据解释就是对研究的数据给出一个或者更多的新的前提,然后通过计算机的递归操作不断地去证明这些新的前提暗示或者暗示接近数据。

在计算机的递归操作中,由于经验命题都转化为二进制语言,因而数据归纳解释只能通过数据编码位之间的概率关系以及长度来进行。假设一个二元字符串是基于特定假说H和编码方式D构成,P(H)是假说H的先验概率;P(D| H)是已知假说H条件下的数据概率;P(H| D)是已知数据D条件下的后验概率;P(D)是数据的边际概率;那么数据产生的概率为:P(H| D)=P(H∧ D)/P(D)。根据贝叶斯定律:P(H∧ D)/P(D)=P(H)P(D| H)/P(D),这样,所谓在数据归纳中选择最可能的后验假说就是选择先验假说H使得P(H| D)最大。根据申农的信息理论,选择先验假说H使得P(H| D)最大等价于选择先验假说H使得-[logP(H)+ log(D| H)]最小。这个信息量告诉我们,并非单一的P(H)或者P(D| H)的对数值最小,而是要求两者之和最小。由此我们可以把数据体的信息解释包括两部分。第一个是解释所有从归纳导出前提的那些陈述,包括这些前提中假设的数量的数值。这部分利用前缀码特性往往可以构造成一个近似递归函数来得到解释。第二个是解释数据所有细节的陈述,而这些细节往往又不能从归纳前提和其他已知的、可接受的、没有问题的前提的组合中演绎出来。这部分可以从近似递归函数中得到的先验概率进行外推。一般来讲,一个数据形式比另一个数据形式要好意味着前者蕴含的信息量更大。在申农的信息论中,信息量是用编码位长度来定义的。所以,按照申农的信息量含义,最短长度的数据应该是最可能的数据形式。这样我们能够从信息论上作出哲学判断,对数据最好的归纳解释就是给出最短的解释信息,从数据中得出的最佳归纳推理就是最短解释信息中使用的推理。换句话讲,解释信息的长短性是对数据归纳解释能力的衡量。

从上面数据归纳的哲学分析中,我们可以看到休谟问题在实践层面上是计算机操作过程中半计算的合理性问题,技术上反映的是算法能否不断优化的哲学问题。但是,算法优化面临着“没有免费的午餐”定律(no-free-lunch theorem,简称NFL定律)的认识论制约。美国著名的计算机科学家D. H.伍尔伯特(D. H. Wolpert)和他的合作者麦克雷迪(W. G. Macready)在1995年和1997年相继发表了两篇关于NFL定律的奠基性文章,并在2006年的文献中作了更加通俗的解释。他们认为:“对于静态的和依赖于时间的优化问题,任意一对算法在所有可能问题中的平均性能是相同的。这尤其意味着,在某些优化问题集上,如果一些算法A1的性能优于另一些算法A2的性能,那么对于所有其他优化问题集也是如此”①D. H. Wolpert & W. G. Macready, “No Free Lunch Theorems for Optimization”,IEEE Transactions on Evolutionary Computation, Vol. 1, 1997, pp. 67—82.,“除非你能在看到任何数据d之前有先验的条件,生成数据d的(函数)f是你最喜欢的算法,是比其他算法性能更好的算法之一,否则你不能保证这个算法比纯粹的随机猜测的算法性能更好”①D. H. Wolpert, “The Bayesian and Computational Learning Theories”, in L. Nadel (ed.), Encyclopedia of Cognitive Science, Hoboken NJ: Wiley, 2006, pp. 4—5.。 NFL定律实际上从认识论上进一步揭示了数据的归纳推理,特别是在大数据条件下只有针对特定形式的数据作出了正确的先验假设,数据归纳推理才是正确的。哈特与他的合作者曾经证明,在二元数码存在着前缀码条件下,由于存在着普遍先验概率,“没有免费的午餐”定律在算法概率的归纳推理中不成立。但是,在大数据条件下,特别是在众多因素缠绕的情况下,二元数码的归纳推理面临的数据可能并不存在着一个前缀码特征。即使利用华莱士的最小信息长度原理或者里萨宁(J. Rissanen)的最小描述长度的统计方法也无法彻底做到万无一失的推理,因为数据假说的简单性和数据编码的拟合优度之间有一个平衡。所以,在大数据条件下如果不存在着前缀码条件,认识论上由于存在着NFL定律,数据归纳事实上并不存在着一个普遍的方法论准则,它可以解决所有函数类型的归纳推理。通俗一点讲,在海量数据面前,数据归纳只能做到一事一议。在这种条件下,数据归纳推理如果辅以数据溯因推理可能更加有效。

当然,受到“没有免费的午餐”定律的影响,数据归纳还存在着其他一些开放性的问题。比如,二进制字符串是否能够正确地表征经验对象。这里至少包含着两个相互关联的基本问题:一个是数据的语法与语义的关系问题;另一个是柯尔莫哥洛夫算法复杂性与概率公理问题。对于第一个问题,索洛莫洛夫就讲过:“映射技术尤其糟糕,它忽略了重要的真实世界信息。每当我们为正式的分析和预测制定一个真实世界的问题时,几乎总是需要省略信息。这是因为我们的世界非常复杂,包含了大量的信息。”②R. Solomonoff, “Inductive Inference Research Status Spring 1967”, RTB 154, Rockford Research, Inc. 140 1/2 Mt. Auburn St., Cambridge, Mass. 02138, July 1967.所以,数据的归纳推理可能绕不开语义问题。对于第二个问题,D-S证据理论的创始人之一谢弗(G. Shafer)提出,当在不确定性数据的概率推理中要考虑语义时,伊壁鸠鲁的多重解释平权思想不可取,置信概率具有非加和属性。③G. Shafer,“ Non-Additive Probabilities in the Work of Bernoulli and Lambert”, in R. R. Yager & Liping Liu(eds.) Classic Works of the Dempster-Shafer Theory of Belief Functions, New York: Springer, 2008, pp. 117—181.也就是说,柯尔莫哥洛夫概率的第三公理是不成立的。尽管这些问题已经超出算法信息理论的范围,但是从科学方法论上合理地解决这些问题,数据归纳的实践合理性将得到更加有效的提升。