彭理强
(湖南师范大学公共管理学院,湖南 长沙 410081)
2015年,齐磊磊博士在《哲学动态》杂志发表了题为《大数据经验主义——如何看待理论、因果与规律》的文章[1],她在文中给出了“大数据经验主义”的定义,认为“大数据经验主义”是随着大数据方法的应用而兴起的一种“新”经验主义,其观点可概括为三点:1.大数据时代“理论终结了”;2.大数据时代因果性不存在了,由相关性来代替;3.世界的本质是混乱的,但又是数据的。建立“大数据经验主义”概念之后,齐磊磊从这三个维度论证了该观点与南茜·卡特莱特为代表的新经验主义者的观点的相似性。紧接着2016年,国内学者黄欣荣教授发表题为《大数据如何看待理论、因果与规律——与齐磊磊博士商榷》[2]文章,回应齐磊磊对大数据主义的概括过于以偏概全,并论证了大数据主义对理论的作用、因果性的存在和世界的规律性并不持否定态度,只是强调数据及其相关性在科学发现中的重要地位。2018年齐磊磊博士发表题为《大数据主义与大数据经验主义——兼答黄欣荣教授》文章[3]予以回应:反对黄欣荣教授将“大数据经验主义”简称大数据主义,“大数据经验主义”与大数据主义“和而不同”。齐磊磊博士坚持自己的“大数据经验主义”观点,其“提出‘大数据经验主义’概念是对时代特征进行哲学反思的产物”[3],至于大数据主义的观点“与黄欣荣教授商榷文章的立场也是保持一致的”[3]。既然齐磊磊博士认为其建立的“大数据经验主义”概念与大数据主义“和而不同”,那本文试图首先梳理大数据主义和经验主义的概念,然后从学术和社会应用上两个方面来讨论齐磊磊博士的“大数据经验主义”概念是否与大数据主义“和而不同”。
要阐明大数据主义概念由来及其观点,需要探究大数据研究中有影响力的代表性人物思想。大数据前期的代表人物是美国《连线》杂志的主编和主要撰稿人安德森,指出小数据时代的“假设—模型—检验的科学方法变得过时了……大量的可用数据,以及处理这些数据的统计工具,提供了一个全新的方式认识世界。通过相关关系而不是因果关系,即使没有清晰的模型、统一的理论,甚至没有任何机理解释,科学依然能够取得进步。”[4]最早洞见大数据时代发展趋势的数据科学家舍恩伯格提出,“所有的普遍规则都不重要了……重要的是数据分析,它可以揭示一切问题”[5],但同时并不否定理论在大数据中的重要性,他强调“大数据时代不是理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面。”[5]畅销书《大数据主义》的作者史蒂夫·洛尔最早提出“大数据主义”概念,他认为虽然数据具有不可思议的威力,“但是,方法论中仍然包括模型,这是毫无疑问的。理论没有终结,而是正在发展,并拥有各种新的外在形式。”[6]在推动数据库技术发展方面做出突出贡献的美国计算机专家、图灵奖获得者吉姆·格雷(Jim Gray)认为大数据成为一种新的科学发现范式,该范式与经验范式、理论范式和计算范式并列存在,相互补充,共同构成了科学研究的范式体系。我国学者黄欣荣教授认为“大数据主义者强调数据及其相关性在科学发现中的重要地位,但并不否认理论的作用,也不否认因果性的存在,更不否认世界的规律性。”[2]安德森、舍恩伯格、格雷和黄欣荣等都是大数据主义的代表人物,他们都强调在海量数据面前,科学规律的发现不一定必须从理论模型的假设出发,也可以直接从数据的相关性分析出发,让数据说话,大数据成了科学发现的新模式。“大数据的核心在于预测”[5],“全球数据圈将从2018年的33ZB增至2025 年的175ZB……2025 年,每个互联人员将至少每18秒进行一次数据交互。”[7]数据量如此巨大、人与数据交互如此频繁,以致从实用主义角度考虑,寻找数据间的相关性比因果性更重要。
因此大数据主义者的观点可以概况为:在海量数据面前,通过相关性就可以直接得到我们想要的结果,寻找数据间的相关性比因果性更重要,大数据在决策思维、商业模型、社会治理、科学发现等几乎所有领域发生变革。
经验主义是一种认识论学说,认为感性经验是知识的唯一来源,知识通过经验获得并在经验中得到验证。休谟(David Hume)是经验论哲学传统中最伟大的人物之一,对经验主义的建立贡献很大,尽管很多经验主义的具体思想并非完全起源于休谟,但休漠已经对经验问题给出了“最清晰、最一致和最无折衷的说明”[8]。休谟将经验视为所有意义和知识的唯一源泉,我们所有的观念都源于印象(impressions),印象就是经验。休谟经验主义导出了一个标准、一种证实、一对矛盾:任何非经验的都是无意义的,超经验的都是形而上学的;因果陈述的认识内容是对观察陈述的认识内容的简单概括;理性是不能超越经验的,经验是有限的和具体的,因此,理性思维的方式是不能理性地证实的,而经验的具体性和有限性也不能证实理性思维的结果(真理)的普遍性和无限性。休谟经验主义导出的这些问题的不同解决和发展,形成了经验主义的不同观点、流派和演变阶段[9]。
随着二十世纪科学革命的兴起,特别是数学和物理学的发展,自休谟以来的传统经验主义,在对科学理论的解释方面时常遭遇困难。由维也纳学派为代表的哲学家以传统的经验论哲学为基础,融合相对论与量子力学等理论,运用罗素的数理逻辑以及他的关于哲学即语言分析的思想,发展成为逻辑经验主义运动。我国学者张天骥认为逻辑经验主义者的注意力集中于科学的逻辑结构上,他们认为一个完整的经验科学知识论,应该包含检验科学假说的最终依据是什么、理论的结构问题、理论的确认程度问题[10]。逻辑经验主义主张:科学理论的认识来源于观察和经验;关于科学的合理性即逻辑性;关于检验即理论与检验的比较;理论能够被经验所“确立”。
从二十世纪五十年代初开始,逻辑经验主义继续迎来以汉森(N.R.Hanson)、图尔敏(S.Toulmin)、法伊尔阿本德(P.Feyerabend) 、波普尔(K.R.Popper)、库恩(T.Kuhn)等人为代表的科学史和科学哲学家们的批判。比如波普尔批判逻辑经验主义的归纳法不可靠,这样逻辑经验主义的基础方法论和逻辑主义的“合理性理论”(theory of rationality)也站不住了,因此波普尔提出证伪主义理论,他认为科学理论不能被证实,只可被证伪,并以此作为科学与非科学陈述的划界标准。波普尔认为科学的增长是通过猜想和反驳发展起来的,为科学知识的增长提出新的解释思路。为了摆脱波普学派们的诘难,经验主义者选择了“历史”的道路。历史经验主义认为知识的积累既不是归纳主义所认为的直线累积的过程,也不是证伪主义所认为的科学理论的替换过程,知识的增长是非累积式的科学革命的过程。历史主义强调各种选择理论的(包括概念、逻辑和背景框架上的)不可比性,强调了科学理论纵向发展的不可通约性,否认了科学知识的历史的累积性,抹杀了科学真理的过程性和发展性,抛弃了科学知识和科学真理的普遍性,从而陷入了不可自拔的相对主义,同时使科学事业变成了无理性的活动[9]。历史经验主义者的相对主义观点认为我们所认为的知识、理论、方法不过是科学家随意预设的一种功能,因为选择的任意性所以造成不同理论的不可通约性。相对主义彻底否认了科学理论发展的合理性和进步性。
通过二十世纪五十和六十年代科学史的新发现,科学家在不同的历史时期和不同的科学部门中运用的方法互不相容,似乎没有唯一的、永恒的科学方法,夏皮儿的科学观——科学实在论试图回答以上问题。“夏皮尔关于科学发展的模型是这样的:在前科学时期,我们关于这个世界的思想似乎来源于经验;到了后科学时期,则已有的知识,包括事实的,也包括理论的知识,便是推动科学向前发展的内在原因和理由。”[10]从此关于实在论与反实在论的讨论就像钟摆一样一直在摇摆不定。因此经验主义大致经历了传统经验主义、逻辑经验主义、历史经验主义、科学实在论的发展路径。
齐磊磊博士提出的科学哲学视域下的“大数据经验主义”新概念是否具有必要性和可行性呢?根据她的解释,“大数据经验主义”概念源于一种以南茜·卡特莱特为代表的新经验主义哲学观点,该观点认为物理定理不能应用于现实世界,“自然界中大多数发生的事是碰巧发生的完全不受制于定律”[11]。从经验主义的历史考察来看,南茜·卡特莱特为代表的新经验主义在实在论和反实在论的争论中完全倒向了一方,即认为理论不能反映客观实在,仅仅是为了“拯救现象”。因此 “大数据经验主义”的观点认为大数据技术的应用使得科学理论的模型已经不需要了,事实果真如此吗?
对于科学知识的考察和反省是科学哲学研究的中心问题,通过对科学知识的分析来达到认识论的提高是科学哲学研究内容(知识的划界问题和知识的进步问题)的重要命题。认识论是个体对知识和知识获得所持有的信念。经验主义作为一种认识论学说——与“理性主义”相对,首先不断地与天赋论学说及理性主义发生争议,并且其自身的发展路径在不断地作修正。如本文对经验主义思潮的由来和历史演变的梳理显示:源自休谟问题的西方经验主义,首先经历了从具体经验到抽象分析的逻辑经验主义,然后转向从理论陈述到历史范畴的历史经验主义,后来落入实在论的经验论的发展道路。似乎在科学理论的发现模式上,关于经验主义对知识建构和知识获得过程所起的作用还一直都在探讨中,没有定论。“西方科学哲学家试图理解科学的性质,提出了各种各样的科学模型,他们之间也产生了无休止的争论。”[10]因此从科学哲学的角度看,提出一个关于“大数据经验主义”的认识论的新概念是否能够完善我们对知识的认识呢?又或者可以帮助我们更好地发现事物运行的规律呢?计算机通过大数据的挖掘分析可以发现事物运行规律的相关性,通过尽可能大而全的数据,使用更加抽象的算法模型不断提高计算的精度(概率)是可以做到更精准的预测,但即便如此也不代表在大数据时代,算法可以逾越时间的藩篱,挖掘到所有未来的数据,逃避历史主义的诘难,实现完全归纳法的统计。大数据唯一能够做到的是提供尽可能全的历史样本,而没法做所有样本的数据采集,所以大数据技术采用的方法是对大量数据的归纳,具有传统经验主义特征;另外一方面,大数据主义观点已经论证大数据只是提供了一个新的科学理论发现的方法,但是不能取代理论知识的重要性。具体展开来讲,大数据技术的应用主要分采集和分析两个阶段,虽然大数据采集阶段没有人类经验的渗入,而大数据分析的算法模型以及对数据的解释是需要数理逻辑理论支撑的,渗透着数据挖掘者的意图,只是当数据量足够大时,对理论模型的依赖会越来越小,因此大数据技术突出的是传统经验主义的特征,强调的是数据对知识获取的作用,数据即量化的经验。因此大数据技术是传统经验主义的继承和发展,而非对理论模型的作用的全盘否定。齐磊磊建立在南茜·卡特莱特为代表的新经验主义之上的“大数据经验主义”概念是没有完全概括到大数据技术的“经验”特征的,所以也是不成立的。
社会应用中有没有这个概念建立的依据?比如用来描述一种社会现象?大数据对我们生活的影响无处不在,大数据主义概念已经在社会生活中产生,用来表征人类对大数据的总体看法和观点,并被很多群体认识和接受。比如大数据的代表人物安德森、最先预言大数据发展趋势的数据科学家舍恩伯格、预见大数据将发展成一个新的科学发现范式的计算机专家吉姆·格雷等都是大数据主义的代表人物,学者史蒂夫·洛尔在他的著作《大数据主义》中深刻揭示了大数据主义的社会现象观点:即大数据将引发在决策、消费者行为以及几乎所有领域的颠覆性革命。因此,大数据技术不仅在知识的发现、科学的进步方面成为一种新的范式,在对社会生活的影响、个体的决策方面都蕴含着力量。作为一种人文科技社会现象,大数据主义已经在社会中被普遍使用且达成共识,因此如果用“大数据经验主义”来表征社会现象的话,确实没有存在的必要性。
数字设备的大规模应用和大数据的采集使得数据生成和分析的新方法得以利用,从而为新的方式提出和回答问题提供可能。传统思维中受技术限制,人类只能观察和收集有限的数据,为了掌握事物发展的一般规律,人类倾向于运用理性思维,并通过长期观察后建立理论模型,然后用理论模型的演绎来把握和预测规律性,因此理论模型的重要性就摆在了突出位置,这是一种知识驱动的经验主义。大数据技术从数据集中提取知识突破了地域性、时间性和规模限制的瓶颈,从而使自然科学、社会科学和人文科学认识论的重构成为可能,这种重构已经在各学科中发挥了积极影响。在科学方面,获取大数据和新的研究实践已经导致一些学者宣布出现了新的第四范式,这一范式植根于数据密集型探索,挑战现有的科学演绎方法。目前大数据显然是一种颠覆性的创新,提出了一种新的科学方法的可能性,利用大数据的相关性分析可以直接预测结果,不需要或者减轻了理论模型的依赖,数据驱动的科学从根本上来说对现有的科学方法进行了改进,将归纳和演绎的各个方面紧密结合。随着时间的推移,大数据的应用会越来越普遍,新的数据分析也越来越先进,这将对现有的知识驱动的科学方法提出强烈挑战。伴随着这种转变,数据驱动科学的哲学基础,就其认识论和方法论而言,需要通过研究和批判,为新范式提供一个强有力的理论框架。这是基于本文对大数据主义及经验主义概念及其发展历程的梳理,结合大数据时代的特征后论证的大数据主义的精神特质。
很显然,齐磊磊博士“大数据经验主义”的概念建立的基石——新经验主义,夸大了大数据技术的“经验”特征,因为大数据技术并不认为源于数据的经验可以取代理论模型成为科学发现的唯一模式。大数据主义是传统经验主义的继承和发扬,是一种数据驱动的经验主义认识论,并可以用来表征大数据时代一定的社会现象,但是齐磊磊博士不认可自己的“大数据经验主义”就是大数据时代表征社会现象的大数据主义,而一再强调只是基于科学哲学视域下建立的科学概念,使哲学讨论的概念既脱离现实需要,又不具有理论依据,凭空制造了一个不成立的科学概念当靶子来批判,其答复黄欣荣教授的“大数据经验主义”与大数据主义“和而不同”观点是值得商榷的。