刘伟伟,吴泽鹏
(山西大学哲学社会学学院,山西太原030006)
大数据分析是近年来在信息技术革命下所产生的一种全新的科学研究方法。本质上看,大数据分析依然是一种现代的统计方法,它的直接分析对象是数据,通过数据的可视化输出分析的直接结果——数据之间的关系结构,最终交给决策者进行审视和判断。自从图灵奖得主吉姆·格雷将数据范式作为经验范式、理论范式、计算范式之后的第四种科学研究的方法范式后,[1]ix-xxiv与“大数据”相关的论题为当下科学哲学的研究热点,然而尚未有人尝试为大数据分析这种科学研究方法在哲学层面上建立起一个可靠的理论支撑。众所周知,语境论思想作为一种在当代国内外哲学研究中有前途的研究趋向,已经得到了学界越来越多的认可与支持,它所具有的融合科学理性与人文理性、实现语形-语义-语用三元关联整体结构的方法论优势为传统哲学问题的求解提出了新的思路。笔者认为,大数据分析方法所具有的方法论特征与语境论思想有诸多契合之处,本文希望结合语境论的观点为大数据分析方法建立一个科学有效的思想基础。
在语境论的视域下对大数据分析——作为一种科学研究方法的科学性和合理性进行辩护——从数据的实在性这个本体论问题出发将是非常便利的,因为海量数据所描述的“数据世界”与哲学抽象意义上的“语境”之间可以建立起沟通的渠道。数据的实在性问题是与本体论的哲学范畴相关的,原因在于尽管当代哲学试图从“技术”操作的层面上回避传统的哲学本体论纠缠,但“本体论”作为一种“信仰”仍然会潜移默化地渗透进入哲学认识论问题理解的不同层面中去,而对于数据实在性的追问恰恰契合了这一当代哲学研究的典型思维特征——与之类似的是,语境论思想在某种程度上也为当代哲学问题的求解提供了一种可供选择的“本体论”基础。显然,这里的“本体论”意蕴已经与传统的哲学本体论在形而上学的层面上形成了较为鲜明的差异,其核心思路就是使得“本体论”更加具体化、明确化和实证化,这样才能够为传统哲学问题的求解开辟新的路径。一般来说,如果一种理论描述的东西在一段时期内是独立于人的思想和理论而客观存在的,我们就说它具有实在性。[2]7数据实在性的问题,则是从本体论上讨论数据与客观世界之间的关系问题。在小数据时代,数据是人对某种孤立事件的简单描述,数据与其所描述事件的对应关系是单一而不变的,因而没有必要进一步讨论其实在性的需要。在大数据时代下,海量数据的出现使得人们理解的“数据”不再简单地对应于某个特殊事件,全样本模式下的数据集合“同构”于客观世界而形成了一个具有整体性特征的“数据世界”。从语境论的角度来看,对于海量数据集合的分析即大数据分析,本质上这是一种将事物置于语境中去认识客观世界实在的有效手段。具体来说,数据容量的变化达到了一定的“度”而产生了一种质变,数据不再仅仅是一种对于事物简单的描述,而是变成了对研究对象的多角度描述,所涉及的是研究对象所在的整体语境,这种语境包含了许多过去无法直接量化的影响因素,例如历史因素、心理因素、社会文化因素、经济因素等非理性因素。海量数据对整体语境的描述使得在以大数据分析为工具的认知手段中,虽然以数据为直接的认知对象,但是最终的认知对象则是事物所在的整体语境及其背后隐藏的客观世界。而且,数据的实在性可以借助于客观世界的客观性和语境的本体性来获得解释:数据来源于客观世界,数据的客观性可以通过数据的真实有效性获得保障;从本体论的层面上看,语境对意义而言有着约定性和规定性的作用,即结合时间、空间和其他的一切可观测和不可观测的语境成分确定此语境下的特定意义,[2]252而海量数据对研究事物和研究问题所在的整体语境进行描述的同时,也是在语境的约定性和规范性作用下对客观世界的有机表征。
那么,如何理解海量数据是对客观世界的有机表征呢?首先要明确的是,通过庞大的数据向我们呈现出来的“数据世界”并不是对客观世界的直接复制,而是被建构出来的一个由数据组成的理论实体。[3]任何具有实在性的存在都是在相互关联中被表达的,语境论提倡在整个语境关系网中去理解实体。在进行大数据分析时,不论是数据的收集还是数据的分析处理都关联于当前人类的科学语境和技术语境,数据在被收集和分析时会参与到人与客观世界的互动中。原因在于,数据的收集能力被人类的科学语境和技术语境所限制,超语境即超过人类当前认识能力的数据都无法被人类设计的接受器收集到,只有在人类认识能力提升的基础上才会提升其数据收集的能力;但是对已知数据的分析又有可能进一步提升人的认识能力进而提升收集数据的能力,从而形成一种良性循环。对于已经收集到的数据,在接下来的数据处理中人们将发现数据与数据之间的相互关联,也就是数据的结构。数据的结构同时也是分析数据得到的结果,发现数据结构的过程也只能是在现有科学的理论体系和技术应用能力范围内所展开的计算和分析,同样不会超出科学语境与技术语境的限制。同理,人的认识能力的提升会提升现有科学的理论体系和技术应用能力范围,使得我们可以在对同样的数据进行分析时得到更多的数据结构,掌握新的知识。可以说,通过海量数据所建构出来的“数据世界”,是以科学语境和技术语境所提供的框架为基础的,大数据分析通过解析数据结构而反馈给人的认知结果,是被分析的数据在与人类的科学语境和技术语境互动时产生的。
当然,数据的结构不仅仅取决于科学语境和技术语境的规定性,数据结构是海量数据与包括科学语境、技术语境、历史语境、社会语境、认知语境等等多个维度语境组成的整体语境互动得到的结果。在这个语境系统中,不仅包含了可以用科学理性解释的因素,也包含了过去无法进行量化计算的非理性因素,而数据的结构更像是被协商约定好了的。被分析对象所在的整体语境会产生规定性和约定性作用,这使得被收集到的数据不再简单地对应着某物,还具有了同构于整体语境系统的实在性。
在使用大数据分析作为工具的认知过程中,分析的直接对象是数据和数据中的结构,而借助数据实在性所“具现化”出来的则是研究问题背后的整体语境,这使得探究问题背后的整体语境成为了大数据分析的本质对象。大数据分析对象的语境化,完美契合了语境论者试图将事物放到整体语境中去理解和分析问题的主张。那么,什么是数据的“具现化”呢?在全数据分析模式下,富有多样性且被规定了结构的数据集合正是对所研究事件的多角度描述,这种描述将语境这种理论实在得以“具现”,即把事件背后具有不可计算性和不可还原性的整体语境,通过数据的形式以一种可以被量化的姿态展现出来,这使得事件背后的整体语境可以依靠大数据分析的结果被量化计算而进一步被人认知。当然,这种可量化和可计算性并不是说我们可以把语境像数学和物理学那样进行类公式化的运算,具体对某个语境影响因素的还原分析还是无法通过大数据分析而得到实现。通过大数据分析所能够做到的,只是将整体语境变化对客观事物的影响程度以概率值变化的形式整体地呈现出来。
大数据分析对象的语境化迎合了语境论思想的理论主张,也就意味着我们可以将大数据分析看作是抽象的语境分析法在具体的科学研究中的一种实践。那么这对大数据分析这种科学方法来说,又有何意义呢?数据的实在性预设,解决的是数据与客观世界之间的关系问题,而把分析对象语境化则意味着我们能够借助语境概念解释大数据知识与数据和客观世界之间的关系问题。归根到底,人们使用大数据分析的目的就是要通过对数据的分析实现对客观世界的理解和认知。在大数据分析对象的语境化诠释过程中,虽然大数据分析的直接对象是收集到的数据,但是数据的集合同构于研究问题和认知活动所在的整体语境,这使得最终的认知对象变成了以研究问题为中心的整体语境,认知结果所得到的知识则是对数据结构或者说是语境关系网的一种表征。在语境论的视阈中,大数据分析以数据的实在性为基础,建构了数据、客观世界和语境三者之间关联互动的系统机制,这样就从本体论角度为大数据分析这种科学方法的合理性做出了辩护,同时也为接下来对大数据知识的论证提供了理论前提。
大数据分析作为一种研究方法和科学工具,要想完成人类拓展认知范围和强化知识生产效率的目的,其中必然要有认知主体的介入,而任何一种认知过程也都离不开主体和客体的相互作用,同时主体也是将各种潜在的语境要素联结为一个完整语境系统的关键成分。因此,在继续论证如何使用大数据分析生产知识之前,讨论一下大数据分析的认知主体是必要的。上文对数据与客观世界之间关系的讨论中,已经提到数据的产生离不开人的参与,数据反映的特征并不是完全由客体强加的,还来自于认知主体的主动性选择和功能建构。[4]更进一步说,数据的客观性问题是相对于人的主观性而提出的,数据实在也是建立在人类思想和理论上的理论实体。[3]不同于小数据时代,数据的收集和分析都是由人直接完成,在使用大数据分析作为研究工具时,认知主体不再是仅仅由几个人或者几个具有近似观点的研究团体组成,计算机和其他社会因素的介入使得大数据分析的认知主体呈现出复杂性和多元性,因此我们需要从主体语境的构成状况来解释大数据分析的主体语境转换。
具体来看,在以大数据分析为工具所展开的认知活动中,认知的主体语境能够划分为三个层面:(1)进行大数据分析时,直接的认知主体主要是进行数据挖掘和数据分析的计算机和人工智能。计算机只能严格运行一道道程序代码,目前还在发展的人工智能依然不具备人的能动性和主体性。之所以把它们视为主体语境的一部分,是因为计算机不仅仅作为一种工具替代人完成了很多过去只有人才能完成的任务,而分析数据的过程更是人结合客观世界中研究问题所在的整体语境,同时使用计算机和人工智能作为工具建构数据结构的过程,在这个过程中计算机和人工智能的功能代表了人的认识能力。(2)真正的认知主体是操作计算机和编写算法的人。他们在操作计算机和编写算法的时候,不仅将人的认识能力写入计算机程序中,也将人的主体性和能动性内在于分析过程之中,是大数据分析中主体语境的核心层面。(3)社会语境因素组成主体语境的外在层面,它对整个认知活动起着不可或缺的推动作用。科学家的求知诉求、政府的政策支持、企业的利益驱动、民众的普遍关注等等,将推动力作用到操作计算机和编写算法的人身上,进而影响着整个分析过程,推动着相关技术的发展和人类认识能力的进步。[5]进一步来看,海量数据的快速产生和实时收集流动促使认知主体语境的这三个层面紧密结合且积极互动:分析大量数据所产生的知识反馈到数据分析者和整个社会语境中,人类由此获得的认识能力进步加上由新知识产生的社会推动力,促使我们获得更多的数据进而产生新的大数据知识,在这三个层面的紧密结合和积极互动中,形成了一个完整的主体语境,从而为人类全新维度的认知过程展开奠定了基础。
显而易见的是,相对于小数据时代的研究方法,在大数据分析的认知活动中,主体语境的内容大大增加了,这使得在认知活动中主体性的表达受到了更多内在的约束;而且,在全数据分析模式下,认知主体的活动也会被采集数据,进入作为本质认知对象的整体语境中成为被认知的对象。随着人的主体性表达受到约束以及主客体之间不断发生角色交互,在以大数据分析为手段的认知活动中,主体语境中的“主体性”作用得到了一定程度的削弱,认知结果的客观性随着主体性的这种削弱得到了加强。具体来看,大数据分析过程中认知主体与客体之间的互动,使得人的目的和实践贯穿于整个认知过程,主体语境中预设的理论基础和前提不再刻板地制约人的认识能力,避免了主体偏见对认知结果可能产生的影响,进而形成“唯我论式”的主观臆想。这种主体性被削弱的特质在科学理论变得越来越抽象和超经验的今天将变得难能可贵。[6]语境论思想从语用思维的效用性追求出发,高度认同这种强调实践的认知模式。在这种模式下,人们从认识的结果而不是原因方面来考察产生的知识,突出强调生活实践中经验的地位。[2]360-361具体到大数据分析的过程中,从最开始的数据收集、数据预处理和存储、数据计算和分析,以及最后分析结果的可视化和人对分析结果的审查,都包含着主体语境中以发现问题和解决问题为优先的考虑,以及强调实践性和突出效用性的思维逻辑。从方法论上看,人们在使用大数据分析时所遵循的容错思维和相关思维,也可以结合主体语境的这种效用性追求而得到解释:容错思维抛弃过去科学研究中认知主体所追求的绝对精确性,实则是主体语境转变后的认知主体为了能够生产出相应的知识,结合实践中数据错误可能性和分析可行性的实际考虑,利用数据的庞大数量来淡化其中少量数据错误造成的影响,进而得到合格可用但并非绝对精确的分析结果;相关性思维一改传统认识论寻求因果性解释的态度,从数据之间的关联性得到的大数据知识,亦是主体语境为了更经济地发现和解决问题而放宽了对知识普遍性的要求。
总之,在以大数据分析为手段的认知过程中,认知的主体语境转换表现为由计算机、操纵者和社会因素三个层面所组成的紧密结合且互相促进的一个有机系统,再加上主体语境的组成部分也会成为被分析的对象而作为认知的客体,大数据分析的主客体之间存在了互动,最终使得认知过程中主体语境的主体性受到削弱,人的目的和实践也随着这种主客互动贯穿了整个认知过程。
大数据分析作为一种科学研究方法,使用它进行分析的目的必然是输出知识。大数据知识是通过对海量数据的收集储存、挖掘分析、可视化输出来反映数据之间存在的概率关系,进而反映客观事物背后语境关系的一种知识。然而,大数据知识是否具有作为现代科学知识的合理性,或者说大数据知识在什么样的语境下能够具有合理性,还需要进一步讨论。
在认识论的层面上讨论大数据知识的构成是十分必要的。上文中已经论证了大数据分析的过程,数据实在性的本体论论证和主体语境转换,海量数据对事物的多角度描述实质上在“数据世界”中“具现”了研究事物所在的整体语境,对数据的分析也就变成了分析客观世界中事物所在的整体语境,而认知主体与客体的互动使得主体语境也进入到整体语境中被认知,进而成为大数据知识的来源之一。从发生学的角度来看,由于将研究问题所在的整体语境作为广义上的认知对象,大数据知识内含了人的主观能动性和数据实在性带来的客观性,是认识论意义上的“合格”知识。首先,使用大数据分析时虽然看似在漫无目的地收集和分析着大量数据,但是分析得到的所有大数据知识都来自主体语境带来的实践要求,被人的目的性和社会因素带来的影响推动着。其次,所有的被分析数据都来自客观世界,它们的集合在“数据世界”“具现”为一种理论式和概率化的整体语境,因而分析得到的大数据知识也是对客观世界中语境关系的表征,其客观性由数据的真实性来加以保障。最后,数据之间的结构和概率关系,一方面来自客观世界,另一方面也是在主体语境与客体语境的不断互动中被规范和约定得到的,分析和总结数据之间的结构与概率关系得到的大数据知识同样离不开主体语境与客体语境之间的互动。这种互动意味着大数据知识不再符合基础主义和融贯主义所坚持的普遍主义知识观,而走向一种语境主义知识观:大数据知识不需要建立一个可靠的基础,因为它的“基础”是一直在变动和层次递进的语境;大数据知识也不需要一种逻辑自洽的辩护,因为它是从结果和实践出发得到的知识,在它之中包含了许多不可逻辑化、非理性化的修辞性语境因素。最重要的一点是,由主客互动得到的大数据知识,也在认识论的层面上超越了知识外在论和知识内在论在知识确证问题上的狭隘辩护,为此我们需要从语境主义知识观的角度,结合具体的语境进行解释学和修辞学性质的分析,来讨论大数据知识的合理性。[7]
大数据知识的形式是使用统计概率表示事件与事件相关程度的数据之间的结构,也是在海量数据所表征的语境中某一事件发生的可能性,再结合人的理性思维来展开具体的预测和判断。舍恩伯格也指出,“大数据的核心是预测,而此预测是基于相关关系分析法基础上的”。[8]75可是,概率形式的知识与传统认识论寻求确定的解释且执着于拉普拉斯式的决定论因果关系不同,相关关系无法实现精确的认识目标,从这个意义上说大数据知识具有反认识论特征。那么,大数据分析得到的相关关系是否与因果关系有着内在的联系呢,能否用语境论的知识观为大数据知识提供一种认识论上的保证?齐磊磊将相关关系细分为(决定论)因果、统计因果与非因果关系,而统计因果,也就是最简单的理想相关关系,是协调科学哲学的方法论与大数据方法论的中间桥梁,他认为相关关系内在地包含了确定性的因果关系,确定性的因果关系必定是相关关系。[9]将原因与结果置于整个语境中去考察其中的联结关系,也能得出类似的结论。可以说,语境论视域下的因果性是一种由科学、社会、历史、文化等因素组成的整体语境决定的性质,而随着认识的进步和认识语境的逐层递进,因果性也可能会发生改变。我们可以把相关关系理解为在语境关系网中不同事物之间的相互联系,这个联系中内在的因果性尚不能在当前的认识条件下被挖掘出来。例如早期的量子论先驱们建立了哥本哈根诠释,声称量子跃迁是瞬时、随机且不可观测的,而在经过几十年的科学理论进步和观测技术发展递进到新的科学语境层次后,耶鲁大学的研究人员在一次实验中捕捉到了量子跃迁循序渐进的过程,(1)证实了薛定谔和爱因斯坦基于自然因果性的推测。反观大数据分析方法,它在某种意义上类似基于哥本哈根诠释所建立的数学模型,这一模型使得人们能够跳出传统认识论的严格要求,基于当前科学语境间接地去使用统计结果中内在的因果性。从这个意义上说,大数据分析得到的相关关系中隐藏着尚未被认识的因果关系,大数据知识是超前于它自身所在语境的一种知识。
那么,大数据知识是由什么样的相关关系构成的?相关关系又是如何在某个特定层次的语境中运作的呢?这里先分析一下最简单的理想相关关系,即一个原因对应一个结果,这个原因在很大程度上是由包含所有可能的影响因素在内的整体语境提供的。相关关系并不是一个拉普拉斯式的决定论,原因对应的结果,即是在这个整体语境下出现特定结果,它的概率不是1,而是在0 到1 之间的一个数值。于是,这种最理想的相关关系就可以被表示为,在考虑所有影响因素下的整体语境中出现特定结果的概率。如果是在这种理想的相关关系下,那么在使用大数据分析时,全体数据代替了传统的随机样本统计,将所有发生特定结果的数据收集后,整体语境中出现特定结果的概率在数值上就等于全体数据中出现特定结果的真实百分比,人们根据此百分比值对未来事件的发生进行预测和判断即能得到大数据知识。然而,在使用大数据分析进行实际操作时,对事件与事件之间相关关系的分析并不是那么容易,这主要是溯因困难所导致的:(2)一方面,因为研究问题所在整体语境中与发生特定结果具有相关性的原因往往不止一个,而且原因与原因之间也可能会有相互作用,所以在实际研究中原因与结果之间不可能保持一种简单的线性关系;另一方面,从海量数据表征的“客观世界”中找到所有与结果相关的原因并对其进行量化分析和计算,这在实际操作中也不具备可行性。基于这种考虑,舍恩伯格提议使用更简单更容易数据化的关联物来绕开原因,直接对结果进行分析。[8]67这里举一个实际的例子来说明,在分析汽车发动机是否有可能发生故障时,这个问题所在整体语境中可能导致发动机故障的原因有发动机出厂时没有被发现的产品瑕疵、发动机的工作环境、驾驶习惯、路况、机械疲劳累积等等方面,这些原因要么难以在故障发生前进行分析,要么只能使用描述性的语言概括而无法对其进行量化分析。如果将发动机工作时的噪声、机械振动频率、行驶总里程作为关联物而将它们的数据收集起来,那么统计上述关联物与发动机故障的相关概率依然可以用来预测故障的可能性,可是对这些关联物的数据采集和分析就要容易得多了。正是因为如此,关联物与结果之间的相关关系才是大数据分析在实际操作中得到的分析结果,大数据知识也同样是人们根据这种关联物与结果的相关关系对未来进行预测和判断得到的。
虽然原因与关联物之间、关联物与分析结果之间都具有一定的相关关系,但是关联物与分析结果之间并不具有直接的必然联系,在这之中还有诸多具有不确定性的偶然可能,这使得大数据分析的结果无法具备解释和说明的作用。因而,大数据知识具有强烈的语境依赖性,一旦脱离大数据分析时对应的整体语境,大数据知识便不再具有广义知识概念蕴含的一般性特征。[10]大数据知识的语境依赖性在理论层面上是无法避免的,某一次分析结果的概率数值无疑对应着在静态的“数据世界”中这个事件发生的可能性;但是,在现实世界中,事件所在的整体语境是实时变化的,事实发生的可能性也不可能是一个固定值,这是统计过去与预测未来之间无法逾越的鸿沟,也是大数据知识无法进行因果性解释的最大缺陷。不过,预测结果与真实结果之间的误差绝对值,无疑相关于分析对象所在整体语境的变动速率,而实际操作中对同一事件的实时动态分析和对分析结果的二次甚至多次分析也能继续提高预测的精确性。况且,这种语境依赖性无法削弱或否定大数据知识在认识方面和实践方面的价值,大数据知识是从认知主体的效用性出发的,而得到解释性和因果性的科学说明始终不是大数据分析这种研究方法的必要选择,能够通过分析结果得到该怎么去做的建议就足够了。抛弃旧认识论下无视人类认知语境变化的普遍主义知识论,从而经济又有效地解决问题才是大数据知识的价值和大数据分析的目的所在。
使用语境论思想为大数据分析的科学性做系统的理论辩护,能够在本体论和认识论层面为大数据分析方法提供哲学高度的理论支持;另一方面,我们用符合现当代科学发展的世界观——语境论思想——解释和审视这种研究方法,也就在某种程度上确保大数据分析能真正成为科学研究的有力工具。本文通过语境概念预设数据的实在性来解决数据与客观世界之间的关系问题,然后解释大数据分析的主体语境并阐明这个主体在整个认知过程中的特殊作用,最后使用语境主义知识观论证大数据知识的合理性,由此大数据分析方法的合理性便能够获得来自语境论思想的有力保障——这不仅有利于深化人们对大数据分析方法的理解,促进这种研究方法在未来的长远科学发展,同时也从科学实践和科学应用上丰富了当代科学哲学的基本内涵。
注释
(1)详见耶鲁大学于2019 年发表在Nature 上的To Catch And Reverse A Quantum Jump Mid-Flight,该研究声称耶鲁大学的实验人员成功捕捉到了跃迁中的量子系统,这表明我们能够计算出量子跃迁在某个时间发生的概率,而不是像波尔和海森堡所认为的那样,量子跃迁是一个完全随机和瞬时发生的过程。
(2)有观点认为大数据分析方法是实现溯因推理的有效工具。虽然我们可以从大数据知识逆推发现影响结果的原因,但是这种溯因推理的出发点是已经完成分析得到的大数据知识,而且这是由人归纳得到。所以这与此处大数据分析过程中的溯因困难并不矛盾。