李 琳
(同济大学 人文学院,上海 200092)
伴随科学技术的更迭和互联网的极速创新,数字化进入了人们的日常生活中,全方位地重塑了人们的认知方式与经验表达。其代表成果之一的大数据也逐渐进入到科学技术和社会管理的研究范畴中,用大数据来表征世界已经成为当下认识社会和研究人类行为的一种重要方式,在政治、经济、教育、文化、科技等领域接连掀起了研究热潮。从哲学方法论来看,大数据与归纳实证主义联系紧密,既有沿袭之式又有超越之处,本文通过详细解读大数据与归纳实证主义方法论之异同,将对大数据能否成为崭新的知识生产方式运用至科学研究与学术研究中进行考察。
由于大数据所具有的超前性与混沌性,直到现在为止,学界仍未对其形成统一的概念与认知。目前来看,主要以本体论的界定方式为主。麦肯锡(McKinsey & Company)指出,大数据是指大小超出了传统数据库软件工具抓取、存储、管理和分析能力,超过任何一台计算机处理能力的数据群或数据集[1]。在一定的条件下通过计算机技术和统计方法,有目的地进行设计、获取、管理和分析,揭示隐藏在大数据中的模式和知识[2]。高德纳(Gartner Group)认为,大数据是一种高增长率和多样化的信息资产,借由新的处理模式而体现出更强的决策力、洞察力和发现力[3]。有学者认为,大数据作为处在科学形态由简单性科学向复杂性科学转型演化的过程中的新兴概念,还算不上一个严格意义上的科学概念[4]。《大数据时代》一书作者维克托也认为大数据并非一个确切的概念[5]。托尼·海伊(Tony Hey)倾向于将大数据作为一个整体来看待,认为大数据是一种新的范式[6]。不少学者同意此观点,并将大数据诠释为采用所有数据以分析问题和解决问题的方法[7]。吉姆·格雷(Jim Gray)则更进一步提出,以大数据为主的数据密集型科学发现是科学研究第四范式,可作为知识发现的新通道和新范式[6]。
综上所述,对大数据的界定倾向于一个相对概念。无论是从统计学与计算机学角度将其认定为一种数据集,或从经济角度将其定位为一种信息资产或财富资源,或定义为一种新的方法论,或定义为一种新的知识生产方式,各种定义都有其领域的背景特征和研究面向,这彰显了大数据本身的跨领域性与科学通约性。
普遍而言,大数据具有以下三方面特征。其一技术特征,大数据技术具有量大性和高速性。在大数据中,高达太字节的海量数据可以快速被存储与处理,并借由互联网的传播,在瞬时实现信息的传递与共享,突破小数据时代无法企及的技术瓶颈。其二内容特征,大数据内容具有多样性和价值性。丰富多样、种类繁多的大数据信息几乎涉及人们生活的各个方面,社会生活的数字化已改变人们日常创造和存储信息的方式,生产活动与消费活动等极具价值的信息都隐藏在了大数据中,一旦经过有效提取,从未展现于人们面前的巨大数据价值将凸显出来。其三方法特征,大数据的实践方法已与传统数据方法大不相同。一方面,大数据采用全体性抽样。相比于样本抽样的归纳方法,大数据得以立足于宏观、大量、整体的信息分析,将全面地考察问题的本质、特征、属性、规律和联系[8]。另一方面,大数据注重相关性。整体性抽样将更有利于显著地展露出海量数据中元素的未知相关性,能提供更为精确的模式定位、数据模型与分析预测。此外,大数据比之传统时代小数据采集方式,来源更具客观性。在样本采集过程中,人们常因各种缘由而有意隐藏或改变自己的行为,而大数据从整体渠道采集具有相对客观性,可全面、完整、客观地刻画研究对象。
当下,大数据已全面进入人们的日常生活,引入各个业务职能领域,成为社会重要的生产因素。但对于大数据相关的理论研究却相对滞后,无法跟上现有实践应用,对大数据方法的深入研究迫在眉睫。
归纳实证主义始于17世纪至18世纪的工业革命时期,主要通过观察、分析与总结的方式在自然科学领域获取知识并得出结论。归纳主义的思想源起可追溯到17世纪的弗朗西斯·培根,他认为在经验的基础上可以得出具有普遍性的结论或公理。以下通过归纳实证主义方法论和大数据的并置研究,来进一步探索大数据的研究方法。
在基本方法上,归纳实证主义运用归纳方法论,采用实验、观察、归纳的推理方法,从特殊个例到一般定律,认为普遍性结论与公理可以从归纳实证中产生。相比之下,大数据同样采取分析、观察、归纳的推理方法,运用算法推理从样本数据去推断总体情况,从已知推出未知,认为未来发展趋势可从数据算法中推导出来。
在基本原则上,大数据作为信息处理的新方式,与归纳实证主义方法论在诸多方面也有所承接。首先,运用大数据可推导出观察命题,并具有被观察命题所确证或否证的可能性。其次,在积累性原则上,大数据采用大量数据佐证,将使普遍性结论与预测更为显著,独立数据越多,结论可以累加式增长。再次,在归纳原则上,大数据能够从特殊数据与结论推导出定理。最后,在合理性上,构成归纳基础的大数据具有庞大的数据量,可以多次试验以验证在不同条件下均可成立,且不与其他推导出的定律相冲突。
在基本步骤上,传统归纳实证主义中主要包含观察—分类—归纳—结论四个主要步骤,而在大数据的一般步骤中,在包含了传统方法论的四个步骤外,加入收集与预测的步骤,并将研究步骤进行了整合和简化。在大数据中,一般具有观察—收集—分类—归纳—结论—预测六个步骤,而收集、分类、归纳、结论四个步骤即可被收归于大数据的具体算法分析过程中,即研究步骤可简化为,观察—大数据—预测三个阶段性步骤,即是对应放入大数据之前—放入大数据之中—放入大数据之后的三个过程节点,其中大数据算法推理即可视为黑盒子不透明式推理,意指大数据中的算法推理过程在计算机之中,除去算法工程师之外,他者一般不可见且无法理解。区别于传统经验主义,大数据因远超人类能力且以二进制方式运作,使得其在本质上有别于传统的数学证明和科学推导,保罗·汉弗莱斯(Paul William Humphreys)认为这必将导致认识论的不透明性,但他认为应不以人类为中心的认识论作为固有基础,为大数据采用了不透明的认识论立场进行了哲学辩护[9]。以上可知,大数据在基本方法、基本原则、基本步骤中包含了传统归纳实证主义方法论的全部意涵,并在此基础上有所简化。
大数据是针对整体性和复杂性的研究。传统的归纳实证方法在面对复杂问题时,多依据还原论将其分解为诸多简单问题来逐一完成[10]。但事实上,在放大简单问题和缩小复杂问题时通常可能出现相应的领域、条件、过程等各项因素的改变,而简单问题和复杂问题间的链式关系本不可控,这都在一定程度上造成了传统经验归纳方法的失效。相对之下,大数据归纳直面复杂性,将复杂现象作为整体进行研究。通过制定线性或非线性的规则和对应关系,挖掘数据间关系,使其生成并演化出复杂的数据图景,并以此建立模型开启预测,可见大数据在整体性与复杂性的研究中有所建树。
大数据的全体取样强化了正确概率,着重于对相关性规律的发现。传统归纳实证方法有重因果关系轻相关关系的研究特征,大数据则恰恰相反,以相关关系而非因果关系为主进行研究。此外,在传统归纳实证方法上,当有利的可佐证的数据越多,该结论为真的可信度越高。大数据采用全体性抽样归纳,大量数据对结论和定律支持程度与概率大大提升,支持大数据成为一种有效的归纳推理,在恰当的范围内保证从样本到总体的推理可靠性。当数据量增大到一定规模后发生质变,大数据可以使得完全不明显或是隐藏的相关性、趋势和规律彰显出来。
大数据简化了一般研究步骤,能与云计算、深度学习、人工智能等新技术相得益彰。大数据能够广泛参与到数据收集及数据挖掘中,大大简化了一般研究步骤。面对生成和积累的海量数据,人们不必像以前一样通过仪器和手工来观察或计算,而可以通过各种监测技术传递数据到数据中心,通过算法计算直接得到数据间的特征与关系。故研究者可以在一般研究流程中靠后的步骤,在得到数据相关结论与图景后才开始进行深入研究,且大数据与云计算、深度学习、人工智能等技术一脉相承,本身即具有完美的适配性,可以一同被纳入到科学研究中。
尽管大数据较传统归纳实证方法已有优化,但大数据仍然面临着理论困境,其中既有归纳主义的旧有局限,又有大数据自身特征带来的全新质疑。
1.大数据仍无法突破的归纳主义方法论的旧有局限
其一,归纳推理不为真。就方法论而言,大数据仍是对大量数据进行集合归类后通过归纳分类的方式建构起来,最后依据样本推导出结论,其仍然沿袭传统归纳主义实证的方法,故大数据也自然具有归纳逻辑的旧有问题,即归纳逻辑非演绎逻辑,不具有必然性和保真性,其结果不一定为真。事实上在大数据的应用中也经常出现此类错误,如谷歌在2008年发明了Google Flu Trends,本意为通过网络大数据实时对全球当前的流感疫情进行估测,但在2013年2月《自然》杂志的发文中指出GFT流感预测失败,其预测结果超过了实际监测报告的两倍。
其二,全体性抽样“N=所有”并非是现实指向,而是理论假设。尽管大数据标榜采用全体性抽样,但从客观来看,即使是最先进的技术,也不可能获得关于事物的所有值,大数据并非全数据。
2.对于大数据自身问题的质疑
其一,大数据的“白噪声”问题。大数据分析的重要步骤是将数据放入算法进行计算,但在计算之前,通常要经历“清洗”的步骤,让数据符合算法以供使用。大部分数据要经历一次清洗,而更多数据可能要经历二次三次甚至更多次的清洗,而与传统归纳实证方法中的人为清洗不同的是,这种数据清洗是大数据黑盒子算法的一部分,是不可控制的算法模式,故在清洗中,部分数据被算法当成白噪声,即随机误差而被删除,是无可避免的样本偏差和样本误差[11]。显然的是,大数据也未能规避此问题,这使得如何定位和阐释异常值成为大数据的难点所在。有学者认为,大数据中的小数据问题并不会随着数据链的增大而消失,只会更加突出[12]。
其二,不可控的算法与虚假的相关性。待数据清洗完毕进入流程后,大数据算法成为最重要的分析模板,大量数据经由大数据算法来进行分类归纳,除去计算机专业人士外,大部分人并不懂得其构建原理与执行方法,即前文提到的黑盒子般的运作模式,人们只能等待算法将结果呈现,这造成了大数据算法本身的程序正义,或者是过程正义是否能够彰显的问题。如亚马逊公司基于大数据学习而开发的审核求职者简历的算法,并不能基于“性别中立”来为所需岗位的求职者进行平等评级。因为通过大数据学习,该系统发现科技行业素来以男性为主导,故会给包含“女性”词语的简历以低星评级。可见,亚马逊大数据系统在符合开发者和计算机算法的框架下依旧产生了“性别歧视”的问题,且这种“性别歧视”毫无疑问反馈和影响了每一位女性求职者,这为大众对大数据的算法正义信任敲响了警钟。此外,随着样本数据越来越多, 统计上显著的相关关系也越来越多。但事实上,其中许多数据是不具有实际意义的,他们可能呈现出伪相关性、虚假相关性和偶然相关性,譬如谷歌流感预测失败也源于其中的虚假相关性,当在谷歌上搜索“头疼”时,搜索算法可能会将此结果和流感关联起来,即使人们本身与病情毫无关系。这种具有欺骗性的相关关系会随着数据的增多而指数式地增长,把人们真正想要探知的本质淹没在庞大的数据中。
其三,主体全面的“大数据化”。在走向数字化时代的进程中,对于主体的“大数据化”也应始终保持着警醒态度。数据本质上即是符号,在结构主义与符号学派的研究中,符号只具有表征性,其本身并无实质意义与指向。这意味着数据的符号化与人类真实的样貌和生活相差甚远,网络上的数据也不是真实生活着的主体自身。在许多科幻小说与科幻想象中,全面数据化可能带来的危害足以侵蚀人类生活。若一味崇尚数据化,真实世界本身将被遮蔽,符号失去其所指向的实存根基, 人类难免地滑入虚无主义的深渊[13]。
综上可知,大数据在基本方法、基本原则与基本步骤上承袭传统归纳实证主义方法论,但在观察实验与技术发展上又有所超越。但大数据未能弥补归纳主义方法论的先天不足,自身又深陷于数据与算法的实践构架与哲学意义的探讨中。
知识生产是对现有信息、科学技术、思想文化、伦理原则等知识的发明、创造、创新及复制过程,既是对原创性知识的创造,又是对现有知识的再挖掘与再创新[14]。在国外相关研究中,不少学者遵循实证归纳主义的进路,维克托和肯尼思认为以数据为源头、以数据为载体的知识发现模式(数据—信息—知识),正在逐步形成[5]。或以沿袭传统经验主义路径,Rob Kitchin认为大数据使科学知识生产的经验主义模型成为可能,“大数据经验主义”的研究范式已经诞生[15]。抑或冠以“科学发现的第四研究范式”为名,Jim Gray强调大数据与传统知识生产范式相辅相成,以共同构成科学发现的认知和方法体系,大数据研究范式是理论、实验和计算仿真的整合和统一[6]。在计算机发展导向中,数据挖掘和机器学习能提供一个自动的无须人为干预的知识发现系统,Paul Thagar认为在理想状态下,程序可通过提供结果来促进科学发现[16]。
国内现有研究则认为大数据带来了一种新的认识论范式的诞生,能挖掘过去时代所无法洞察的新信息和新知识。黄欣荣认为大数据提出了“科学始于数据”的知识生产新模式,增添了科学发现的逻辑新通道,拓宽了科学规律的范围[17]。从经验层面与方法层面来看,张晓强、蔡端懿认为大数据技术促使了科学研究与知识生产在研究对象、研究层次及研究类型上的转变[18]。一方面,贾向桐认为大数据强调了数据本身的自足性与独立价值,区别于传统科学研究的“理论—驱动”,将科学研究的新范式界定为“数据—驱动”模型[19]。另一方面,焦桐、肖源认为随着技术的更迭,传统知识产出机制已难以有效支持新技术环境下的研究,及时调整和制定新的知识产出机制已迫在眉睫[20]。在此语境下,文军、吴晓凯认为大数据能够同抽样调查、观察与访谈、实验等方法相互融合、相互补充与相互渗透,这种新复合研究方法对于认知系统的升华具有重要意义[21]。故苏玉娟认为基于大数据的知识表征不仅彰显大数据工具的个性特征,且具有普遍知识的本质特征,在科学、公共、经济、社会等诸多社会领域彰显价值,在包括政府等主体参与的大数据技术发展、平台建设、社会法治进程等实践中发挥了重要作用[22]。
就大数据知识生产的实践应用来看,大数据逐渐被各学科用于知识生产和模式挖掘。在理工学科领域,主要与物联网技术相结合,用于GIS遥感地理信息系统,挖掘相关的环境变化形式及人类行为模式,可广泛用于能源供给、城市生态环境检测、区域灾害应急等多个学科领域;在生物及基因学领域主要用于构建基因序列数据库,加快基因序列比对进程,以尽快解码基因并用于医疗建设;在计算机领域,以大数据为基础的云计算、深度学习、人工智能、机器人建设正是学科发展的最前沿。值得注意的是,大数据在社会科学中的全新应用,经由互联网,数据记录了个人或组织的真实行为,为社会研究提供了可靠信息和有力印证,既避免了研究过程中的偏见、误差和歧义,又填补了长久以来社会科学中定量研究的缺失。就此来看,大数据的广泛应用或许能够突破长久以来的自然科学和社会科学的研究界限,使不同学科的数据资源得以共享[23]。当下,大数据已逐步渗透到各个学科的文献研究领域中,研究者运用大数据可以便捷地对学科现有知识网络进行整理归类与归纳。
目前为止,对于大数据是否能够成为科学发现和知识生产的新范式,学界尚议论不休。从大数据的基本方法、基本步骤与基本原则来看,目前的大数据更类似于一种优化版或补充版的归纳实证主义方法,在归纳合理性和有效性方面有所建树,但仍未能弥补归纳实证主义方法论的本质缺陷。如果以库恩的范式学说或者是以拉卡托斯的科学研究纲领来看,大数据还远远不足以成为一个单独的科学方法论。虽然可以推动部分理工科及社会科学的研究,但要成为取代应用于现有学科与专业学科的归纳方法是不现实的。第一,大数据本身既有传统归纳主义的缺陷,又存在新的算法问题,故在知识生产的有效性、合理性、确认性上还存在较大的漏洞。第二,大数据目前的技术发展仍然有限,用于纯技术数据分析尚可,但一旦涉及相关关系及因果问题,难免需要研究者对于最后结论和预测的多层把关。可见,大数据是描述现状的最好工具,但不是最终解决问题的最佳方式,必须需要专业科学与大数据的紧密结合才能发挥大数据的重要功效[24]。第三,数据的来源与隐私的保护目前是不可兼得的问题,对大数据来源的伦理学质疑和对全面数据化的哲学思考将始终伴随着大数据的发展。
尽管大数据无法取代传统归纳方法,却最适宜处理信息时代所面临的混杂性状态,在科学研究与知识发现上是一种有效且可大规模推广的崭新模式,也将成为自然科学和未来社会科学的主流研究范式和不可缺少的技术工具[25]。为了更加深入地探索世界,急需新的推理模式,尤其是特殊到特殊的推理新模式的演化,大数据将担此重任,帮助信息时代的人们来探究未知的新趋势[26]。
利用大数据佐证并挖掘新的学科范式与框架。一方面,在科学理论已经较为成熟的学科中,可以通过大数据的挖掘与分析来对已有理论进行全方位佐证,强化样本概率和可信度,确认已有理论的正确度,坚实学科理论基础。另一方面,在学科范式和框架尚不成熟的学科内,则可以通过海量数据的挖掘,寻找数据之间的相关性以探索因果性,为找寻和创造新的理论和方法提供助益。
增强各学科大数据平台和数据库的建设。针对各个不同学科,建立科研活动的大数据整合与收集平台,通过云存储与云服务等方式实现各学科数据资源的集中管理和分布服务,创建各学科理论与范式的数据库[27];联合各地各校的科研数据系统与文献数据库系统,从时间与空间上打破资源配置限制,通过数据平台来高效地实现学术信息与科研资源的共享与合作[27];建立各学科知识融合与知识生产模型,通畅便捷地为研究者提供多层次、个性化、创新型知识服务需求[28];建立各学科数据平台与数据库来完善学科知识和方法的全数据化,并借此以数据服务反馈给所有研究者,推进知识学习与知识生产。
推进大数据的理论探究及实践应用的相关研究。当前学界对于大数据的理论研究和应用研究都较少,但大数据作为未来科技创新的重要发展对象,其各方面理论与实践都亟待学界探索。在理论上,相关性和因果性之争将成为大数据后续发展的重要问题之一。在实践上,大数据在学科研究中的建设才刚刚起步,对于大数据和专业学科知识的融合发展及大数据在知识生产中的算法建设都是研究的重点与难点,而大数据与学科建设的协同发展也可能成为未来大数据知识生产的重要应用之一。
大数据掀起了一场技术革命。一方面,大数据带来了生产、生活、教育、思维方式上的全方位变革,构建起规模巨大、类型多样、内涵丰富的数据世界。大数据时代下,经验世界、虚拟世界、数据世界共同构成了全新的生存空间。另一方面,应认清大数据的技术属性与局限,以合理使用大数据作为发展要义。大数据并非是终极,它尚无法取代传统的科学方法与经验方式,需要与传统方式结合才能最大发挥效用。但毫无疑问的是,作为一个经由技术发展演化而诞生的存在,随着技术的进一步演化,大数据必将具有更大成长性,其在未来科学研究与知识生产中将扮演越来越重要的角色。