随着互联网、云计算和物联网技术的发展,社会信息化和智能化程度不断加深,数据充斥着整个世界并“渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素”。①由此大数据(Big Data)发展得到全球性的广泛关注,并深刻地“变革我们的生活、工作和思维”。②作为新的流行语,大数据存续时间并不久远,也没有形成统一、明确的概念,但从近几年出现的大量文献来看,已经成为当前哲学、自然科学和社会科学领域关注的重要问题。目前,对大数据的研究主要集中在“技术”“资源”和“应用”三个方面:(1)从技术上分析大数据获取、存储、分析、处理、管理和应用等技术手段;(2)从资源上分析国家或企业战略、商业利益、产业发展、产权和法律问题;(3)从应用上分析其在商业、金融、医疗、社交、科研等领域的集约型、智慧型转变和创造新的价值。
在大数据时代,人们需要借助专门的思想和手段,从大量看似杂乱、繁复的数据中,收集、整理和分析“数据足迹”,以支撑对社会的预测和规划,以及进行商业决策等。“‘大数据’之‘大’,并不仅仅指‘容量大’,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来‘大知识’‘大科技’‘大利润’和‘大发展’”。③其中科学研究领域的应用既是大数据的重要来源,也是大数据发展的主要方向,更在认识论、方法论、伦理学等层面深刻地改变着科学哲学和技术哲学。
从科学哲学的层面来讲,大数据的出现正在促进科学研究范式的转变。吉姆·格雷(Jim Gray)总结认为,人类科学研究经历了实验、理论和仿真三种范式,目前正在进入“数据密集型科学发现”的第四研究范式。④在今后的科学发展中,基于“数据探索”的研究范式不仅能够模拟仿真,还能分析总结并得到理论。与格雷的立场相似,美国国家科学基金委员会(NSF)等6部门联合推出的大数据计划也旨在提升从大量复杂数据中获取知识和洞见的能力。马克·普林斯基(Marc Prensky)⑤、伊安·斯特德曼(Ian Steadman)⑥、罗伯·基钦(Rob Kitchin)⑦等也认为第四研究范式已经出现,对现有的科学研究范式构成挑战,科学研究正在进入基于大数据发现的新的研究实践。雷·常(R.M.Chang)等则认为大数据的出现为科学研究范式的转换提供了可能,与格雷等观点相异的是,他们认为科学范式的转向是可计算社会科学而不是探索性科学。⑧
在社会科学研究领域,推动变革的重要因素同样是“每一个研究领域拥有大量信息化的数据”,这将促使“大部分人文社会科学走向具有自然科学的特征”。⑨这是在社会科学研究领域对大数据将会带来革命性变革的重要预言,必然会对传统社会科学的研究产生巨大冲击。尽管大数据能够弥补社会科学产出不足的诟病,推进其“科学性”“计量性”的发展,但社会科学界对是否接受这项挑战似乎还在犹豫不决。从社会科学的“小数据辅助”研究传统向对“大数据发现”研究范式的转换,是否提供了一种新的研究框架?是否将“产生理解个体、群体、社会如何思考和行为”新的研究方法?大数据在“认识论层面如何影响社会科学”,“能否重塑社会科学”?这些问题目前还没有得到系统和深入的回答。
吉姆·格雷提出的四种研究范式包括用来描述自然现象的实验科学、使用模型或归纳法进行研究的理论科学、通过计算机模拟复杂现象的仿真科学和基于数据探索,实现实验、理论、仿真融合的数据科学。但格雷的四种研究范式主要是基于自然科学的发展历史而言的,对于社会科学来讲,人类对社会领域的认知要更为久远和复杂,大致经历了(1)与自然科学浑然一体的自然哲学阶段、(2)向自然科学学习却又不断分化的阶段、(3)对第二阶段进行反思与批判和(4)基于复杂性科学的重新融合阶段。这样看来,各阶段的社会科学研究范式与格雷的自然科学发展范式存在差异,其中(2)、(3)两个阶段基于实证主义和诠释主义的定量与定性研究方法甚至形成了社会科学研究范式的对立,这在自然科学研究中是没有出现的。因此,根据社会科学四个研究阶段的主要方法论,可将(1)(3)阶段的哲学思辨和定性研究称为社会科学研究第一范式,将(2)阶段基于实证主义传统形成的定量研究称为第二范式,将(4)阶段重新走向融合后的自然科学和社会科学研究范式统一,划分为基于仿真研究的第三范式和基于数据科学的大数据研究第四范式。故此,在社会科学领域,研究范式的演化与格雷总结的自然科学研究范式演化有所不同。(参见图1)
图1 自然科学与社会科学研究范式的演化比较
(一)第一研究范式:社会科学的定性分析
人类对社会的定性分析分为两个阶段:17世纪以前社会科学思想萌芽和综合累积阶段,以及20世纪60年代以来对实证主义和定量研究程序的反抗阶段。
第一阶段,从人类脱离动物界进入共同体文明时期,有关社会认识的思想萌芽就开始诞生。原始人类用宗教和神话的感性形象(有灵论)凝缩关于自然和社会的情绪联想。⑩对人类社会的自我认识和理解以“集体表象”“互渗律”的思维特征和“身体参与”“讲故事”的形式传播。进入奴隶社会后哲学从神话中分化出来,通过“思辨”建立理性“概念”,在强调逻辑严谨性和崇尚理性思维的前提下,对人与自然和社会的关系、社会现象以及人类社会发展美好图景的想象加以描述。建立了诸如“礼”“仁”“法”“正义”“民主”等社会科学范畴,形成了政治、伦理、军事、法律等社会科学思想。这一阶段的研究不区分自然科学与社会科学,对社会现象的观察也是笼统的,把所有知识大一统于“自然哲学”的体系之内,为自然和社会现象提供同一套解释系统。封建社会时期,早期的西方社会科学经历了漫长的停滞,导致狂热的宗教崇拜和盲目的虚无主义,经院哲学只负责对基督教信仰进行辩证,成为宗教神学的附庸。古代中国对社会的认知经历了汉、唐、宋三次发展高潮,以“文史哲浑然一体”的形态发展繁荣,并形成了“有机自然观”。
这一阶段社会领域的研究方法主要是类比和推理,以个人情感外推法、经院哲学论证法和经学注释法为主流。对社会的认识往往夹杂着学者的个人感受、经验、猜测、思辨或愿景,具有一厢情愿式的片面性、非客观性和前科学性,在经院哲学和经学注释中,甚至推崇抽象、空洞的推理和无限重复的正名考据与注解。这一阶段我们可以称之为对社会认知的哲学思辨,建立了朴素的唯物主义和唯心主义理念论、早期辩证法、演绎法、三段论与归纳证明、有机论的自然观和经验论等。这种早期的形而上学的探讨对推动后来的科学发展起到了巨大的作用,许多知识至今仍然是我们认识社会的出发点和基本准则,被誉为“在希腊哲学的多种多样的形式中,几乎可以发现以后的所有看法的胚胎、萌芽”,“希腊人对各门社会科学首先做出了分析性和逻辑性的贡献”。
第二阶段,即现代社会科学的定性分析。通常涉及(1)观察和记录事实,(2)分析、比较和分类,(3)归纳概括事实间的关系,(4)接受进一步检验四个步骤,是“自下而上”的研究路径。定性分析起源于19世纪,随着人类学、民族学和心理学等学科的发展而建立起来。其早期渊源也可追溯到古希腊时期的诡辩论者,其在实在、真理和知识等问题上持相对主义立场,并认为真理取决于情境、语境和目的。后在吸收维科“想象科学”和法国浪漫主义对现代理性科学的批判、狄尔泰“生命哲学”与“理解”方法论和社会科学领域对“社会行为”、“社会交往形式”研究等内容的基础上,在20世纪20年代与符号互动理论相结合,产生了定性研究方法。早期的定性研究主要凭主观经验和理论思辨进行,一度因社会调查运动而引人注目。但由于缺乏统一的方法论原则和规范性操作,随意性较大,在实证主义和定量研究占主导地位的社会科学研究领域中处于边缘地位。
20世纪中期以后,随着证伪主义、科学范式、精致证伪主义和知识无政府主义对定量研究哲学根基提出的挑战,自然科学研究不断发展产生的系统论、信息论、控制论、耗散结构、协同论、突变论、模糊数学、混沌理论和复杂性科学对传统机械决定论的动摇,以及人类社会发生的巨大变革,挑战了实证主义在社会科学研究领域至高无上的地位。科学意义上的定性研究在对定量研究的批判中逐渐发展起来。此后,在经历“语言转向”和“定性与定量方法论范式战”后,在计算机科学和信息技术的推动下,定性研究在20世纪80年代逐步成熟,形成了独特的概念体系、具体方法和理论,开发了规范化的操作程序和研究工具,个案研究、扎根理论和叙事探究等定性研究设计类型也得以开发,并出现了“参与”和“倡导”实践。这一认识社会的范式认为并不存在所谓的真实外部世界,现实世界就在“我们之中”,它由多重事实构成,是一种社会建构或话语建构,研究者和被研究者之间的关系是主观的,不可能进行客观分析,也不存在客观真理。要求研究者“移情式理解”行为的意义,用文字阐释社会环境,而不是简单接受环境。研究者重视实践和行动取向,强调将意义赋予经验或现实并做出不同的诠释,在持续互动中建构社会生活。
(二)第二研究范式:社会科学的定量研究
定量研究方法凝聚了人类对科学理念的长期探索。“提倡数量方法通常是由于数学的性质是作为一种精确的、不含糊的语言,这种语言能够更进一步拓展我们演绎推理的能力并超越完全口头方法的能力”。这种对于确定性的追求起源于古希腊唯理论、理念论和因果关系的哲学理念。在17世纪后半叶,自然科学摆脱了神学和经院哲学羁绊,现代唯理论和经验主义的实验科学获得发展,基于“观察-假设-实验”的归纳法提出了现代意义上的定量研究。同时,在社会追求更加精确的知识作为制定决策依据的需求下,研究者也开始转向对社会现象的定量研究。自然主义的社会科学诞生,社会科学试图通过模仿自然科学的方法和语言,用自然规律解释人类社会。在这样的背景下,孔德模仿自然科学,提倡以人类社会生活的整体为研究对象,采取“观察+实验+比较+历史”的研究方法创立了社会学并形成了经典实证主义。涂尔干提出了“社会事实”研究,《自杀论》展现了“一个建有正确性和精确性特征的经验性实证科学”。此后,概率论被引入社会科学研究,统计学(包括生物统计学、一般统计学和小样本统计理论)和心理学实验室创立,操作方法和实验设计原理、推论统计学发展起来,定量方法逐渐主导社会科学研究。20世纪初,在逻辑实证主义和操作实证主义共同推动下,基于实证主义传统的定量研究在社会科学研究领域占据了主导地位。
“数学方法应用在社会科学的方法论之中,对社会科学研究方法的思想和研究过程的逻辑、步骤产生了重要的影响”,在社会科学创立和发展过程中发挥了巨大的作用。通过定量研究,政治学、经济学等诸多传统社会科学学科获得了新的发展空间,特别是社会学得以创立并不断深化,社会科学学科分支呈扇形逐步细化和延伸,学科理论不断深化,与社会实践的结合也更为紧密。在当代社会科学研究中,“其他哲学倾向的研究范式并不构成对实证研究的彻底否定”。近50年来,包括社会学、经济学、政治学、管理学、教育学、人口学在内的社会科学总体向更为严格的科学主义取向、更为专业的方向发展,这在相当程度上是以统计学的广泛运用和定量研究为基础的。
从孔德开始,认为社会科学与自然科学性质一样,都是寻找和建立普遍规律,主张以科学的经验研究排斥形而上学的思辨和臆测。在研究中坚持归纳主义和价值中立,主张方法论的个体主义,对经验的检验不依赖于主观的感觉,而是逻辑的检验。其基本研究路径是“提出假设-验证假设”,遵循“观察社会现象—发现研究问题—收集有关个体的个性资料和数据—进行统计和分析—发现共性的、普遍的规律”的研究理路。但是由于社会科学研究对象的构成要素复杂多元、因果关系动态多变,研究对象和研究过程不可控性强;特别是社会科学研究对象——主要为人及其行为——的特殊性,在研究过程中并不能像自然科学一样进行重复性的实验;另外,社会科学研究数据采集和分析困难,所使用的历史统计数据从统计学的基本假设来看,也是不同质化的统计单元,这使得社会科学在统计和数据采集的绩效上就大打折扣。这三个缺陷极大地影响了社会科学定量研究的成效,造成了社会科学研究在模仿自然科学进行假设和假设检验时,更多地依靠研究人员进行主观建构。并且在研究过程中,社会科学研究往往同时采用真实世界的统计数据进行逻辑关系的建构和验证,以证明主观建构逻辑关系的正确性和科学性,定量模型与真实世界之间的随意切换,导致社会科学的回归检验常常十分脆弱,定量研究的逻辑关系往往不能真实反映社会系统的真实场景。
(三)第三研究范式:社会科学计算实验的仿真研究
以生命哲学和实证主义为基础的两大研究传统的形成,对社会科学的发展做出了重大的贡献,但同时也存在明显的缺陷。实证主义对客观规律科学性的追求陷入了还原论的陷阱,容易产生偏执的分析方法,热衷于穷枝末节,以牺牲全景式认识换取条分缕析。生命哲学试图摆脱实证主义的客观片面性,但却陷入了历史主义的泥沼,坚持历史事件的个别性,用特殊性和个别性取代普遍性的追求,陷入更繁琐的细节。由于科技革命和资本主义生产方式的快速发展,社会变化的速度日益加快,社会科学在这两个方面的缺陷更加明显,往往陷入学科细分和方法错综的密林,导致“只缘身在此山中”,从而快速失去对“庐山真面目”的整体性认识。“由于不是以适合人类社会复杂的和自由发展出来的特性的方法进行研究,社会科学受到很大的损害”,企图直接采用自然科学的研究方法,“曾经得出过于简单化的、谬误的和危险的结论。统计的采用往往给社会的事实加上一种貌似正确的虚伪幌子”。同时,社会科学对精确化和形式化的追求也导致了另一个问题:“当系统的复杂性日益增长时,对系统特征的精确而有意义的描述能力将相应降低,直至达到一个阈值,一旦超过,精确性和意义性就变成两个相互排斥的特性”。随着复杂性科学的兴起,人们对复杂性思维和复杂性的探索,不断加深了人们对“社会现象从本质上来讲更主要体现模糊性”的认识。
在此背景下,系统论和模糊性理论及其方法的发展,给社会科学研究带来了新的希望。马克思主义的社会冲突理论、贝塔朗菲的一般系统论和帕森斯等建立的结构功能主义为社会科学的系统论奠定了基础。20世纪中叶以来,全球化的极大发展在快速改变人类社会物质生产、精神生活以及思维方式、价值观念的同时,也产生了系列全球性社会问题,引发了广大学者和思想家的关注。复杂性科学的发展与人类对全球问题应对的需求,以及新技术的发展,特别是计算机技术的不断成熟,极大地促进了仿真方法研究在社会科学领域的推广应用。仿真研究以数学方法、计算机技术、统计科学、信息科学和控制技术等为基础,运用计算机编程模拟的方式,在虚拟环境中模拟现实世界可能发生的现象、发展的状态,甚至是对未来变化趋势的预测。在社会科学领域,计算实验方法的出现,“不仅仅是简单的研究技巧和具体方法的改进,更为重要的方法论意义是把现实社会系统转化成由智能主体构成的演化系统”。这个演化系统通过“人工个体”代替现实系统中的“人”,揭示社会系统中“个体微观行为和系统宏观行为之间的动力学机制”。
社会科学计算实验已经在多个领域实现,其中采用较多的复杂系统模型有元胞自动机、离散事件模型、系统动力学和基于主体的计算机建模(AMB)等。在解决全球性问题上,罗马俱乐部利用系统动力学建立了World Ⅲ模型,为推动可持续发展理论做出了巨大的贡献。随着约翰·霍兰(John Holland)提出复杂适应性系统(CAS)理论,基于主体的建模思想因其具有微观宏观一体化特征正在迅速兴起和广泛应用,成为社会科学计算实验的有力工具。在考古研究、种族主义、恐怖主义、宏观经济、文化传播、性别与继承、商业管理和土地政策等领域获得了令人惊叹的成果。基于主体建模的方法采用“多主体建模”和“非中心化思想”,借鉴非线性动力学和人工智能领域的技术,从社会科学研究的个体对象出发,采取自下而上的建模策略,通过对主体行为的刻画实现自下而上的宏观涌现。与系统动力学相比,ABM不是从定义系统的整体行为出发,建模人员对各层级主体的行为进行单独界定,全局状态是由个体与个体之间、个体与环境之间互动作用的涌现结果,实现了从微观层次的主体行为到宏观涌现结果的过程。
此外在物流管理、企业技术战略选择、危机管理、舆情控制和消费决策等领域也开展了积极的模型构建和仿真模拟,在土地利用与土地覆被变化(LUCC)、生态系统服务等交叉学科领域,建模仿真工作更是普遍。2017年,美国国防高级研究计划局(DARPA)更是推出了雄心勃勃的“地面真相”计划,旨在使用基于计算机的人造社会系统仿真,内置“地面真相”因果规则作为测试平台,以验证各种社会科学建模方法的准确性。
第三范式的产生突破了社会科学研究对象无法实验或无法重复实验的限制,实现了现实世界中成本巨大或者根本不可能获得的研究和实施环境,对了解和掌握社会经济系统的结构和功能提供了有效的思考方法和实验工具;打破了自然科学研究和社会科学研究的隔阂,促进了社会科学研究中的多学科融合;基于主体建模的方法更是解决了第二范式研究中因还原论导致的社会科学研究对整个社会经济系统的理解没有增加的困境。
(四)第四研究范式:基于数据科学的大数据研究
人类社会进入后工业化时代后,全球问题的出现使得人们意识到人类开始从对外在自然的依赖发展到对人的依赖。人类对社会内部危机的不安远胜于对自然现象的恐惧。人类对“及时认识社会的社会科学”需求更加迫切。全球化和科技的快速发展并没有使社会关系简单明朗化,而是让其更加复杂化、含混化,其结构和层次比以往更加错综复杂,变化也比以往更加瞬息不定。社会发展要求社会科学及时认识社会的同时,社会的快速发展又为人们认识它增加了新的困难。同时,由新技术革命导致的“第四要素难题”,使得计算机虽然能够对自然系统进行精确的仿真,但对人类社会的模拟却显得不尽如人意。“随着每一部机器的设计,人的精神(不是绝对精神)都把自己的一小部分外化为(技术的)自然,电子计算机把人的整个精神结构外化为自然,同时也使人的精神能用自己的这种外化的技术行为方式来研究自己”。因此,社会科学家希望人工智能能够提供一种关于思维和社会的模型方法,使我们对复杂的精神认识过程和复杂的社会现象进行精确的理解。但是由于计算机软硬件设计的困难和社会本身的复杂性,以及计算机在社会科学研究中第2位的角色,仿真模拟方法得出的结果“显得苍白,远离主流社会科学的方法,因此这种方法总是不被社会科学家们所欣赏”。
但是最近十余年来,随着互联网的兴起和实时在线数据的易得,这种状况正在改变。传感器网络、社会化网络、射频识别、通话记录、科学研究共享数据和复制性研究以及其他开放数据为社会科学提供了新的研究范式。与仿真研究相比,大数据驱动的社会科学研究具有以下六个特点:(1)在研究对象上,大数据方法面向海量数据,计算机仿真面向根据系统建立的数学模型;(2)在推理逻辑上,大数据依据数据归纳得出数学模型,仿真依据模型演绎得出计算结果;(3)在自动化程度上,大数据从数据获取、建模到分析预测,都是计算机自动进行的,而仿真研究只有仿真实验这一步是自动完成,仅占科学研究过程一小部分;(4)在解释力度上,计算机仿真模型基于假设的建模为理论解释奠定了坚实的基础,而大数据建模基于算法的自动化过程缺乏这样一个基础,解释力较低;(5)在角色地位上,仿真主要承担实验的角色,通过不断试验确定模型参数,而大数据则在科学研究中无论建模还是分析预测都占主体地位;(6)在基础设施上,计算机仿真可能涉及一台或多台计算机,而大数据则涉及更多基础设施,包括自动获取数据的各类传感器、连接用户、物联网与电脑的网络设施等。
在第四研究范式中,研究者们不仅直接以真实世界为研究对象,更加依赖工具获取或模拟产生的科学数据,运用数据挖掘工具进行统计和计算,进而对内容进行分析。在社会科学研究领域,由于“万物皆智能”“万物皆联网”引发了“万物皆数据”,出现了“计量一切”的趋势。社会科学研究的对象也从传统的人参与的社会系统和社会过程转变为现实世界和虚拟世界平行系统互动形成的数据网络。大数据成为社会科学研究与真实世界之间的拟态环境。随着在线人群、线上活动越来越普及,大数据将成为现实世界镜式反射。属性数据、行为数据和时空数据在大数据环境中得到融合,从这个角度来看,自然科学与社会科学研究对象将在大数据驱动下走向融合。在第四研究范式中,由于大数据记录了人们日常活动的行为记录甚至情感偏好,很大程度上解决了社会科学研究中数据采集的“观察渗透”问题,并可通过“数据清洗”和“数据脱敏”解决数据质量和伦理问题。此外,大数据驱动的第四范式将改变传统的假设驱动的研究方法,转向基于科学的数据挖掘的研究方法,将会在预先占有大量数据的基础上,通过计算得出之前未知的理论。
(五)四种研究范式的联系与区别
本文所说的社会科学研究范式不等同于科学知识范式,上述四种研究范式并非是从一到四逐渐替代的关系,它们都是我们认识世界、进行社会科学研究的有效工具,它们是人类在社会科学研究中的历史演化过程。四种研究范式从对立逐渐走向融合,逐步弥补各自缺陷,并在认识论、方法论上逐渐形成“通宏洞微”的连续谱。
由于社会科学在向自然科学研究方法借鉴和移植的过程中,对所研究对象本体论上存在“客观现实”“社会现实”“意义现实”和“符号现实”的认识差异性,导致了第一、二研究范式在认识论上的“客观主义”和“主观主义”,方法论上的“实证主义”和“诠释主义”,以及“还原论”导致的方法论个体主义与整体主义的对立。两者在实施过程中对“解释”与“理解”、“定量”与“定性”、“工具取向”与“实践取向”的对立产生了一系列在连续谱上处于两个极端的现象。在具体的研究中,很少有研究者坚持这种极端的立场,往往根据研究对象和目的不同,采用连续谱两端之间渐变的立场。但这种做法并未消弭两者的对立。批判实证主义和混合研究方法试图解决这个问题,并开展了有益的尝试,到目前来看最有效的做法即“从定性到定量综合集成”的系统方法,在具体应用中就形成了第三研究范式。
此外,第二研究范式框架下的社会科学的定量研究,其本质性的缺陷就是“用小数据来证明逻辑”,即用简单的数量关系来应对复杂的社会问题,用小数据、小样本来外推大数据、大样本的复杂非线性社会问题,由于统计回归内生性问题和数据上无法匹配,导致逻辑上的无法自恰;而大数据的优势就在于“用数据来发现逻辑”。在第三研究范式中,无论自上而下还是自下而上的建模路径都面临两大问题:一是计算机仿真模型的第2位角色,二是数据匮乏和有限的数据质量,这些问题导致了系统功能结构划分的前科学性或智能主体行为刻画的缺陷。第四研究范式的数据归纳和发现逻辑(理论)并进行建模的过程从一定程度上弥补了第三研究范式的这一缺陷。由于大数据分析技术的进步,更是促进了第一、二研究范式走向融合,海量数据的规模效应和全新特征使得定性研究和定量研究在资料获取和分析方法上逐步走向趋同。近年来在情报学领域的知识图谱研究、技术创新领域的TRIZ理论以及通过大数据挖掘进行精细化仿真等,进一步证明了这种融合的可行性和带来的惊人效果。
近现代西方科学和哲学史表明,以胡塞尔的现象学、孔德的实证主义和马克思的唯物主义为分界,西方现代哲学已经很少关心形而上学的本体论问题。从笛卡尔和康德以来一直困扰后世哲学家的二元分立问题终于能够在胡塞尔的现象学中得到统一,物自体(Thing in Itself)或本体(The Noumenal)、认识主体(意识)和认识过程融为一体——“现象即本质”。胡塞尔认为,现象流有一种“意动结构”,有其“深度”,这个“意动结构”将主体和对象统一起来,为认识绝对的存在提供了可靠性,并消解了哲学上的二元对立。现象学的认识论在其后的时代里得到了现代科学和技术发展的支持,并且成为后者坚实的认识论基础。所以,第四研究范式的转型并不会从根本上触动其认识论基础,而是一次方法论的革命和对认识论的发展,关于它对社会科学研究方法论和认识论的影响的争论聚焦在如下若干重要方面。
(一)从相关关系再次抵达因果关系
大数据是否像某些研究者所说的那样能够摆脱因果关系从而只关注相关性?这是个值得深入探讨的认识论问题。“大数据中一个耳熟能详的说法是:大数据长于发现相关关系,而非因果关系。但这可能是一个伪命题。如何从相关关系中推断出因果关系,才是大数据真正问题所在。”原因在于:其一,世界的本质在于现象的无限延展和运动变化过程。无论是在前三种范式阶段还是在大数据和数据科学所开启的新方法论阶段,都是经由抽象结构对世界本质进行概念性判断,并藉由抽象的概念性判断进行社会知识的建构操作。萨缪尔森处理经济人行为的方式给我们的启示是,我们需要使用从社交网络平台中提取的社会人的显示偏好替代社会行为,才能将这些数据用于社会研究,而这一研究的表层过程必将触及因果判断。其二,传统技术上解决网络大数据的结构和意义复杂性,包括异构性、语义或行为解析、宏观涌现和不确定性面临极大的困难,而数据科学和技术的进步正在克服这些挑战。
目前大数据对现象的呈现方式主要体现为相关性,虽然在大多数情况下,大数据并不能直接显示因果关系,现代科学和技术发展为依托的大数据和数据科学,从深度和广度两个维度加深对世界的认识,同时通过海量数据反映出来的世界直观背后的复杂结构,帮助人们不断修正抽象的结构模型,使其更加接近世界的本质。在之前阶段,人们通过建立结构模型和检验模型来达到对社会或群体行为的认识,而大数据研究最重要的贡献则是能够发现传统研究所不能分析的数据集之间的相关关系,这些相关性能够引导我们分析数据集之间、个体之间、人类群体之间的关系,以及信息自身的结构。相关关系虽然并不意味着因果,建立在统计显著性检验基础上的判断虽然不能直接告诉我们相关背后的意义,但它至少为我们对原因的探索提供了新的起点,大数据的作用是一个更加有效的计算工具,所以我们不必苛刻地使用严格的科学标准对其加以衡量。大数据在社会科学研究领域的应用相当于在方法论的篮子里增加了一个新的重要工具,它之所以重要是因为它指明了学术界和产业界正在上演的一种分析现象,它既是方法论的方法,也是分析的现象。正如有学者指出的“大数据的相关关系进一步展开了因果概念的重新刻画”,“相关定量分析的因果派生依据则构成大数据分析的因果基础”。
(二)数据与分析方法的进化
可以说,大数据分析的优势并不在于“数据”,而在于以海量数据为依托的更加先进的分析方法。早在2009年,哈佛大学定量社会研究中心主任加里·金(Gary King)教授就预言,随着大数据的出现和使用,整个社会科学研究的实证基础将会出现重大变化,甚至会加速定性与定量研究的大融合⑨。加里·金指出,当今社会,数据量不断膨胀,数据多样性程度不断提升,数据已逐渐成为组织变革和社会变迁的产物。大数据并不只是和“数据”相关,更多的数据并不代表更多的洞见,很多时候反而会加大数据分析的难度且无益于解决当下的实际问题。如果缺少新的分析方法,大数据就难以对社会发展产生积极影响。因此,数据本身并不是大数据革命的产物,大数据时代的关键在于运用科学的方法来分析海量数据并从数据分析中析出有益于社会发展和进步的观点。采用先进方法的大数据分析的相关结果可以对以前的发现给出更好的解释,加强对现有数据、理论和方法的解释,前三个范式的研究将因此焕发新生,使有争议的重大结构性问题和经典理论因为使用更加充分和趋于整体化的数据得以精细化再检验,从而发展得更加精致。
大数据之前可计算社会科学领域最具革命性的范式转变当属第三研究范式中的基于主体建模和仿真方法对计量研究方法的突破,并据此发展了基于主体的社会仿真(ABSS)、基于主体的可计算经济学(ACE)等重要的可计算社会科学研究领域。可计算社会科学融合了社会科学、计算机科学、数据科学、网络科学,形成了广泛的跨学科研究领域,并且正在实现对大数据的采集和分析。通过构造“人工社会”,ABM方法为理解非线性的社会交互行为提供了实现“社会”均衡的过程信息,在一定程度上实现了方法论层面的质性进步。但这种方法的实现门槛较高,因为太多对研究目标有重大影响的社会复杂性无法被考虑进来,难以确保获得真实社会的可靠知识,事实上,对于这一方法的适用性仍存在很大的争议。该研究范式对社会科学研究的推动显然受到真实世界数据采集的成本、社会行为和相应规则的复杂性、难以应对系统动态和演化等因素的制约。这种第三范式研究的局限性正在随着大数据研究的到来而可能得到解决。
正如加里·金的观点,随着大数据技术和数据科学的迅猛发展,社会科学领域的研究方法及其应用方式正在发生一些根本性的改变,正在推动研究范式的转化。大数据时代,在突破上述瓶颈方面可计算社会科学正在迎来新的机遇,数据和主体在线、机器学习、分布式计算、先进算法,能够为基于ABM方法的社会科学研究提供更加有效的研究设计和解决方案。数据和主体的在线改变了数据采集的成本和方式;在线和机器学习使主体行为和规则的形成方式从人为假设转化成自然演进规则的内生过程;除了私有数据和受保护的公共数据外,数据类型、采集对象和计算范围将基本不受限制;当各项约束大幅弱化以后,研究者的研究能力将得到前所未有的提高,而这种提高不再是发展专业领域方法论时获得的局部的改进,而有可能是一次整体的飞跃。
(三)学科融合:可计算社会体系
可计算社会科学的发展以及整合需要不同学科的洞见和方法,将成为社会科学研究方法论的关键议题。大数据和数据科学将淡化、沟通甚至彻底消除学科边界,将局部的还原论下的专业性社会认知和建构升级为广域的社会整体系统认知和建构过程。大数据和数据科学的价值在于驱动基于复杂因果关系的经济社会决策。社会的整体性涌现规律将得到可计算社会科学研究的回应。
人们正在试图破除大而不全的数据孤岛的边界,并且在全数据的框架下去统合传统的学科边界对数据类型的专门设定,这将为我们展现一种更好的方法论形态,抛却局部的、简单的因果链条,在系统整体的意义上来实现对复杂社会现象的认知。第四研究范式不仅是社会科学研究的基础性工具和规范,更为重要的是它将传统认识能够抵达的对象社会孤立的数据流进行了整合和连通,在科学家、决策者、专业工作人员和普罗大众之间建立了集中共享的新的社会和环境图式,催生了一体化、有机的、速度更快、关联更紧密、响应更敏捷的可计算的社会体系。
(四)社会研究的机能性进化
传统的社会科学研究用一套不同类型的探究系统对研究对象进行刻画,他们使用一套方法、程序、技术来描述和解释行为,检验假设,评估因果关系,建立新的知识。其中,伦克尔(Runkel)和麦格拉思(McGrath)提供了一个解析人类行为科学研究的指南框架,以便于我们理解大数据对研究方法论构成的影响。他们将研究按照类型分为四组,包括田野实验和田野研究、正式理论和计算机仿真、样本观察和判定任务、实验室实验和实验仿真。在上述分类的基础上,他们将不同研究类型按照行为系统切近真实的程度(横向维度)和研究操控性的强弱(纵向维度)置入一个特征框架中,发现社会科学对人类行为的研究在对社会行为的一般性认识、行为测量的精确性和情境的系统特征三个方面通常处于两难境地,即使用单一的研究方法论开展人类社会行为的系统性研究几乎无法同时在三个维度上同时实现最大化,选择一种方法论就意味着丧失选择其它方法论给研究带来的优势,这就是经典的研究方法论“三角两难(three-horned dilemma)”困境。
今天的社会科学研究方法论在数据采集的方式、研究程序的操控性、将每个方法论应用于特定的场景和一般可观察行为的程度方面,都开始呈现根本的变化并凸显出融合的趋向,它甚至正在削平在不同的方法论之间进行权衡的必要性。在伦克尔和麦格拉思的框架中,研究者理想的研究是希望能够同时强化社会系统研究的上述三个方面。而第四研究范式中大数据的特征表明数据在切近对象真实的同时可以完全兼顾宏观结构,这种变化决定了研究的主观操控性也正在弱化,在此维度上意构的重点转而强调数据分类方法或者是能够同时兼顾现象分析的深度和整体性。可以说,即使不能消除全部的两难问题,第四研究范式在解决社会科学研究方法论选择的两难方面的进步已经意味着社会科学研究的机能性进化。
(五)认识论的延展
尽管第四研究范式并不会触动近现代科学发展的认识论根基,但它却发展了我们的认识论。康德以后科学认识论经过了笛卡尔、牛顿、维特根斯坦、波普和库恩等关键人物的发展,社会研究则经由涂尔干和马克斯·韦伯在现代的西方科学领域形成了两种基本的认识论和方法论发展进路——欧洲大陆的解释主义和英美的逻辑实证主义。其中,解释主义继承了解释学和现象学的传统,反对将自然科学中的中立式观测(Neutral Observations),通用法则(Universal Laws)应用于社会科学研究。同时解释主义的支持者,即解释主义者(Interpretivist)认为现实世界中具体事物的含义是由社会人的思想构建形成的,因而允许多种对世界的不同认识同时平等存在,这一观点在自然科学的实证主义哲学观中是不可接受的。实证主义则建立了首先基于现象先验地提出法则性命题,再使用数据对理论进行检验以证明理论的合理性的认识论。
社会科学研究的大数据时代来临之际,需要我们将新的方法与已有社会研究方法和理论联系在一起,特别是在大规模的特征观察与个人和群体的实践结果之间建立联系——建立更大的社会学图景。在大数据时代的社会研究可能不再需要我们做出理论预设,而是在大数据分析得到的奇点相关的引导下建构因果和结构关系,进而发现其中蕴藏着的知识或规律,这种认识论上的发展更像是对解释主义认识论的延展。数据即现象和经验,“科学始于数据”而非直接观察和传统测量,是对解释主义认识论下的直接的社会观察的替代,替代的理由则是更高的精确度和整体性,它延展了知识发现的新途径和新方法。
一些直观的经验表明大数据能够更好地支持预测性的研究,比如谷歌利用大数据分析出了未来可能会发生的事件。美国权威研究机构加特纳(Gartner)认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资源。”大数据并不是一项单独的技术,而是新、旧技术的一种组合,它能够帮助研究者获取更可行的洞察力。因此,通过管理大规模数据,以合适的速度、在合适的时间范围内完成实时分析和响应。数据质量和算法在大数据预测中扮演着核心的角色,只要所定义的变量能够很好地满足预测的需要,则对于适度规模的数据,相关度和质量越高,找到原因和结果的可能性也就越大,预测的结果也就越可靠。
目前看来,大数据在商业领域的应用已经取得了很大进展,特别是在人的消费行为分析、商业决策和营销、有目的的社会群体行为研究和监控、舆情的社会影响等领域,基于在线社会大数据的应用和研究确实已经有效改善了很多商业项目和社会公共项目的质量和进程。
(一)以往社会科学研究的局限
1.社会科学的目标弱化
现代意义上的社会科学是在18世纪欧洲出现大变革的时代产生的,其最初的愿望是希望在一个牢固的基础上组织社会秩序,或帮助经历了社会解体或正面临类似威胁的国家重建社会一体性。因此,社会科学诞生的初衷就是希望“考察研究人类社会事象之运行,是否有其客观的原理原则,寻出原理原则后,即应依照之以重建社会,使其由破坏衰弊再回复到繁荣康泰”,追寻社会现象客观原理、原则及普遍规律,并在此基础上实现建设理想社会的目标。恩斯特·卡西雷尔(Ernst Cassirer)指出:“尽管历史学不可能预告未来的事件,只能解释过去,但是人类生活乃是一个有机体,在它之中所有的成分都是互相包含互相解释的,因此,对已经逝去的过去的新理解同时能给予我们对未来的新展望,而这种展望反过来成为推动我们的理智生活和社会生活的一种动力……认识是为了能够预见,预见是为了指导行为”。
但是,当社会科学正雄心勃勃试图发现社会运行普遍规律的时候,工业革命和资本主义扩张带来的快速而复杂的变化在社会科学家面前迅速展开,并要求其“去发挥新的想象力,提出新的概念,发展新的理论,提出解决社会问题的新方案”。社会科学开始集中于研究和解释社会现实的特点、性质、功能与变化,社会科学的重点很快就“由方向转到了方法,由抬头看目标变成了埋头找出路”,就如同“暴风雨来临前需要预测变化,来临时只需全力应对变化一样”。同时,由于社会科学研究对象的特殊性,以及研究方法的限制,导致(1)宏大理论产生的同时,往往缺乏实证经验进行证明,从而引发长期的争议,直到新证据的出现;(2)无法像自然科学一样实现纯粹的空间和完全受控的实验,在实验上无法实现时间的超前性;(3)社会运行具有不完全重复性,预测会产生“俄狄浦斯效应”,因此,在社会科学发展的历史中一直存在对“社会科学”倡导者所做的概括工作(即建立社会普通法则的工作)持一种怀疑甚至敌视的态度。“我们现在生活在一个不平常的世界里,不论我们观察哪一方面,在精神文明和物质文明的任何领域内,我们都觉得是处在一个极严重的危机之中,这种严重的危机,在我们全部私人生活和社会生活上印上了许多纷扰和动摇的症候。很久以前,在宗教和艺术领域内现在则在科学园地内难得找到一个不会被人怀疑的基本原理,同时也难得找到一个无稽之谈是人所不相信的”。
2.社会科学内外部形成对立
正是由于社会科学的这一转向,此后又为了在高等教育发展的院系斗争中获取权利,导致了社会科学快速膨胀和多元分化,在学科体系、研究范式、研究方法上争论不休,在不断分化的过程中形成了学科、学派之间的对立,丧失了对社会科学研究“究竟要建构一个怎样的社会,这个社会最终将走向何处等涉及学科根本方向问题”这一目标的探究,对社会科学失去了整体认识,慢慢走进了学科细分和方法错综的密林深处,在条分缕析中走向细枝末节,层层分解又层层否定。“在今天,人们提出与昨天所说的话完全相反的主张,在这样的时期,已经没有什么真理的标准,也不知道科学是什么了,我很悔恨我没有在这些矛盾没出现的五年前死去”。
分支和派别的日益庞大,在社会科学的发展过程中导致了其内外部的对立:社会科学与自然科学、人文学科的对立,社会科学内部各分支的对立,实证研究、诠释研究和批判研究范式的对立,方法论个体主义和整体主义的对立,定性研究和定量研究的对立。甚至造成了“两种文化”的对立,成为“单向度的人”、“半个人”时代。学科分割和内外部的对立导致的碎片化,使得社会科学无法把握学科方法和社会整体。直到第三范式出现,罗马俱乐部在全球系统仿真所做的尝试,复杂性科学兴起,交叉学科和边缘学科的不断发展才出现了学科综合的趋势。
3.有限数据的质量问题
但社会科学还面临着另外一个严峻的问题:数据匮乏和有限数据的质量问题。这其实包含了多个分支的子问题:(1)描述的模糊性问题,也就是社会科学概念的“可操作化”和“可操作性”问题。由于社会科学很多概念没有结构或结构不完整,存在着“模型化”和“数量化”的困难。雷诺兹认为即使是经济学,其衡量的精度企图达到物理的精确度,也存在众多比较模糊的集,如价值、劳动、社会必要劳动时间等,既没有严格的外延,也无法找到最小单位量值,从而不能精确测量。更遑论如“幸福”“获得感”“正义”“伦理”等宗教性、信仰性、道德性或感觉性的意义问题;(2)社会测不准或观察渗透问题。测不准即使在物理学也同样存在,在社会科学中的表现更加突出,人与人之间的交互、情感信息干扰、坐标原点和利益的认识效应等都会加重这一问题;(3)小数据、小样本的问题。由于社会现象的复杂性,不可能穷尽各种因素和可能性,对其研究多采用抽样方法进行,并用简单的数量关系应对复杂的现实世界。数据收集受到抽样技术、分析方法、调查成本和接触范围的限制较大;(4)数据质量控制的问题。社会科学的资料和数据不能直接表现为经验证据,是根据人的解释建构而来的,因此无论定量研究的调查数据还是定性研究的资料,都受到研究对象表述时的“偏好”“记忆”“语言”以及研究者“理解”的影响;(5)生态谬误的问题。不能从整体层次或生态数据研究中做出个体层次的结论。
(二)大数据重塑社会科学的目标
1.重建社会科学预测的可能性
解释和预测是科学研究的两大目标。但在社会科学发展的过程中,“预测”由于学科过度分化和“不完全重复性”“俄狄浦斯效应”而受到摒弃,甚至不少人认为人类行为都是随机的,都是小概率事件,都无法预测。社会科学也因为没有形成漂亮的演绎体系,以及在必然性、心理习惯和因果关系解析上的弱势使其一直处于“弱解释力”和“低说明力”的状态。但是,这种状态是我们处在“收集、分析、储备、再使用数据成本非常高昂而耗费时间”,以及理解世界的方式和方法处在小数据环境下形成的。“学术思想和研究的演变过程受到特定历史条件下研究方法和分析手段的深刻影响”,我们不能因为以前未具备相应的研究方法和分析手段而不能达到预测的目标而将其抛弃。马克思也认为“哲学家们只是用不同的方式解释世界,而问题在于改变世界”。社会科学应该具备“回顾与展望的双重的世界观”。
在大数据时代,“建立在相关关系分析法基础上的预测才是大数据的核心”。大数据概念从首次提出确定的两大目标时就与社会科学不谋而合:通过描述刻画海量数据的潜在模式进行预测,发现数据中有价值的模型和规律。大数据在社会科学研究多个领域进行预测并获得成功也说明了这一目标是可实现的。因此,许多学者对人类行为的可预测性表达了乐观的看法,认为人类行为“遵循这一套简单并可重复的模型,这些模型则受制于更加广泛的规律”,人类行为的“可预测性比任何人想象中的都要强”。当然,真实的描述“未来细节,精确预测其进程和时间发生”是不可能的,这也将从根本上违背科学研究的极简主义法则。但对未来进行“趋势性”“概率性”的把握则是完全可能的。大数据将会引导社会科学研究从定性研究重视人的关系的“事本”、定量研究把人看作“物”的“物本”、仿真模拟研究把人看作实验对象的“样本”,真正转化到“以人为中心”的“人本”时代。大数据正在形成的系统犹如社会的大脑,充当了“社会性记忆合成”的主角,原本被悬置的社会学研究目标和方向,有可能在大数据的驱动下,以全新的、实际的形式重新展现出来。
2.推动宏观理论研究发展
社会科学发展至今,虽然分支众多,学派林立,但大多数研究均可以追溯到少数立足宏观层面描绘和理解社会结构与变迁的典范性学说、启发性和诠释意义的概念、假说和理论。20世纪60年代以来,由于生态谬误的存在,在实证主义传统与“调查革命”结合后,微观数据收集和模型分析逐渐增多,社会科学在宏观层面研究相对不足。一方面宏大理论提出相对减少,另一方面经典理论难以得到实证检验,社会科学进入了“后大理论时代”。信息技术的兴起和大数据的发展扩展了人类的经验范畴,在宏大理论和实证经验之间架起了桥梁,使得社会科学家以全新的相关性数据,在超大数据规模和时空跨度上为经典理论提供实证证据。同时,大数据因其“全样本”“高容错”“数据挖掘”等优势,为社会科学宏大理论发展提供了“全景式”认识世界、发现和提炼新的重要理论的可能性。
(三)大数据消除社会科学内外对立
1.促进内外部学科之间的融合
自然科学、社会科学和人文学科知识是学术建制和教学科研管理制度上的区分,但不应该抹杀它们之间的密切联系。“科学,不应该是支离破碎的,所以,我们需要跨学科的努力”。从20世纪中叶开始,由于复杂性科学和模糊数学、信息技术的发展,科学研究在经历了长时间的不断分化后,又开始了在分化基础上的综合,出现了交叉学科和边缘学科等跨学科的努力。第三研究范式的出现,已经打破了自然科学和社会科学之间的隔阂。美国圣·塔菲研究所、谷歌研究院等跨学科研究机构和各国高等院校开始用复杂性科学来描述社会经济系统中的复杂现象,提出了复杂适应系统、社会网络分析、可计算社会科学、社会控制论等一系列新理论。在众多计算机仿真研究模型中,同时考虑了自然、社会及两者的交互。但是,由于自然系统和社会经济系统在数据上的异质性,社会经济系统多变量的复杂性和社会科学量化、数据采集的困难,两者的融合在当时依然需要更深层次的支持。
大数据研究的兴起,在一方面建立了全新的基于传感器、智能设备和网络大数据的科学研究基础设施,大数据“随处可见”和“难以理解”的特征使得对其获取具有非学科性的特点,对其搜集、存储和搜索本身存在较低的“学科定制性”。这使得不同学科之间的研究对象有了同质性的基础,打破了小数据时代学科差异下数据搜集和使用“各自为政”的状态,促进学科交流与融合。另一方面,大数据不断广泛和深入的应用,推进了相关分析技术的普及。来自政治学、经济学、语言学、传播学、人类学等社会科学的研究者开始联手计算机、物理、数学、控制等大数据技术界的专家和生物、地理、环境、水文、气候等自然科学的学者共同采用大数据分析技术开启了规模更大、参与更广的跨学科合作研究。这也为在计算机、人工智能、数学以及其他自然科学领域具有专长的学者联合或直接转型成为社会科学家提供了机会,也为社会科学不同学科领域内的专家开展交叉研究与转型提供了基础。
2.定性与定量研究方法的综合集成
虽然从20世纪60年代开始,社会科学就试图通过混合研究弥合定性研究和定量研究两大范式之间的对立,但并未取得十分良好的效果。从某种意义而言,大数据的使用促进了定性与定量研究的综合集成。第一,大数据使得定性和定量两大阵营之间出现了一个混合地带。大数据的非学科定制性促进了定性研究和定量研究在资料获取、分析和分享方法上走向趋同。第二,大数据重新定义了两者的关系,使得两者既可以互相转化,又可以相互合作。大数据分析方法使得原来的定性研究资料可以采用定量研究的方法进行研究,并对定性研究结果进行修正或补充;定量研究重新审视“描述”“叙事”“话语”等在定量分析中的地位,收集的数据也得以使用定性研究的分析方法。第三,大数据提供了新的定性定量结合的方法,即在原来混合研究或仿真研究“定性是定量的基础,定量是定性的精确化”的基础上,通过对大数据的描述(定性)和可视化、抽取变量进行回归(定量)相结合的方式,达到“从定性到定量综合集成”;同时,大数据在特定领域内的高端技术运用,正以“块数据”的形式呈现出质的研究功能。大数据研究将同时出现在定量和定性两大阵营之中,并进一步缩小定性定量分析方法的鸿沟。第四,拓展了定性研究和定量研究成果分享的渠道,“开放存取”和“复制性研究”的兴起使得定性研究和定量研究在相互共享成果(研究思想)上提供了便利和基础,同时信息可视化也可以帮助定性研究和定量研究以更直观、多样化的方式展示各自的研究成果,以方便不同领域或研究方法取向的学者更方便的理解。
(四)大数据提升社会科学研究的“科学性”
1.提升数据质量
大数据将大大改变传统社会科学以抽样调查为基础的数据获取和分析方式,从数据支撑层面提升社会科学研究的“科学性”。(1)大数据改善变量的测量。在大数据环境中,个人和环境将会“不自觉”“不自知”地加入数据搜集的过程中,数据获取从观测上升为感知记录,优化了变量的“测量”。大数据技术通过智能终端、物联网、云计算等技术手段来“量化世界”,各种延伸和拓展人类感官感知能力的技术设备层出不穷,乃至于完全或接近完全取代人类对外部世界的直接感知,通过把数据呈现给人类,成为人类认识的来源。我们所知的世界将会全部是数据表达的。(2)全样本的整体性分析,田野研究与实验研究的统一。大数据时代可以分析与研究相关的更多数据,甚至是多源异构数据,而不再依赖于单纯的采样。大数据可以通过海量规模的全样本直接呈现或发现社会现象或规律,既不需要控制变量来检验关联,又能避免选择方面的样本偏差。(3)大数据提供了多样兼容的容错性。虽然大数据不能解决反事实问题和遗漏变量误差,但由于数据的海量性甚至全样本的性质,一旦把基于大数据的简单关联分析或时间序列分析结果与文献中的传统回归分析进行比对,就能形成非常具有说服力的证据链。(4)大数据提供现象的相关性涌现。当拥有海量数据时,绝对精准不再是追求的目标,适当忽略微观层面的精确度,将提升社会科学在宏观方面的洞察力。“科学家不再必须做出受过良好训练的那种猜想,或者构想假设和模型,通过基于数据的实验和例子来验证它们。相反,它们能够为显示效果的模型采集完整的数据集,来产生科学结论,而无需更进一步的实验”。(5)大数据的核心技术是数据挖掘,使用人工智能的机器学习从海量数据集中发现模式和知识。在数据驱动下,使用统计学、机器学习、模式识别、数学模型等方法进行探索式的知识发现和数据挖掘,海量数据的全样本性质使得数据挖掘能够分析数据质量、聚焦社会过程和关系、处理非线性的有噪音的或概念模糊的数据等,与依赖简单数量关系的定量研究和传统计算机仿真研究范式相比,依赖海量和实时在线数据的挖掘和学科广泛参与的大数据分析更能够客观反映社会发展的历史、现状和规律。
2.提供社会科学计算实验平台
孔德认为,社会科学研究应以“观察+实验+比较+历史”方法的综合形式开展。但由于社会经济系统存在要素不同质、系统具有开放性、关联结构的复杂动态非线性作用、系统层次间相互作用和涌现现象存在以及演化等多种可能性,对社会开展实验研究存在非受控性、历时周期长、时间上难具有超前性、不具有严格的重复性等问题。社会科学研究通过开展严格的实验获得可靠证据并非易事。20世纪80年代以来,这种状况正在发生改变,人工科学、基于主体建模仿真、实验经济学、人工生命和人工社会、平行系统理论、可计算社会科学、综合集成研讨厅决策分析及并行分布式计算平台等理论和实验技术的发展,促进了社会科学的实验研究,正在改变“孤立、静止、还原”的社会科学研究思维。
如果说计算机模拟的程序语言是人类认识自身的第3种“符号系统”,那么数据则是其可以利用的第4种“符号系统”。随着大数据时代的到来,物理环境和人类社会活动从未像现在这样被充分地数字化和网络化。无处不在的智能终端自动采集的海量数据被存储于云端,并通过人工智能处理、存储和分析。研究对象相关的属性数据、时空数据和行为数据全面反映了社会经济系统的各个要素、环节、时态的真实、全面状态。人类主体参与的实验和计算机虚拟主体的实验得以结合。这给社会科学研究将其研究对象置身于真实环境并刻画其复杂行为提供了可能。实现“事理学”中,“物熵”和“信熵”的测量,实现“每一个事件发生和最后结果都有记录”,“所有事件都包含里边,从物熵和信熵出发,可以确定人的心熵,进而可以给出社会熵的算式”,从而实现利用“人工社会”对复杂社会经济系统进行“等价”描述,并通过“计算实验”和“平行管理与控制”,解决复杂经济社会系统所面对的无法还原、没有解析模型和难以实验、分析和评估系统行为的问题。“想象一个人工经济(社会)作为一个实验的环境,在当中,使用者能够较容易地适应为他们设计的,适合自己特殊研究需要的模型。面向对象的程序设计技术能够被用于建立这样的一个环境,它将由一系列不同的模型机构和主体类型所构成,有了这样一个界面,它为用户轻易地从库中结合不同的模块,来进行特定的经济(社会)实验”。现在,大数据环境正促进这一“实验室”与现实世界通过网络和智能技术实现空前程度的交互,来自真实世界和网络世界的海量数据源源不断地输入其中,不断提高“人工实验社会系统”仿真的能力。在众多领域(如危机管理、工业模拟、供应链管理、智慧电网、社交网络等)基于复杂系统建模方法和大数据结合的“社会计算实验”正在实现,并向着“社会—自然—技术”复合系统模拟的方向快速发展。
3.促进社会科学知识体系的多元化
首先,大数据环境中,普遍性知识和地方性知识同样重要,适度坚持社会科学知识的地方性,并将强调地方性和重视普遍性结合起来。“在社会科学中,普遍与特殊之间的张力向来是一个争论得十分激烈的问题”,“普遍主义和历史特殊主义之间的方法之争”一直存在。20世纪中叶以来,随着人类学和科学实践哲学的发展及对其进行的批判,人们逐渐认识到对普遍性知识和地方性知识各执一端的做法都是一种片面的科学观。“现代科学不是唯一的知识,应在这种知识与其他知识体系和途径之间建立更密切的联系,以使它们相得益彰”。并把地方性知识看作一种新型的知识观念和价值取向,两者双向的转化都是知识的进步,具有同等重要的意义。
大数据的出现,可以兼顾普遍性知识与地方性知识的多元性,并在更大程度上促进两者互相转化的知识进步。一方面,大数据具有整体性,由分散的、具体的全部数据集合构成,能够全面、真实和完整地把握社会现象的整体与局部要素的系统行为,既能观察宏观关联,又不会忽略具体而微的细节(在小数据中被忽略的少量极端值在大数据中成为可以分析的个案或变量);另一方面,大数据容错性更强,承认多样化、个性化,能够融合地方性、实践性知识。这两方面的特征,既利于我们更宏观地越过地方性这一界限后“再回首”看待地方性知识,促进社会科学研究从地方性知识中通过抽象提升、视角或语境转换、自我演进和成熟、交流对话等路径交叉并进成为普遍知识;也促进普遍性知识在“解谜”过程中快速发现更多的“特例”,从而产生新的“科学革命”;同时,也避免普遍性知识“万能药”的陷阱,接受社会经济系统的复杂性,建立跨学科、多层级的分析框架,将普遍知识更好地与“情境”结合。
其次,大数据促进默会知识和明示知识的转化,并要求本地知识与云端知识高度互动。(1)大数据进一步提升默会知识的重要性。互联网的泛在化发展,明示知识的编码、存储和共享的成本越来越小,使其更为廉价。这导致了简单重复认识任务与创造性认识任务的分离。这使与创造过程和情境高度依赖的默会知识地位更加重要,成为个人和组织在知识经济时代获取核心竞争力的根本来源。在这种情况下,学习能力将从记忆能力向数据检索能力转变。(2)大数据促进默会知识的传递与共享。大数据提供了默会知识及其依赖的“个人”“情境”“经验”和“文化”整体性数据化的优势,大大降低了原本高度依赖个人实践的默会知识的信息粘滞度和知识模糊性,更加方便默会知识转移。默会知识传递与共享程度的提高,促进了在知识活动中认识的意向方和实施方、价值判断和实施过程的分离。知识创造活动更依赖于合作网络,并以数据分享的方式实现价值(价值拥有和创造方也发生分离)。(3)大数据促进默会知识与明示知识的转化。在大数据环境中,两类知识转化的四类情境支持发生融合,启动场、对话场、实践场和系统场统一到大数据网络平台,两类知识的社会化、外化、内化和组合化过程也越来越呈现基于数据挖掘和探索的方式进行(如结构化网络行为数据与非结构化文本数据分析的结合形成认识的知行合一,使得原本只可意会不可言传的默会知识得以结构化和显性化)。知识从碎片化的记忆向结构化的数据形态转变,和情境结合的程度更深。(4)大数据促进了默会知识的技术性支持和社会性支持。终端和网络延伸了人的认识,知识创造更趋于社会化建构。海量数据已经远远超出个人甚至共同体的分析能力,知识从个体的记忆向云端的存储转变。上述知识体系的四个转变,改变了知识存储的位置、知识的状态、知识的获取和知识之间的联系,这种转变的本质实际上是知识数据化、数据结构化和结构智能化。互联网和大数据的发展,最终实现了在知识体系中的人找知识(搜索引擎)、人找人(社会网络)、知识找知识(数据挖掘)和知识找人(个性化定制与推送)统一的时代。
(一)数据可及性的需求
随着对大数据研究价值及知识外溢效应的认识,国家层面的旨在提高大数据可及性的行动越来越受到重视。2009年1月,美国总统奥巴马签署了《开放和透明政府备忘录》,提出要创建透明、参与和协作的开放政府,并要求提高政府信息开放程度,联邦政府所拥有的信息要向公众快速公开。同年12月,美国行政管理和预算管理局发布了《开放政府指令》,指示联邦各机构为美国公众提供政府数据,该指令标志着美国开放政府数据走向政策层面。与此同时,全球许多国家也纷纷发起了开放政府数据的行动,通过颁布政策促进政府数据的开放。2015年8月19日,中国国务院常务会议通过了《关于促进大数据发展的行动纲要》,明确提出,“加快法规制度建设。修订政府信息公开条例。积极研究数据开放、保护等方面制度,实现对数据资源采集、传输、存储、利用、开放的规范管理,促进政府数据在风险可控原则下最大程度开放”,“2018年底前建成国家政府数据统一开放平台”。这是我国第一个关于开放政府数据的宏观政策,标志着我国的开放政府数据也正式走向政策层面。
我们之所以希望我国政府部门在促进优化大数据可及性的进程中起主导作用,是因为我国政府与部分其他国家政府相比,对大数据采集者和拥有者(如互联网企业、通信运营商等)有较强的数据请求权,更有能力对这些散布于不同大数据产生和汇聚节点中的不同类型、不同领域的大数据有机聚合起来,将这些大数据作为社会科学研究和知识进步的必要资源,有计划、分层次地构建有中国特色的大数据开放服务产业。
相信在《行动纲要》颁布之后,我国政府应“有计划”地主导“大数据知识源集成网络”的构建,全面集成互联网、物联网和社交网络等不同生产方式的知识源,同时整合政府部门及事业单位的统计数据、社会民众的舆论以及企业的产销大数据,为不同用户“分层次”地提供数据支持服务,如可按数据需求的合法性及迫切性,分层次地对刑侦、公共决策、学术研究、商贸应用等不同需求主体提供大数据开放服务,各层次的服务构建要点包括:第一层次,大数据整合与知识网络的缔结。国家对该层次的大数据使用要严格监控,并在法律层面因应大数据的技术伦理问题。国家在该层次主要发挥数据整合和平台搭建作用,并大力推进基于大数据的知识推理和人工智能领域创新;第二层次,大数据采集与知识挖掘。该层次由各大数据生产和采集部门或组织自发构建并实现其利益,政府应在制度层面制定基于大数据知识源集成网络的数据采集、知识共享及合作网络融入的法律法规,推动基于大数据共享的知识挖掘和云端人工智能服务产业发展;第三层次,常规研究的全新技能与合作方式。大数据应用开启了社会科学研究范式的变革,社会科学研究将比以往更加注重对大数据的检索与挖掘,而且这种直接面向数据的研究不仅将全面提升社会科学研究的数据基础和方法论视角,而且社会科学研究也将越来越依赖于跨学科合作网络。
(二)大数据的技术伦理问题
虽然我们主张对大数据进行“分层次”开发共享,但由于“大数据知识源集成网络”聚集了多源异构的底层个体数据,而数据挖掘和知识推理技术的应用,不可避免地将触碰到个体的隐私问题。隐私是个体不受打扰的权利,是不愿他人干涉与侵入的私人领域。对大数据可及性的管理将涉及数据使用的伦理思考,如对个体数据的采集应该到哪个层面,各层次研究主体可以使用哪个层面的数据,对数据的挖掘和预判应该到什么程度以及分析结果应该怎样使用等等,甚至更进一步地,作为数据源的个体在不经意行动中所表现出来的行为或显示偏好数据,是不是其主观同意公开的,对这些数据在各开发层次的分析和使用,会不会违反数据源个体的意愿,如DSP广告是为消费者带来了便利,还是会泄露其偏好隐私,甚至会造成社会个体在各种场合隐藏或误导对其偏好数据的采集,进而在长远上造成社会上“思行不一”的人格“异化”?此外,与数据可及性相关的数据垄断、数据安全性、数字鸿沟等一系列大数据技术理论问题也需引起重视。我们必须尽快对大数据的共享、利用、开发制定趋于保守的技术制度、标准、法规,或利用区块链等新技术对之进行规范和约束。
(三)以往社会科学研究传统价值的再挖掘
第四研究范式的应用将为已有社会科学研究提供更高的数据起点。大数据资源池来源于对独立研究客体的个体原始数据采集,而且大量数据不是像传统社会科学研究范式那样,针对理论假设和研究模型设计的变量数据需求,经由对研究客体进行统计抽样并通过“提问—思考—回答”路径产生的,而是直接由研究客体的行为生成并经由各类数据采集技术聚合起来的,因此大数据与以往社会科学研究传统所使用的数据相比具有“全样本”“自提供”的特性,这就能够避免传统社会科学研究范式中自变量数据的统计偏误,显然,大数据的这种特性能够为已有社会科学研究范式提供更高的数据起点。
第四研究范式将为已有社会科学研究提供全新的理论视角。由于大数据是行为个体在网络环境中的产物,同时大量数据本身也构成了行为个体社会网络的节点,因此,大数据研究本质上依托于对复杂网络的挖掘和分析。凭借网络分析和数据可视化技术,大数据研究能够发现已有社会科学研究中所忽视的及受技术方法制约无法完成的大量网络特征及相关性,这些网络特征及相关性将为已有社会科学提供全新的理论视角。
通过第四研究范式的应用与拓展,社会科学与自然科学在大数据研究过程中实现了大学科交汇共融。对领域大数据的挖掘和分析,不仅需要本领域学者就领域内现有理论及分析框架进行问题导入和研究需求设置,还需要与计算机、心理学等不同专业领域学者组成合作研究网络,对领域大数据进行跨学科联合研究;同时,通过大数据发现的新理论,也将通过大数据知识网络迅速外溢到学科外部,这样,新理论将更有可能在科学综观视域中体现其更高的价值。相较以往社会科学研究传统,第四研究范式对跨学科合作网络有更高的要求,因此将极大促进自然科学与社会科学的交叉融合,不同学科的界限将在数据驱动的研究中变得模糊,不同领域的研究者们将缔结基于数据研究的科学共同体。
(四)社会科学研究范式转型保障体系的构建
社会科学研究范式转型的保障体系可以构建为三个层次:规则保障、基础设施保障和科学共同体保障。
1.规则保障
法律规则。数据的收集、处理和使用,不但涉及当事人的隐私及对社会的控制限度问题,也涉及与数据相关的权益与责任界定问题、法律约束的法理机制问题以及法律执行和监控等操作性问题。没有这些规则基础,基于大数据运行的社会系统就不可能是有序的系统。这些法律法规构成了大数据交流与利用的法律规则保障。
交易规则:社会大数据产生于各种社会生产生活系统,在当今的技术环境中,它存储于与上述系统对应的云空间之中。处理和使用这些数据,既有公有云的授权规则问题,也有私有云之间的数据交换交易规则的问题,这些数据应用的外部效应,也会要求数据责任与权益的契约体系,这是大数据交流与利用的交易规则保障。
与此同时,不同系统的数据对接和传输,也需要自动协调的技术性协议:异构数据的表征、聚类、传输、处理及其应用,需要可以相互识别的执行标准,需要评价数据价值的指标,需要自配置自适应的系统接口和对应人类解读的人机界面设计和自协同模式,这是大数据交流与利用的系统协议保障。
2.基础设施保障
不同层面的保障条件不是孤立存在的,它们彼此作用构成新型社会科学发展的基础设施平台,包括如下层次:社会资源与规则层,涉及各类社会环境与条件;物理层,涉及数据传感器、穿戴计算设备、数据传输网络等物理环境,涉及数据存储、调配等初级数据处理设施;计算仿真层,涉及可共享的计算与仿真系统;社会应用层,涉及接入或反馈社会问题的操作界面。通过基础设施平台,大数据的研究与利用才能够以较低成本顺畅地进行,大数据的知识外溢才能够在更广泛的层面惠及大众。
3.科学共同体保障
新研究范式的科学共同体保障将包括新型社会科学的理论体系、研究方法、操作准则、学术成果评价与交流规范。新型社会科学的哲学基础包括科学问题与研究对象的界定准则、认知限度与认知检验、学科融合与学术规范、交叉学科的语境和逻辑等。正如库恩所指出的,新的研究范式的确立必须以新的学术共同体的出现为最终标准。
坦率地讲,本文还未形成一个成熟的学术研究结果,只是对大数据驱动的社会科学转型的一些趋势性的表述。本文更多的是对国外社会科学发展趋势和大数据重大影响的洞察,试图提醒我国社会科学界对这一发展趋势引起重视,希望经过对大数据技术、理论和方法的学习,通过政府、产业和学术各界的共同努力,能够在新的历史时期,在大数据驱动的社会科学研究领域与国外处于同一起跑线上,甚至实现我国社会科学发展的弯道超车。
必须承认,由于我国长期以来教育体制的弊端,社会科学和自然科学的研究长期处于分离和分割的状态,这导致从事社会科学研究的学者对于科学技术领域的发展不敏感甚至不关心,缺少对当代技术的响应能力,这无疑构成了社会科学发展的严重的思想障碍;同时,自然科学和社会科学的二元分割也导致了社会科学学者对大数据和数据科学这些当代前沿的科学技术进展充满了无力感,甚至从小学术共同体内部对新思想新技术新方法进行抵触和排斥,从而形成了社会科学转型的行动障碍。希望通过我们抛砖引玉的工作,开启这场远未结束的对大数据驱动的社会科学研究转型的讨论。
(本文在《中国社会科学内部文稿》2017年第6期发布文章的基础上修改完成,本文修改过程中得到了北京理工大学徐磊教授的热情参与,受益匪浅,特此致谢!)
①J. Manyika, M. Chui, B. Brown, et al.,BigData:TheNextFrontierforInnovation,Competition,andProductivity, McKinsey Global Institute Report, 2011, p.3.
②V. Mayerschönberger,BigData:ARevolutionThatWillTransformHowWeLive,WorkandThink, New York: Eamon Dolan/Houghton Mifflin Harcourt, 2013, p.288.
③徐子沛:《大数据:正在到来的数据革命》,广西师范大学出版社,2012年,第54-58页。
④J. Gray, “On eScience: A Transformed Scientific Method”. In T. Hey, S. Tansley, K. Tolle, (eds.),TheFouthParadigm:Data-IntensiveScientificDiscovery, Microsoft Corporation, 2009, pp.xvii-xxxi.
⑤M. Prensky, “H. Sapiens Digital: From Digital Immigrants and Digital Natives to Digital Wisdom”,Innovate:JournalofOnlineEducation, No.3, Vol. 5(2009), Article 1.
⑥I. Steadman,Bigdataandthedeathofthetheorist, http://www.wired.co.uk/article/big-data-end-of-theory.
⑦R. Kitchin, “Big Data, New Epistemologies, and Paradigm Shifts”,BigData&Society, No.1, Vol.1 (2014), p.1.
⑧R. M. Chang, R. J. Kauffman, Y. O. Kwon, “Understanding the Paradigm Shift to Computational Social Science in the Presence of Big Data”,DecisionSupportSystems, Vol.63 (2014), p.67.
⑨G. King, “Restructuring the Social Sciences: Reflections from Harvard’s Institute for Quantitative Social Science”,PS:PoliticalScience&Politics, No.1, Vol.47 (2014), p.165.
⑩陈波等编:《社会科学方法论》,中国人民大学出版社,1989年,第38-39页。