文/米加宁 章昌平 李大宇 林涛
社会科学研究正在经历从定性、定量、仿真向大数据研究的第四研究范式转型。本文所说的研究范式不等同于科学知识范式,四种研究范式也并非从一到四逐渐替代,它们都是我们认识世界、进行社会科学研究的有效工具。在社会科学研究的历史演化过程中,四种研究范式走向融合,弥补各自缺陷,并在认识论、方法论上逐渐形成“通宏洞微”的连续谱。
第一研究范式分为两个阶段。第一阶段(17世纪以前)不区分自然科学与社会科学,对社会现象的观察较笼统,把所有知识大一统于“自然哲学”的体系之内,为自然和社会现象提供同一套解释系统。对社会认知进行哲学思辨,建立了朴素的唯物主义和唯心主义理念论、早期辩证法、演绎法、三段论与归纳证明、有机论的自然观和经验论等。对推动后来的科学发展起到了巨大的作用,许多知识至今仍然是我们认识社会的出发点和基本准则。第二阶段(20世纪60年代以来),即现代社会科学的定性分析。通常涉及:(1)观察和记录事实;(2)分析、比较和分类;(3)归纳概括事实间的关系;(4)接受进一步检验四个步骤,是“自下而上”的研究路径。定性研究在对定量研究的批判中逐渐发展起来,形成了独特的概念体系、具体方法和理论,开发了规范化的操作程序和研究工具,个案研究、扎根理论和叙事探究等定性研究设计类型也得以使用,并出现了“参与”和“倡导”实践。
第二研究范式是社会科学试图通过模仿自然科学的方法和语言,用自然规律解释人类社会过程中形成的。在逻辑实证主义和操作实证主义共同推动下,定量研究在社会科学研究领域占据了主导地位,在社会科学创立和发展过程中发挥了巨大的作用。通过定量研究,社会科学学科分支呈扇形逐步细化和延伸,学科理论不断深化,与社会实践的结合也更为紧密。近50年来,社会科学总体向更为严格的科学主义取向、更为专业的方向发展,这在相当程度上是以统计学的广泛运用和定量研究为基础的。
第三研究范式是在复杂性科学的发展与人类对全球问题应对的需求,以及新技术的发展,特别是计算机技术的不断成熟的基础上发展起来的。社会科学领域的计算实验方法,“不仅仅是简单的研究技巧和具体方法的改进,更为重要的方法论意义是把现实社会系统转化成由智能主体构成的演化系统”。这个演化系统通过“人工个体”代替现实系统中的“人”,揭示社会系统中“个体微观行为和系统宏观行为之间的动力学机制”。已经在多个领域实现,采用较多的复杂系统模型有元胞自动机、离散事件模型、系统动力学和基于主体的计算机建模等。
基于数据科学的大数据研究范式是最近10余年来随着ICT技术不断发展、互联网的兴起和实时在线数据的易得的基础上形成的第四研究范式。由于“万物皆智能”“万物皆联网”引发了“万物皆数据”,出现了“计量一切”的趋势。社会科学研究的对象也从传统的人参与的社会系统和社会过程转变为现实世界和虚拟世界平行系统互动形成的数据网络。由于大数据记录了人们日常活动的行为甚至情感偏好,很大程度上解决了社会科学研究中数据采集的“观察渗透”问题,并可通过“数据清洗”和“数据脱敏”解决数据质量和伦理问题。大数据驱动的第四研究范式将改变传统的假设驱动的研究方法,转向基于科学的数据挖掘研究方法,将会在预先占有大量数据的基础上,通过计算得出之前未知的理论。
向第四研究范式的转型是一次方法论的革命和对认识论的发展,它对社会科学研究方法论和认识论的影响的争论聚焦在如下若干重要方面:
一是从相关关系再次抵达因果关系。大数据方法最重要的贡献是能够发现传统研究所不能分析的数据集之间的相关关系,这些相关性能够引导我们分析数据集之间、个体之间、人类群体之间的关系,以及信息自身的结构。大数据在社会科学研究领域的应用相当于在方法论的篮子里增加了一个新的重要工具,它之所以重要是因为它指明了学术界和产业界正在上演的一种分析现象,它既是方法论的方法,也是分析的现象。
二是数据与分析方法的进化。大数据的关键在于运用科学的方法来分析海量数据并从数据分析中析出有益于社会发展和进步的观点。随着大数据技术和数据科学的迅猛发展,社会科学领域的研究方法及其应用方式正在发生一些根本性的改变:数据和主体的在线改变了数据采集的成本和方式;在线和机器学习使主体行为和规则的形成方式从人为假设转化成自然演进规则的内生过程;除了私有数据和受保护的公共数据外,数据类型、采集对象和计算范围将基本不受限制;当各项约束大幅弱化以后,研究者的研究能力将得到前所未有的提高,这种提高不仅是专业领域方法论获得的局部改进,更可能是一次整体性飞跃。
三是基于可计算社会体系的学科融合。大数据和数据科学将淡化、沟通甚至彻底消除学科边界,将局部的还原论下的专业性社会认知和建构升级为广域的社会整体系统认知和建构过程。人们正在试图破除大而不全的数据孤岛的边界,并且在全数据的框架下去统合传统的学科边界对数据类型的专门设定,这将为我们展现一种更好的方法论形态,抛却局部的、简单的因果链条,在系统整体的意义上来实现对复杂社会现象的认知。第四研究范式将传统认识能够抵达的对象社会孤立的数据流进行了整合和连通,在社会参与者之间建立了集中共享的新的社会和环境图式,催生了一体化、有机的、速度更快、关联更紧密、响应更敏捷的可计算的社会体系。
四是促进社会研究的机能性进化。传统的社会科学研究方法论往往陷入“三角两难(three-horned dilemma)”困境。第四研究范式在数据采集的方式、研究程序的操控性、将每个方法论应用于特定的场景和一般可观察行为的程度方面,都开始呈现根本的变化并凸显出融合的趋向,它甚至正在削平在不同的方法论之间进行权衡的必要性。大数据在切近对象真实的同时可以完全兼顾宏观结构,研究的主观操控性也正在弱化,意构的重点转而强调数据分类方法或者是能够同时兼顾现象分析的深度和整体性。即使不能消除全部的两难问题,第四研究范式在解决社会科学研究方法论选择的两难方面的进步也已经意味着社会科学研究的机能性进化。
五是形成了认识论的延展。大数据驱动的社会科学研究减弱做出理论预设的必要性,在大数据分析得到奇点相关的引导下建构因果和结构关系,进而发现其中蕴藏着的知识或规律。数据即现象和经验,“科学始于数据”而非直接观察和传统测量,是对解释主义认识论下的直接的社会观察的替代,替代的理由则是更高的精确度和整体性,它延展了知识发现的新途径和新方法。
现代意义上的社会科学建立以后,快速失去了重建社会一体性,追寻社会现象普遍规律,对社会发展进行预测的目标,开始集中于研究和解释社会现实的特点、性质、功能与变化,重点很快就“由方向转到了方法,由抬头看目标变成了埋头找出路”。由于社会科学研究对象的特殊性,以及研究方法的限制,导致:(1)宏大理论产生的同时,往往缺乏实证经验进行证明,从而引发长期的争议,直到新证据的出现;(2)无法像自然科学一样实现纯粹的空间和完全受控的实验,在实验上无法实现时间的超前性;(3)社会运行具有不完全重复性,预测会产生“俄狄浦斯效应”。在社会科学发展的历史中一直存在对“社会科学”倡导者所做的概括工作(即建立社会普通法则的工作)持一种怀疑甚至敌视的态度。
社会科学快速膨胀和多元分化,在学科体系、研究范式、研究方法上争论不休,在不断分化的过程中形成了学科、学派之间的对立,慢慢走进了学科细分和方法错综的密林深处,在条分缕析中走向细枝末节,层层分解又层层否定。这种碎片化使得社会科学无法把握学科方法和社会整体。直到第三范式出现,复杂性科学兴起,交叉学科和边缘学科的不断发展才出现了学科综合的趋势。
此外,社会科学还面临着另外一个严峻的问题:数据匮乏和有限数据的质量问题。这其实包含了多个分支的子问题:(1)描述的模糊性问题,也就是社会科学概念的“可操作化”和“可操作性”;(2)社会测不准或观察渗透问题,人与人之间的交互、情感信息干扰、坐标原点和利益的认识效应等更会加重这一问题;(3)小数据、小样本的问题,多采用抽样方法进行,并用简单的数量关系应对复杂的现实世界;(4)数据质量控制的问题,社会科学的资料和数据受到研究对象表述时的“偏好”“记忆”“语言”以及研究者“理解”的影响;(5)生态谬误的问题,不能从整体层次或生态数据研究中做出个体层次的结论。
第四研究范式的兴起,使得重建社会科学预测成为可能。大数据将会引导社会科学研究从定性研究重视人的关系的“事本”、定量研究把人看作“物”的“物本”、仿真模拟研究把人看作实验对象的“样本”,真正转化到“以人为中心”的“人本”时代。大数据正在形成的系统犹如社会的大脑,充当了“社会性记忆合成”的主角,原本被悬置的社会学研究目标和方向,有可能在大数据的驱动下,以全新的、实际的形式重新展现出来。
第四研究范式将推动宏观理论研究发展。社会科学大多数研究均可以追溯到少数立足宏观层面描绘和理解社会结构与变迁的典范性学说、启发性和诠释意义的概念、假说和理论。20世纪60年代以来,社会科学进入了“后大理论时代”。信息技术的兴起和大数据的发展扩展了人类的经验范畴,在宏大理论和实证经验之间架起了桥梁,使得社会科学家以全新的相关性数据,在超大数据规模和时空跨度上为经典理论提供实证证据。大数据的“全样本”“高容错”“数据挖掘”等优势,为社会科学宏大理论发展提供了“全景式”认识世界、发现和提炼新的重要理论的可能性。
大数据可以消除社会科学内外对立,促进内外部学科之间的融合和定性与定量研究方法的综合集成。第一,大数据获取具有非学科性的特点,存在较低的“学科定制性”。为不同学科之间的研究对象有了同质性的基础,促进学科交流与融合。第二,大数据技术的普及促使社会科学的研究者开始联手大数据技术界的专家和自然科学的学者共同采用大数据分析技术开启了规模更大、参与更广的跨学科合作研究。第三,大数据使得定性和定量两大阵营之间出现了一个混合地带,使得研究资料获取和分享方法上走向趋同、研究资料定性和定量分析可以相互转化,从而促进了定性与定量研究方法的综合集成。第四,大数据拓展了研究成果分享的渠道,“开放存取”和“复制性研究”的兴起使得定性研究和定量研究在相互共享成果(研究思想)上提供了便利和基础,信息可视化也可以帮助不同学科、方法取得的成果以更直观、多样化的方式展示研究成果,以方便不同领域或研究方法取向的学者更方便的理解。
第一,大数据能够提升社会科学研究的数据质量,从数据支撑层面提升社会科学研究的“科学性”。在数据驱动下,海量数据的全样本性质使得数据挖掘能够分析数据质量、聚焦社会过程和关系、处理非线性的有噪音的或概念模糊的数据等,与依赖简单数量关系的定量研究和传统计算机仿真研究范式相比,依赖海量和实时在线数据的挖掘和学科广泛参与的大数据分析更能够客观反应社会发展的历史、现状和规律。
第二,大数据促进了人类主体参与的实验和计算机虚拟主体的实验得以结合,给社会科学研究将其研究对象置身于真实环境并刻画其复杂行为提供了可能。实现利用“人工社会”对复杂社会经济系统进行“等价”描述,并通过“计算实验”和“平行管理与控制”,解决复杂经济社会系统所面对的无法还原、没有解析模型和难以实验、分析和评估系统行为的问题。
第三,大数据的出现,促进了促进社会科学知识体系的多元化。可以兼顾普遍性知识与地方性知识的多元性,并在更大程度上促进两者互相转化的知识进步。同时大数据促进默会知识和明示知识的转化,并要求本地知识与云端知识高度互动。进一步提升默会知识的重要性,促使学习能力将从记忆能力向数据检索能力转变。互联网和大数据的发展,最终实现了在知识体系中的人找知识(搜索引擎)、人找人(社会网络)、知识找知识(数据挖掘)和知识找人(个性化定制与推送)的统一。
一是数据可及性的需求。政府应“有计划”地主导“大数据知识源集成网络”的构建,全面集成互联网、物联网和社交网络等不同生产方式的知识源,同时整合政府部门及事业单位的统计数据、社会民众的舆论以及企业的产销大数据,为不同用户“分层次”地提供数据支持服务,按数据需求的合法性及迫切性,分层次对不同需求主体提供大数据开放服务。二是大数据的技术伦理问题。对大数据可及性的管理将涉及数据使用的伦理思考,如对个体数据的采集的隐私保护、偏好数据采集导致“思行不一”的人格“异化”、数据垄断、数据安全性、数字鸿沟等一系列大数据技术理论问题需引起重视。我们必须尽快对大数据的共享、利用、开发制定趋于保守的技术制度、标准、法规,或利用区块链等新技术对之进行规范和约束。三是以往社会科学研究传统价值的再挖掘。第四研究范式的应用将为已有社会科学研究提供更高的数据起点、全新的理论视角,并促进自然科学与社会科学的交叉融合,不同学科的界限将在数据驱动的研究中变得模糊,不同领域的研究者们将缔结基于数据研究的科学共同体。四是社会科学研究范式转型保障体系的构建。包含规则保障、基础设施保障和科学共同体保障三个层次:规则保障由法律规则、交易规则、技术性协议保障构成;基础设施保障由社会资源与规则层、物理层、计算仿真层和社会应用层构成;科学共同体保障包括新型社会科学的理论体系、研究方法、操作准则、学术成果评价与交流规范。