大数据因其巨大的数据库存(在量上正趋向于全体数据)使得量化研究方法不再完全依赖于过去传统的抽样、假设检验,并为其研究的目的和内容提供了前所未有的便利。由此,大数据社会学研究应运而生。至此,量化研究在一些(暂且称之为)定量极端主义论者的鼓吹下逐渐占据了社会科学方法论领域的“霸权”地位;而与人文主义、建构主义相关联的理论研究、定性研究则逐步落入学科的“边缘化”处境。因而,本文的写作目的在于两方面:其一,从人类社会生活意义的视角对大数据时代下的方法学转向(以新计算社会学为主要形式)进行回应;其二,大数据的到来和以此为基础的生活方式及全球格局的变化,绝不意味着传统研究的方法学和理论的终结。
大数据的正式概念始于2011年麦肯锡的报告《大数据:革新、竞争和生产力的下一个“前沿”》:“大数据——能够获取、交流、整合、储存乃至分析的海量数据——如今已成为全球经济里每一部门和功能的组成部分。就像其他的生产要素,比如硬资产和人力资本。数据越来越成为现代经济活动、革新和增长中不可或缺的要素。”报告中强调运用大数据的科学技术将被广泛地应用到统计学、计算科学、应用数学乃至经济学中,同时,这也意味着从大数据中获取信息的组织等需要面临的是一个更为灵活性的、多重规则的方法手段。正是由于大数据量的庞大,因而如何驾驭这个庞然大物来为人们服务越发受到重视。由于大数据应用领域的扩大,因而当今它甚至可以囊括“环境卫星、基因数据、GPS和地图数据、数字图像,以及诸如社交媒体数据之类的人们有意识产生的数据,等等”。所以,《大数据时代:生活、工作与思维的大变革》一书的两位作者舍恩伯格和库克耶亦将大数据视为“社会以新的方法手段处理信息的一种能力,以生产出具有巨大价值的商品和服务或者产生有用的洞见”。
相较于传统数据采集及统计分析,大数据最为突出的特点是舍恩伯格和库克耶所强调的三大特性:模糊性、相关性和大样本性。首先,是模糊性代替精确性。对于传统数据采集而建立的数据库而言,收集的数据信息是相对有限的。在有限样本量的情况下,对于数据采集以及建构模型精确性具有很高的要求。但是,在大数据的前提下,“允许不精确的出现已经成为一个新的亮点,而非缺点”。这种所谓的“非缺点”表现为两个方面:一方面,对于小型数据过多的各种统计方法的计算倒不如从大数据出发的简单运算来得实际,从而在效率层面上完全可以省下更多时间来收集更大的数据,使得手头的数据库存累积起来以便获取更多有用的价值信息;另一方面,大数据之所以被提出乃至风靡全球,是因为它能够满足人类的追求,即掌握现在和预知未来,尤其是后者。预测代表着一种概率逻辑,而非事实的确定性,所以数据的海量采集为预测大方向的追求而不得不或者主动地丧失其精确性,并“拥抱混乱”。其次,是相关性代替因果性。舍恩伯格和库克耶认为,因果关系存在的前提在于人们的主观直觉,“在小数据时代,很难证明由直觉而来的因果联系是错误的。……大数据之间的相关关系,将经常会用来证明直觉的因果关系是错误的”,而相关关系则代表着客观的事实,且后者作用更为明显。例如,将预测作为最终目的的评估机构和企业,只需要知道用户的目前状况和需求,就能够为其提供相应的产品和服务;他们无需也不想去了解用户之所以会有某类需求的原因。最后,是大样本性代替小样本性。当数据的收集量越来越庞大乃至可以称为海量时,以至于可以直接采用这一超大型样本量而无需顾及小样本所带来的一系列代表性问题。如果说传统统计方法下的抽样研究是为了描述或解决即时的、有限的、特定的社会现象或问题,那么在大数据时代运用更为先进的信息技术对任何与研究旨趣相关的海量数据分析则可能着眼于更长远的、更为庞杂的事件和趋势。
大数据对于社会科学的影响如此巨大,以至于其研究方式的转变使得社会学成为大数据时代下方法学被撼动得最厉害的学科之一。典型的例子是“新计算社会学”的诞生及其研究应用。20世纪90年代,拉策尔、加里·金等学者在《科学》上提出了“计算社会科学”的概念,即通过计算机软件作为媒介对社交关系进行测量的一种应用方法。这一新型学科的研究主要涉及社会网络理论与研究方法的发展、基于行动者模拟方法以及互联网研究等。从研究范围来看,这一新兴领域是一种社会世界诸多方面的跨学科研究,通过计算的媒介可以从个体的行动者一直到群体。它主要利用计算机中的“自动化信息提取”技术进行信息搜集。例如,我们可以将谷歌图书语料库的书本大数据、新浪微博、百度搜索等巨大库存作为数据来源,以所需相关变量(关键词)作为指标,从不同维度进行统计分析。因为这是一门相对较新的领域,所以,计算社会科学需要同其他的跨学科研究领域之间建立起一个新的范式和系统, 而这又需要诸如计算机科学等的知识背景。因此,从长远来看,这个学科的发展就是社会科学家和计算机科学家团队合作的成果。而随着计算社会科学领域科研队伍的不断壮大,社会学领域的计量方法也在不断发展。2014年,美国社会学界在斯坦福大学“计算社会科学中心”召开学术研讨会,并提出了“新计算社会学”概念。之所以“新”,主要在于“新计算社会学在理念、方法、思路、工具应用等方面比此前的社会学研究中的‘计算’都更为先进和复杂”。
这一方法学转向的极端形式就是热衷计量分析、过度注重计算结果的人越发增多,并在学科领域有一定的话语权,由此使得理论逐步被边缘化。例如,彭特兰尝试着用这样的方式来重新解释社会。他将社会实体间的影响、社会压力等因素的评估全部简化为数字符号,并采用建立等式乃至数学模型来概括整个社会的运行。这些主张无疑反映出一种具有大概率或然性的、试图撬动诸多社会学科、人文学科方法根基的趋势。在笔者看来,人类的社会生活区别于自然社会之荦荦大端者,正是社会生活充满了意义或价值。这种人本身同诸多因素的复杂意义关联决定了在此社会领域的范围下并非一切都能被计算。
充满意义的社会生活先于经验科学时代而存在,同时它呈现给我们的是一种具有历史特殊性的生命实践。这意味着它已经预设了外在情境和内在于历史个体的生命的双重前提条件。社会生活作为一种非数字、非自然的存在,必然涉及实际的活动,因而也必然受制于外在化的情境。情境作为一种“社会时空的特定状态”,生产或者建构着此刻实践的结果乃至更大范围的历史环境;同时就本体性特征这一点来说,所谓情境的再现虽然在特定情况下可能具有相类似的意义,但并非是完全相同状态的机械复制,相反,在不同时空维度下所产生的特定情境超越了某种形式化的规律,充满着或然性或者不确定性。韦伯行动理论中的“意义层面上的充分性”和“因果层面上的充分性”就是在这种限制条件下个体对意义把握的一种解释。从这个层面上来说,处于情境当中的实际社会生活是“关系性(即空间性)和可能性(时间性)的总体”,从而彻底否定了所谓的预测。
由于情境在时空因素上的复杂性,使得社会生活本身无法忽视无数单独个体包括能动性和策略在内的主观实践以及个体与其内在生命所产生的关联,所以,以此种历史个体的内在意义为特征的研究都要以理解这些实践与关联为前提,否则研究的结果只会是“解释之不可能”。而科学的手段只是对于极其有限的表象和外在化形式进行工具性描述,因此,从本体性中的文化意义上来说,单纯的“科学的说明不能替代基于理解的解释”。就历史个体生命而言, 其意义的内在性特征所指涉的是生命中各个组成部分同生活这一整体的复杂关系,这一关系连接了个体的生命和结构的历史,这种生命结构同外在环境的持续互动构成了具有意义的生命。此外,这种互动产生的意义只有通过对不同个体的精神和心灵的感悟、对个体生命的体验才能够达成。
关于本体性意义的论证无非意在强调,基于社会生活的社会学学科“必须拥有自身独特的研究方法,这是基于对意义的理解的方法”。我们认为,这种方法实践的可能有效性途径之一是超脱于纯经验现实的想象力。具备此种个体、生命、社会、情境相互交织的想象的能力,意味着能够从重点关注人们即刻行为的科学研究方法中超脱出来,并站在高远处思索。这是米尔斯所呼吁的心智品质,它能够帮助个体使用信息并促进理性的发展,从而能看到一种清晰的全貌。正如米尔斯所强调的,“社会学的想象力让拥有此品质的人既能理解一个关乎诸多个体内在生命以及外在生涯意义的、更为广阔的历史情景,又能使他注意到,在繁杂混乱的日常经历当中,个体是如何错误地意识到他们的社会位置的”。在当今,这个60年前所提出的方法学实践主张随全球学术变迁非但没有失去其必要性,反而变得更为重要而且紧迫。
以上的探讨试图为社会生活意义的本体性特征提供一个非实证的论证分析,目的无非在于将现实的社会生活的固有属性同科学研究过程中尝试制造的理想模型进行区分。它通过对该复杂化意义的内涵与特征进行简要梳理,从外在(方法实践的可能有效性途径)和内在(关于本体性意义的论证)两方面形成一种对社会生活科学研究方法批判的视角,从而为本文所主张的研究方法学具体实践提供一种可能性的本体论根基与分析框架。
诚然,对社会生活的意义强调,并不是对大数据之于社会学研究的彻底否定。如一些推崇者所主张的那样,该时代下对人类部分行为、行动等的研究以及由此所产生的诸多研究成果对于社会生活的进步而言理所当然是有意义的。原因在于,大数据的浪潮使得计算机技术的运用在社会学领域中逐步呈主流研究方式,同时试图在学科领域内产生诸如“社会的信息处理范式”、“社会科学的计算范式”等新的主导范式。在这些范式主导下,数据收集和处理方式也发生了改变。具体来说,研究者们可以从网络采集到的各类数据库中挖掘和获取各自所需的不同维度的字频、词频等,并根据不同的研究主题与对象进行诸如文本、差异、流动等分析且建构相关的数理模型。与传统研究相比,大数据研究的数据来源就是社会生活中自发形成的数据库,其客观性以及研究的可信程度也更高。从这个层面上来说,上述新范式的提出与实践以及在特定领域内的成果确实给诸多研究提供了极大的便利。更进一步说,数据收集与分析方式的更新也促进了研究方法的升级。通过更为先进、高级的分析手段可以使传统手段无法分析出来的相关性、维度等呈现出来,由此既可以对以前的研究成果进行修正,又能够在更为广泛的领域中进行探索。因此,研究者们更有理由相信社会学领域内的科学研究亦充满价值和意义。但是,此处所谓的“意义”却与本文所主张的意义内涵大相径庭,它其实是一种本体论上的曲解。
用计算机等科学手段的研究,其意义的概念实际上是指涉某种特定的经验目的(诸如对个体行动的预测、对社会结构运行的把握等),研究本身所追求的也往往是一种类似自然科学所追寻的、客观的、普遍的有限意义。而本文所强调的意义,则是具有社会历史特殊性的、以社会生活抑或人类生活作为研究对象的意义。且如前文所述,本文立足区别于自然的、社会的本体意义,是从人类学科的抽象层面上来探讨,而非停留在具体研究的手段方法的层面。研究方法即便再先进和复杂,从网络收集的数据仍然受到社会情境以及虚拟性的限制。大数据之于当代社会学研究而言,尽管具有部分方法上的优势,但它的作用仅限于捕捉人类的外显行为或者表面呈现出的状态(这种状态也即各类树木);而该行为或状态背后深层的内在意义(广袤的树林)却是这类量化研究所无法探知到的。
作为对大数据时代下方法学转向的回应,关乎社会学学科的关键问题就是:它绝不可以自然科学为典范,更不隶属于自然科学,它的研究对象具有独特的历史、社会意义。因此,社会学学科的研究特殊性以及研究对象的意义复杂性,远非大数据的研究方法学所能把握和驾驭。由此可以肯定,大数据时代下的科学方法固然在持续推进,但社会学的研究对象及认知模式明确了前者应用程度的局限性,本体性意义的存在也证明理论具有不可动摇的地位。
“当自身面临各种主导思想,哪怕是最为崇高的思想时,也要在个人能力这个意义层面上保持一颗冷静的头脑,必要的时候甚至还要‘溯洄涵泳’。”这是韦伯曾经对部分职业思想家的一种指责和建议。同时,这也是他对于政策上纯技术的实施不能采取客观中立态度现象的一种回应。推而及之,“溯洄涵泳”这一主张的确在一定程度上意味着对时代中主流范式和方法学取向的一种态度。这并非是为了站在某一极端立场(主张理论终结的定量至上说抑或彻底排斥量化方法的理论至上说),而是面对大数据时代的浪潮以及随之产生的某种方法学支配倾向所采取的一种谨慎的、自我慎思的方式。否则,无论是哪种形式的狂热主义或者极端化,用韦伯的话说,“和那些自以为重要的文人们的那种令人厌恶的荒腔走板, 实在没什么两样”。
就当今的社会学而言,研究的计算化为主要特征的方法学转向正在成为学科领域中的主流研究趋势。所以韦伯的这一反思态度对目前的情形仍然极具启发意义。我们应当承认,相较于传统的量化研究而言,大数据的社会学研究的确能在研究方法手段和数据来源等方面起到更大的作用;但论其实质,它仍然只是从描述的层面上来呈现所发生的事件和事物的外在;而社会生活的复杂内在性和外在性内容以及不同个体作为能动者所具有的有意义的行动和策略等终究是大数据所无法替代的。另外,有关社会世界的学科研究需要的并不只是人类对静态的、充其量反映外在局部特征的表象采取直观反应和认识的态度;无论是研究的目的、对象和研究过程,在面对科技对方法学的冲击时,要像韦伯所强调的那样,保持清醒的态度, 要理解周遭世界的独特活跃性(相对冷冰冰的数码世界而言)和人自身的能力对于他们所创造的知识精神产物的种种突破性。从这个层面上来说,当今的“溯洄涵泳”,也就是对“大数据助推的量化研究霸权地位”以及“计算机科学技术导致的、对人类社会世界的意义和人的崇高意识逐步产生疏离”的一种逆向的审问。简言之,在这样的时代下,只有时刻秉持学科方法学的慎思并从根本上真正施予人文的关怀,才不至于为浩瀚的大数据洪流所淹没。