数据科学的浪潮：计算社会科学研究综述

2021-07-13 14:04苟泽鹏闫一帆王成军

科学经济社会 2021年2期

苟泽鹏董悦闫一帆王成军

一、引言

Lazer等人2009 年在《科学》杂志发表《计算社会科学》一文[1]，标志着计算社会科学的开端。十一年过去，计算社会科学已经取得了长足的发展，吸引了大量的研究者进入到这个新的领域当中。与之类似，人文学科的研究者也在积极倡导并发展数字人文研究。2018年，中国教育部正式提出新文科的发展思路，并在2020年开始全面推进新文科建设。计算社会科学为新文科建设提供了切实可行的操作框架，对计算社会科学的发展进行综述有利于厘清对新文科建设的认识。一方面，计算社会科学的发展为社会科学的研究带来了很多机遇；另一方面，计算社会科学本身也遇到了许多本质性的问题。例如，Lazer等人在2020年最新的一篇文章当中明确提出计算社会科学在跨学科合作、数据分享框架、隐私和伦理等方面遇到挑战[2]。

计算社会科学的发展引起了很多研究者的重视。Salganik 将计算社会科学看作数据科学与社会科学的融合，系统地介绍了数字时代为社会研究带来的机遇[3]xv-xvii；王飞跃2004 年提出社会计算的学科体系[4]；孟小峰等在2013年将社会计算作为大数据时代的机遇与挑战，进一步提出面向社会科学和面向技术应用的两大趋势[5]；陈浩等从社会科学和信息科学两条发展脉络展开，把计算社会科学视为两大学科的“共同机遇”[6]；祝建华、王成军等较多关注计算社会科学在新闻传播学中的应用[7-8]；韩军徽等更加关注计算社会科学的兴起为社会研究带来的机遇[9]；罗俊则聚焦于社会计算科学领域的数据计算、模拟、实验三种新的研究方法[10]。这些研究存在一些明显的问题，集中体现在未能提供一个分析和理解计算社会科学的整体性框架。

计算社会科学的发展遵循数据科学的基本逻辑，即追求问题、数据、算法、模型和因果推断的融合，根本使命依然在于理解重要的社会问题并发展好的理论。为了更好地理解计算社会科学的发展，本研究将首先基于数据科学和科学环的逻辑建立理论框架；接下来，将采用数据科学作为理论框架，从问题、数据、算法、模型、因果推断五个角度对计算社会科学的发展进行综述。

二、计算社会科学的理论框架

数据科学为理解计算社会科学提供了重要的思路。可以采用韦恩图对数据科学的一个简洁的表述：数据科学是计算机科学、数学和统计知识、专业领域知识三方面的重叠。专业领域知识与统计知识的重叠区域为传统的研究；计算机科学与数学和统计知识的重叠区域为机器学习；最需要警惕的是计算机科学与专业领域知识的重叠，因为缺乏数学和统计知识的支撑（尤其是假设检验的逻辑），这个区域被称为危险区域。数据科学的韦恩图对于理解计算社会科学具有重要价值，然而作为一个分析框架依然存在明显的不足。它至少忽略了两个方面的问题：首先，大数据在计算社会科学当中所扮演的角色；其次，社会科学是围绕问题组织的，忽略了研究问题会让研究者迷失方向。

本文主张从科学环的角度来构建用来理解计算社会科学的理论框架（见图1）。科学环是美国社会学家华莱士（Walter L.Wallace）对科学发展过程的总结[11]。科学环将科学描述为一个理论和社会现实互动的过程。可以沿着理论或经验、归纳或演绎两个主要的维度将科学研究分为四个象限。虽然科学作为一个圆环，研究者可以从任意一个位置切入，但是社会科学更加偏好的却是理论驱动的实证研究。从理论当中来，到理论当中去。具体而言：1.从理论出发经过逻辑演绎提出研究假设；2.通过经验观察收集数据；3.对概念进行测量并建立模型对假设进行检验；4.对经验进行概括，然后可以分成两条研究路径：4a.接受或拒绝假设，并经由逻辑推论的方式发展理论；4b.形成新概念和命题，进一步发展理论。其中，定性研究或质性研究更倾向于4b 路线，而定量研究更倾向于走4a 的路线。当然，这仅仅是就研究的表象而言；就研究的实质而言，不管是定性研究还是定量研究都可以走假设检验和概念命题这两条路线。采用科学环来理解计算社会科学会出现以下问题：

图1 计算社会科学的理论框架

第一，科学环的一个问题是未能突出研究问题。脱离了现实问题的理论容易变得视野狭窄。例如，理论驱动的实证研究者会倾向于从自己所熟悉的理论出发。如果把理论比喻成一棵树的话，社会科学的理论是如此之多，以致已经形成了理论的丛林。甚至经常出现对于同一个问题具有多种理论模型；然而这些理论模型的核心假设也许是自我矛盾的。研究者如果缺乏理论品味的话，就很容易吊死在一棵树上或迷失在晦暗的丛林里。也许研究者所选择的理论并非参天大树，而只是小灌木，甚至是藤蔓，并不具有强大的解释力。这种类型的研究所隐藏的一个更大的风险在于社会科学研究者比我们所想象的更加依赖常识[12]。当然，从经验观察出发的研究者可以更好地捕捉经验背后对应的社会问题。但是就形式而言，科学环依然未能体现对社会问题的重视程度。计算社会科学更加主张对于重大社会问题的重视。例如，Watts就建议社会科学更加重视对问题的解决方案[13]。本文也主张计算社会科学研究从重要的问题出发，并最终解决这些社会问题。需要说明的是从重要问题出发并非忽视理论，而恰恰是为了更好地发展理论，避免自说自话的理论。

第二，计算社会科学对于科学环的另外一个拓展在于使用大规模的数据。但是，计算社会科学绝非只研究大数据，而是将大数据作为重要的基础和能力纳入到社会科学研究的工具箱当中。基于多种来源、多种类型的数据来进行经验观察已经成为计算社会科学的一个重要特点。例如，吴令飞等人使用专利、软件开发、论文三种类型的数据，发现小团队在颠覆性创新方面比大团队更有优势[14]。

第三，计算社会科学在方法论上的一个主要的特点在于使用更多的计算方法。这些方法超越了已有的统计模型和方法，纳入了更多的计算机科学的算法、物理学和数学的模型。例如，Vosoughi 等人在对推特上的假新闻扩散进行研究的时候，综合使用了网络科学分析方法、自然语言处理技术和多元回归模型等统计方法[15]。当然，计算方法不会替代已有的统计方法，实际上，计算方法和传统方法是互补的，二者可以相辅相成、相得益彰。大数据和调查/内容分析是补充而不是替代。大数据不会消除向人们提问/内容分析的需要，实际上会增加提问/内容分析的价值，当有更多的大数据时，人们会想要更多的调查/内容分析[3]117-129。

第四，计算社会科学追求从简单的假设检验走向因果推断和预测。就形式上而言，科学环的中心是假设检验。今天社会科学研究者所使用的统计方法多数来自于费舍尔等人所建立的假设检验的逻辑。计算社会科学依然沿着假设检验的思路发展，假设检验背后是基于证伪的科学发现的逻辑。具体而言，研究者没有办法证实一个假设，只能通过证伪作为零模型的假设进而支持备择假设。然而，传统的统计分析方法具有两个问题：第一个问题是忽视了因果推断。很多研究主要是基于相关关系，而不是因果关系。在大数据和人工智能时代，好的理论依然非常有用。计算社会科学不应停留在相关性方面，应该朝向因果推断的方向继续前进。另外，计算社会科学将机器学习等计算机算法引入到了社会科学研究当中来，弥补了社会科学缺乏预测能力的问题。

克里斯·安德森（Chris Anderson）2008年在《连线》杂志发表了一篇极富煽动性的文章，名为《理论的终结：数据将会让科学方法失去效能》，提出大量数据以及处理这些数据的统计工具的可用性，为人们提供了一个理解世界的全新方式：相关性取代了因果关系，即使缺少了连续模型、统一理论或者任何机制论解释，科学依然可以前进。与之类似，图灵奖获得者Jim Gray提出了科学研究的第四范式——数据密集型科学发现（Data-intensive Scientific Discovery）[16]XVII-XXXI。人类科学研究活动已经历过三种不同范式的演变过程：原始社会的“实验科学范式”，以模型和归纳为特征的“理论科学范式”，以模拟仿真为特征的“计算科学范式”，目前正在转向“数据密集型科学发现范式”。科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识，无须直接面对所研究的物理对象。这是过于实用主义的思路，其背后的假设是大数据唾手可得，覆盖日常生活的方方面面，这些都与大数据本身的特点相冲突。正如接下来要分析的那样，大数据并不易得，并且具有不完整性。大数据作为科学发现的第四范式实际上是前三个范式的结合，即理论、实验和模拟的统一化，但又增加了对数据搜集和分析的重视。

综上，将数据科学的韦恩图与科学环结合起来，同时加入研究问题、因果推断和预测，构成了本文分析计算社会科学研究的理论框架。接下来，本文从问题、数据、算法、模型、因果推断这几个方面对计算社会科学进行综述。

三、计算社会科学关注的问题

计算社会科学聚焦于通过计算来回答人们关切的重大社会问题。按照数据科学的逻辑发展，计算社会科学追求数据、算法、模型和问题的融合，其发展方向和根本使命依然在于理解重要的社会问题并建构更加强大、有用的理论。因此，对十余年来计算社会科学关注的问题进行梳理分类就显得十分必要。

正如Lazer 等学者所言，人们生活在网络中[1]。在人们的日常生活中，发电子邮件、发微博、使用微信、网络购物、在线看电影听音乐等人类行为都会留下大量的行为痕迹，构成了数字时代大数据的来源。大数据覆盖了生活的各个方面，构成数字时代的显微镜。基于文本、网络、图片、语音和视频的分析成为可能，有助于更加全面地认识并提出重要的社会问题。计算社会科学关注的问题是人类生活当中存在的真实问题，大数据和算法模型构成了回答这些问题的基础。计算社会科学试图重构个人和群体的行为、情感、心理图景，从而验证或变革对人类社会的理解。Watts认为目前社会科学领域的理论解释存在较为分散、甚至互相矛盾的局面，他进一步提出采用一种更注重解决问题的思路，即从一个实际问题出发，研究需要哪些理论和方法来解决它[13]。

计算社会科学的一个突出特点是，其研究关注的问题及其追问可能涉及多个学科，或者说是去学科界限的。计算社会科学不仅依托于技术手段的应用，更是将以大数据计算为代表的科学与人文社会科学相互融合的创新方向。传统的人文社会科学对于人类社会行为的研究，往往由于社会现象的复杂特性而缺乏连贯的理论框架，无法从更宏观的角度进行提问并得到共通的解释。而传统物理学、计算机科学对人文社会科学的理解也往往囿于自己的学科框架。计算社会科学思考的问题，是将现有分支学科的关注点进行回归、反思和整合，从而使传统学科研究中经验的、混乱的问题变得更加深刻、有迹可循。例如，在传统物理学的研究认知中，人类社会行为是可以通过方程、模型来计算并预测的，而Salganik 等学者通过在线实验收集用户下载音乐的数据，探究了音乐市场流行度的“乐队花车”效应（bandwagon effect）[17]。这一场MusicLab 实验得出了“人类行为具有不可预测性”的结论，在一定程度上更新了传统物理学家对社会学问题的看法。在过去的11 年里，计算社会科学已经在传统学科、创新学科、跨学科研究等诸多领域问题的研究上取得了一系列重要成果。由此，从衍生学科领域的路径梳理计算社会科学试图解决的社会问题，大致可以分为基于传统社会学研究的行为社会科学、基于大数据计算技术的网络社会科学，以及具有跨学科创新特性的数字社会科学三个方面。

第一，从社会科学关注的基本问题出发，计算社会科学关注差异化的个体在社会网络中如何产生复杂、有趣的社会现象，这些群体形态又如何影响微观行为，以及二者间的双向反馈机制。研究者可以证伪一个基于现实社会问题提出的假设，从而更新社会科学对重大社会问题的认识。如从自由主义者对拿铁的偏爱获得启发，DellaPosta 等学者通过建立仿真模型，促进了人们关于刻板印象问题的理解[18]。具体而言，计算社会科学学者试图对经济生活中的个人消费、群体利益、政策态势，企业、市场、政府的关系及边界等进行讨论；对网络环境下个人与集体的情感、行为、互动关系及舆论发展进行研究；对公共卫生事件中的个体行为、群体网络、政府治理进行因果推断并预测。研究者关注个体关系的多样性和社群的经济发展[19]、社交网络边缘权重的重要性[20]、社交网络的动态性和自适应群体智慧[21]等诸多方面。通过利用在线平台数据训练机器学习模型，Dong 等学者得以估计城市的人口、公司数量和消费水平等社会经济属性[22]。有研究者将机器学习和卫星图像结合，不仅演示了预测贫困，也展示了在经济数据稀缺情况下研究者关注和改善社会经济方面困境的努力[23]。政治相关议题始终是研究者关注的热点问题，基于社交网络的大数据，计算社会科学的研究者能够更好地检验社会理论在现实世界中的解释能力，从而为现实政策的问题和决策提供理论支持。如Bail等学者关注在社交媒体上的政治分化[24]；Aral等人通过多层次社会网络建模，研究发现社会传染的嵌入性、结构多样性理论对社会传染效应的精准估计，从而能够更好地为预测社会政策干预的结果提供参考[25]。但有些话题往往容易引起争论，如《自然通讯》杂志2020 年发布的一篇论文就因为提出女性导师对师生的学术发展造成损害这一结论而引发广泛讨论[26]，最终由于研究数据和方法被质疑而撤稿。值得注意的是，计算社会科学相较于传统社会科学也存在局限性，甚至人类行为是否可计算、在多大程度上可预测仍是一个根本问题，这些伴随而生的讨论也成为计算社会科学关注的问题。

第二，作为一个正在发展完善的学科，计算社会科学诞生于计算机科学技术发展的基础之上，通过算法推动更宏观的网络社会科学的构建。一方面，不同于社会学中传统的量化研究，计算社会科学需要基于特定的平台或项目指标体系设计算法，进一步构建适应研究需要的数据。由于数据规模较大，如何对输入的数据进行复杂的算法处理形成宏观网络，则成为计算社会科学的重要部分。例如，通过空间聚合分析，研究者从15个月内150万人的移动电话数据集中发现，移动通信的个体识别度使个人隐私保护面临新的威胁[27]。机器学习、神经网络、自然语言处理等构建网络的方法也在不断优化，算法和理论呈现相互促进的效果。另一方面，在社会物理学领域，随着小世界模型、无标度网络相关研究的深入展开，近年来关于社交网络的研究成为计算社会科学关注的重点。社交平台体量巨大的文本中包含了丰富的信息，因此自然语言处理近年来也受到越来越多的关注。近期，研究者利用大数据的优势，在传统文本分析方法的基础上通过主题聚类和时间序列分析发现现代文化的进化速度[28]，通过词嵌入分析谷歌新闻中对妇女和少数民族的刻板印象和态度的变化[29]，以及从微观角度关注个人的音乐使用和情感状况[30]。计算社会科学也促进人们对自然语言处理和量化思维本身的反思，如研究发现将机器学习应用于普通的人类学语言，则会导致语义的偏差[31]。

第三，计算社会科学关注与统计学、人文学科等相关学科结合的跨学科研究。一方面，计算社会科学的学者更倾向于思考人文学科、社会学科在不同的时间、空间结构中的变化。如通过对Twitter平台数百万条公开消息的文本分析，可以发现全球不同文化环境中的个体在日间、每周和季节性的情绪变化趋势[32]。Liu 等学者用大数据模型重建职业历史，从而探究电影导演、艺术家等创造性职业是否存在日渐热门的趋势[33]。另一方面，也有学者关注大数据本身对社会科学研究方法的启发。如利用在线实验进行因果推断[34]；通过对实验组施以不同的干预来评估不同影响社会互动的因素及其组合对选举中政治动员的影响[35]。

总体上来看，计算社会科学关注的问题是对传统社会科学的突破，也不同于计算机科学等算法主导的逻辑，其试图通过整合人文社科和计算机科学技术的方式，直面当下的重要社会问题，具有做出重要理论贡献的潜力。

四、大数据

在数字时代，人类创造的各类信息往往以数字化的形式被记录和存储下来。相较于模拟时代的观测数据，大数据体量更大，类型更多样，更新速度更快。大数据的海量性、持续性与不反应性为社会研究开辟了新的路径，可以用来研究稀有事件、接触更广泛的研究样本、发现数据中细微变化产生的影响等。但大数据很容易让研究者陷入对技术的盲目乐观，甚至认为大数据可以取代传统的调查研究。不反应性的数据并不能确保数据就是人们行为或态度的直接反映，梅洛维茨的中台理论早就警示过，人们在媒介上可能会倾向于自我修饰。大数据还受到大数据平台算法的干扰，2012-2013年谷歌流感趋势预测产生了巨大的误差，是美国疾病和预防中心实际监测到的数据的两倍[36]，部分原因在于谷歌改变了搜索引擎的相关算法，造成人们的搜索行为改变，导致预测效果大大减弱。利用大数据进行社会科学研究要求研究者必须同时具备社会科学家的洞察力以及数据科学家的算法功底。

首先，大数据虽然体量庞大，但始终是非概率样本，抽样数据不具有代表性。研究者可以在数据处理阶段对数据进行分组、加权，对非概率抽样数据进行统计学调整。Park等人在音乐选择与情绪刺激关系的研究中，选用了流媒体音乐平台Spotify 上2016 年1 月1 日至12 月31 日全世界51 个国家991 035 位用户生成的764 992 760条音乐流数据，随后研究人员参考美国中央情报局《世界概览》的最近数据，根据每个国家的年龄、性别、人口分布等因素对非随机抽样数据进行分组调整，以使数据能够在世界人口分布上具有代表性[30]。一般认为，这种分组调整组别越细，组数越多，数据也会被调整得越符合现实情况，大数据为在保持每组有合理数量样本的基础上增加组别提供了海量数据样本，使得在传统调查研究中备受冷落的非概率抽样数据在数字时代迎来新的可能。

其次，与传统社会科学研究方法结合，才能更好地释放大数据的活力，得出单独通过调查或大数据资源都无法获得的结论。大数据资源中含有研究人员感兴趣的核心数据，但缺乏关于研究对象的背景资料。此时就可以通过调查研究来构建围绕该大数据资源的背景数据。这两种数据更有前景的融合之法是通过一个机器学习模型将调查数据与大数据结合起来。Blumenstock 等研究者与卢旺达最大的手机供应商合作，将其提供的2005-2009年间150万手机用户的匿名记录与研究者自行收集的衡量财富状况和幸福感的传统调查研究数据相结合，训练机器学习模型，最终对卢旺达的贫穷状况进行了准确的、高分辨率的评估[37]。同样，大数据与传统实验相结合来判断因果、与文本分析相结合进行数据挖掘也是计算社会科学研究的重要方向。

最后，研究者应该针对不同的研究问题，创造性地设计出数据使用方案，将不同来源的大数据资源配合进行研究。Jin 等人为了研究替代品的扩散动力学[38]，分别使用了北欧电信公司2006 年1 月到2014年11月的手机记录和2012年至2016年北美地区126辆汽车的月度交易记录这两种数据集，以及2016年11 月到12 月Apple Store 上每日发布的新智能手机应用下载和246 630 名科学家1980 年到2018 年科学出版数据这两种混合型数据集，发现替代系统的早期生长模式不遵循传播现象中习惯的指数增长，它们倾向于遵循非整数指数的幂律，表明他们从最初的爆炸性采用过程开始，随后的增长比正常扩散中的预期要慢得多。

五、算法

计算机科学与统计、社会科学一起构成计算社会科学的基石。伴随着大规模数据的出现，算法驱动是计算社会科学的必然选择。面对海量的、人工不易计算的数据，使用计算机科学的算法可以大幅度提高计算效率。算法是计算机科学的核心，它可以是一种使计算机按照人的指令进行任务的工具。算法并不是计算机科学所特有的概念，从本质上来说，算法是解决某个问题的计算方法、步骤。社会科学家对社会问题的研究就是使用“算法”解决问题的过程。对于算法的使用需要研究者具有计算思维（computational thinking）。计算思维首先强调对于需要优化的问题的理解，然后将问题分解为不同的任务，最后使用计算机自动化地实现这些分解的任务。

计算社会科学家的研究依然着眼于对社会现象的解释，探寻人的行为模式和社会演变的规律。这种解释可以依据其复杂程度分为两类，第一类是根据社会中成员的行为和互动产生的数据进行研究，从数据中挖掘出社会现象的潜在规律，这种数据计算视为计算社会科学的一个重要发展方向[10]。互联网数据因其前所未有的广度与深度而被视为最具有探索潜力的数据。在数字时代之前，结构化数据可以通过各种统计软件进行处理分析，非结构化的数据，尤其是一些文本、图片与视频数据，主要采用文本分析等定性分析的方式来处理。但这种传统的研究方式过于依赖编码员的直觉和策略，因而编码工作具有很强的主观性和不可重复性。受限于人类的阅读速度，使用定性分析的方法来处理大数据往往耗时费力。但是非结构化数据，尤其是文本数据具有非常重要的社会意义。一个群体的语言反映了其文化体系，研究者通过对文本进行阐释主义的细读和系统的定性编码可以透视一个社会的文化范畴和意义结构。计算机科学提供的算法能够让社会科学在文本这一领域更进一步[39]。

机器学习是算法处理大规模数据和多语义文本的核心，可以被认为是计算社会科学的元算法：让算法通过训练学会对经验进行归纳，从而对未知问题与未来进行推测。机器学习算法与数据库相结合，就能在极短的时间内挖掘出数据规律以回答现实问题，社会科学家相信，即使是作为非结构化数据的文本中也存在某种模式，通过算法让这层模式浮出水面就能够洞悉创造该文本的群体背后的社会意义。深度学习是机器学习的进一步深化，多隐层的神经网络具有更优异的特征学习能力，能产生更好的输出，做出更好的预测或决策。CNN是深度学习算法的一种，也是计算机视觉领域中最具影响力的一部分，其最擅长的是图像处理。Gebru 等人通过CNN 对汽车图像和谷歌街景车收集的5 000 万张街景图片进行标注，从社区客观图像特征估算美国城市社会经济特征[40]。那么以此而推，可以认为计算机科学为社会科学提供的算法便大多以机器学习为基底，在多个细分研究方向上进行深化和拓展。其中，最为深入的便是以文本分析为内核的自然语言处理（NLP）和网络科学。

NLP以语义网络分析为理论框架和研究方法[41]，通过将词视为网络中的节点，文本共现作为链接来构建[42]。检查语义网络的结构特征，如中心词或连接语义或文化洞的词，可以洞察单个词和支撑文本的整体概念结构之间的关系[43]，并且可以进一步揭示文本生产者的认知结构[44]。搭建语义网络空间要求能够对语言进行定量化的研究，词嵌入模型即Word Embeddings 基于“出现在相同上下文中的词意思应该相近”这样一种分布式假设，较好地解决了以往one-hot等离散表示方法难以解决的复杂语义关系问题。词嵌入模型将语料库中单词之间的关系表示为密集、连续、高维空间中的向量[45]，有了一个词的向量之后，各种基于向量的计算就可以实施，通过“余弦模拟度”来评估嵌入到空间中的词之间的距离，研究者可以进行比较来度量词语之间的语义相关性。2013 年，Mikolov 对Word Embeddings 进行了优化，提出了现在最广泛使用的词嵌入算法Word2vec[46]，这种算法使用了一种两层神经网络结构，与其他词共享上下文来优化词的预测，它包含了两种类型即Continuous Bag-of-Words Model和Skip-gram Model，前者是通过附近的词来预测中心词，后者则恰恰相反。

Word2vec拥有极快的训练速度，即使是使用wikipedia这样大于20亿词规模的语料库进行训练也只需要几个小时。酷炫的man-woman=king-queen 的示例，让社会科学研究者也能很容易理解其精髓，故而大量社会科学家使用word2vec 来开展词共现研究。Kozlowski 等人认为由词嵌入产生的向量空间模型基于文化相似性，并且词汇嵌入的高维性也为文化差异的多个轴之间的复杂相互关系留下了空间[47]，他们使用word2vec 算法对一百年来出版的数百万本书形成的语料库进行训练，研究美国阶级的基本文化维度，发现词汇差异引起的维度与文化意义的维度相对应，并且使用调查数据验证了他们的发现。Garg 等人同样使用word2vec 算法，并且使用了一个时间分析框架来量化美国20 世纪和21 世纪对妇女和少数民族的刻板印象和态度的变化[29]，这一研究不仅发现随着时间的推移，偏见已经减少，更重要的是表明利用嵌入来研究随时间推移而产生的偏差的价值和潜力，启示后来的研究者，将word2vec与时间动态相结合，通过关注细微的个人变化来洞悉更大的历史轨迹。目前的word2vec 算法主要集中在对英文文本的处理中，近年来，针对汉字的词向量算法也处在不断的开发之中，如Cao 等人通过提取中文汉字的笔画特征构建了cw2vec模型[48]。

情感分析同样是NLP的重要组成部分，它要求对文本，并且主要是长文本进行细读来揣摩语句中的情感，这也是为何传统的情感分析被认为是一件充满艺术的美学。计算社会科学的情感分析则较多针对社交媒体等短文本，通过使用情感字典来分析文本的极性或情绪。Scott 等人就通过使用LIWC 文本分析词典对数百万条公共Twitter 消息的数据进行分析，来研究全球不同文化环境中的个体的日间和季节性情绪节奏变化。情感字典主要是通过词语匹配来进行情感分类，词嵌入算法同样可以帮助克服其在词汇覆盖和领域适应方面的局限性[49]，目前常用的情感字典有textblob、加拿大国家研究委员会信息技术研究所基于众包方式标注的NRC 字典等，在国内，则有在Ekman 六大情感分类体系的基础上构建的针对中文词汇与短语的大连理工大学中文情感词典。

主题建模可以被认为是计算社会科学对传统定性编码的发展。计算机以非监督学习的方式对文本的隐含语义结构进行聚类来实现文本挖掘，并且，当面对复杂且微妙的主题时，主题建模可以使用结构良好的概率模型来实现对构建语料库的“主题”的归纳发现，每个主题以稀疏分布的方式学习[50-51]，并且通过跟踪存在于多个主题中的单词来检测一词多义，以及通过跨文档的不同主题的混合来检测异质多义[52-53]。目前，使用最广泛的也是最基础的主题模型为潜在狄利克雷分配模型，即LDA 模型。这是一种三层贝叶斯模型，这里的三层分别指“文档”层、“主题”层和“词语”层。具体而言，LDA模型是在“文档—词语”关系层中插入“主题”这一中间层，从而形成“文档—主题”“主题—词语”两个矩阵，再依靠这两个矩阵生成对应文档集。因其在文本挖掘中体现出的优秀的降维能力、建模能力以及扩展能力，社会科学研究者在对网络大数据进行挖掘分析时，大多会采用这种方法，如Lambert 等人运用LDA 主题聚类模型对流行歌曲、小说、医学文章和汽车车型进行处理来研究现代文化的进化速度[28]；Abd-Alrazaq 等人提取了COVID-19相关的主题，使用LDA 进行主题建模，确定了12个主题，可归为病毒的起源、来源、影响以及防治方法四大类，研究表明10 个主题的平均情绪为阳性，而2 个主题的平均情绪为负面[54]。但是，LDA主题模型非常不适合处理社交媒体等短文本，也会面临粒度太粗等问题，在面对具体的文本进行研究时，计算社会科学家会选择LDA 的各种变种模型。Blei 等人在2007 年提出CTM（Correlated Topic Model）模型[55]，将传统LDA 模型中的狄利克雷分布改为对数正态分布，完善了LDA 处理主题间相关性的能力，Song等人使用CTM模型对2010-2019传播学Top20期刊的学术论文进行主题分析，研究发现传播学科并没有人们想象中那么支离破碎[56]。文本数据除了包含文本内容之外，往往还包含作者、日期、浏览量等元数据（metadata）。STM 模型使用这些元数据作为协变量，拓展了经典的主题模型。Zhang等人通过准实验设计，对微博上的文本进行STM 主题建模分析，发现抗议对促进围观者的公共参与有显著的影响[34]。除此之外，还有非常适合对短文本进行主题建模的BTM 模型，多主题文本建模的利器MGTM 模型，揭示不同作者写作主题分布的ATM 模型，以及分析话题热点变迁的DTM 模型等，它们为计算社会科学研究者对不同类型的网络大数据进行处理、研究提供了算法支持。

计算社会科学对社会现象的研究还有第二种解释模式，即运用网络科学进路寻求社会中成员的行为和成员之间互动的模式。社会是一个复杂系统，网络科学能为理解复杂的社会系统提供一个可以操作的理论框架，网络中存在“节点”，信息等资源在节点与节点之间传播，连接节点和节点的被称为“边”，在具体的研究中，“节点”往往是对被研究单元的抽象，而边则是用来刻画节点之间的联系性。Albert-László Barabási 提出复杂网络的可控性，在网络中引入动力系统，以描述一个复杂系统如何随时间变化[57]。例如Varga 等人搭建了Web-of-Science 中论文的引用网络，发现科学领域随着时间的推移变得更加整合[58]。

在网络科学研究中，网络图的搭建至关重要，目前主流的图算法有基于随机游走的DeepWalk 和node2vec。DeepWalk的思想类似于word2vec，使用图中节点与节点的共现关系来学习节点的向量表示，而节点与节点之间的共现关系则使用随机游走的方式在图中进行节点采样[59]，算法的实现包含两个步骤，第一步为随机游走采样节点序列，第二步为使用Skip-gram model Word2Vec 学习表达向量。使用DeepWalk 虽然能捕捉网络节点之间的共现性，但这个共现性可能既包含了结构性又包含了同质性；而node2ve则可以被看作DeepWalk的一种扩展，其虽依然采用随机游走的方式获取节点的近邻序列，但它采用的是一种有偏的随机游走，按概率抽取邻接点[60]，计算社会科学研究者可以通过指定超参数来灵活地定义研究目的是要捕捉更多的结构性还是更多的同质性。用于社区检验的模块化算法可以帮助研究者确定网络中的哪些结构具有紧密的联系、形成社区，类似于文本分析中的聚类算法，这些社区在研究中可以成为重要的研究着眼点：Zeng等人在研究科学家在科学研究中的兴趣切换时使用infomap社区检测算法来检验所生成研究社区的异质性，从而来确定科学家们都在哪些领域进行探索。类似的算法还有Louvain[61]、Fastgreedy[62]和LPA[63]等，上文中所提node2vec也同样可以被应用于识别网络社团（community detection）。

六、数学和物理学模型

计算社会科学作为一个研究方向正式提出时，主要的参与者是社会科学学者和物理学家。统计物理学和复杂性科学为社会科学发展提供了另外一条路径，即从物理学角度进行社会学研究，采用物理学方法和概念分析各类社会现象及其规律[64]。将社会看作一个复杂系统，其复杂性在于其非线性、自适应等特征，用简单普通的线性模型难以对其表示。网络科学为理解复杂的社会系统提供了一个可以操作的理论框架。从统计物理学的角度，网络是一个包含了大量个体以及个体之间相互作用的系统，统计物理学对复杂网络系统研究的核心在于分析网络中顶点与边的度值与权值等微观性质与网络的几何性质、效率与稳定性等宏观性质之间的关系，侧重点在于从实际网络上抽象出一般的网络几何量，并用一般性质指导实际网络研究[65]。传统意义上研究复杂网络系统往往基于研究者经验进行人工建模，如Boid 模型[66]、SIR 病毒传播模型[67]等，由于数据规模以及人类认知经验的局限，人工模型存在过于简单、预测精度低、拟合能力较差等问题。基于大数据以及深度学习的计算社会科学可以从海量观测数据中自动构建模型，模拟复杂系统的组成方式和交互特点来提取系统中的内在运行机制和规律，进而对真实的复杂系统进行预测。

复杂系统中的诸多要素会呈现各种属性和特征，各要素之间的交互作用也会增加网络的不确定性和更为复杂的关系，复杂系统建模的核心在于抓住真实系统中的核心要素及其作用机制。如研究社会网络中的信息扩散，需要将个体及其关系抽象为网络中的节点与连边，核心要素在于节点权重、节点间的网络关系以及节点间的传播内容，例如在研究社交网络中的信息扩散问题中，处于社会网络中心的人比处于边缘的人更早接受新信息[68]，意见领袖自身的接纳行为会加速创新内容的扩散[69]。Vosoughi等人研究社交网络中虚假信息的传播，发现在社交平台上虚假信息比真实信息传播得更远、更快，社交机器人更有可能传播假新闻[15]。

复杂系统还可以基于图网络模型尽可能契合地模拟真实系统。图网络模型基于一个给定的图结构学习一种网络节点到连边、连边到节点的映射过程，可以充分把握异质性网络特征，提高模型拟合和预测的准确度[70]，例如在合作网络研究中，研究者通过引入时间维度和多节点合作模式构建合著者网络，拟合了真实网络中的合作系数，分析团队规模对团队收益的影响，这一公共品博弈模型为研究人类合作行为提供了基础[71]。在大气污染研究中，研究者还将图网络与循环神经网络（GNN）结合，并引入气象学领域先验知识，建构系统模型用于预报雾霾[72]。复杂系统将图网络与动力学相结合，可以用来分析网络节点之间的互动机制。Zang 等人引入微分方程对网络上的动力学进行建模，提出NDCN 模型来预测未来的节点状态[73]。从统计物理学视角，基于渗流理论的复杂网络模型也被广泛应用于对现实世界的预测，为政策制定提供指导。Liu等人利用随机度分布网络渗流理论建立了基于有限信息的针对性免疫模型，提供了疫情期间遏制传播的有效方法[74]。Fan等人基于渗流相变和网络理论提出了研究热带区域大气环流的框架，该框架可以用来预测全球变暖背景下热带区域大气环流的动力学演化及其影响[75]。

复杂网络在自动建模过程中一方面需要应对系统复杂度的问题，另一方面还需解决数据缺失的问题。在回答系统复杂度这一问题上，Bagrov 等人提出通过重整化群的方法对复杂度进行定义，借助对大尺度的分析来对小尺度现象进行建模[76]。应对网络稀缺性的需求催生了网络重构这一研究领域。Cimini 等人从宏观、介观、微观三种尺度对网络重构问题进行详细的介绍，网络重构可以在数据缺失的情况下最大程度恢复数据完整性，构建更加精准的网络模型，从而实现对显示的精准预测与控制[77]。

七、因果推断与预测

相关关系与因果关系是社会科学研究始终关注的核心议题，由于哲学与自然科学对于客观性、确定性的困惑和摇摆，社会科学中的因果关系长久遮蔽于相关关系中。数据驱动的计算社会科学在研究起步阶段也对大数据过于乐观，认为数据本身和相关关系足以认识和理解社会，因果关系不再重要[78]。但已有大量研究证明，相关性不能取代因果性。相关关系指两个变量在变化趋势上存在某种程度上的一致性，因果关系则强调变量间存在某种逻辑上确定的依存关系。相关关系和因果关系最显著的区别就在于因果关系具有必然性，即原因和结果之间的关系是必然的。尽管大数据具有天然的对相关关系的解释能力，但“因果关系是人类理性行为与活动的基本依据，人类理性本身不可能否定因果关系”[79]。因此，计算社会科学向因果关系的“转身”是重要且必要的。

判定两个变量之间存在因果关系的核心思想在于：在控制其他干扰因素的前提下确定原因对结果产生影响。图灵奖获得者朱迪亚·珀尔（Judea Pearl）提出了因果关系的三层结构，将数据和算法能够回答的因果信息分成三种层次：关联（association）、干预（intervention）和反事实（counterfactual）[80]。关联指观察数据中的相关性规律，干预指预测主体或行动对环境的刻意改变可能导致的结果，反事实则指想象一个并不存在的虚拟世界并反思观察到的现象的原因。关联层和干预层主要针对当前的弱人工智能，而反事实层是基于人类独有的反思能力和思考能力，是从经验到理性的上升，是人工智能取得突破性进展的关键。目前主流社会科学界对因果关系的理解建立在反事实框架（counterfactual framework）之上[81]，“由果及因”地根据观察到的现象对其原因的推断，在推断过程中设计一个“平行世界”，思考如果现在的原因在过去并没有发生，现在的结果会有何不同。因果关系三层结构之间是维度的差异，从关联层到反事实层是一个“升维”的过程。顶层的反事实层处于最高维，通过反事实模型可以同时解释因果、干预与关联的问题，而如果仅掌握关联模型，就无法进行预测与因果推断。

基于反事实框架，社会科学研究中的统计方法难以进行因果推断，原因首先在于统计相关性不能解释因果性，其次统计模型无法处理既影响“因”又影响“果”的混杂因子，会产生因果倒置、伪相关等问题，从而陷入“辛普森悖论”（Simpson’s Paradox）。目前解决这一问题的主要办法有工具变量（instrumental variable）、断点回归（regression discontinuity design）、倾向值匹配（propensity score matching）、实验与准实验（experiments and quasi-experienments）等。在反事实框架理论下，实验与准实验方法最能匹配其逻辑。传统模拟时代，线下实验室实验存在难以组织实施、成本高、规模有限等问题，而大数据时代破除了模拟时代实验面临的诸多限制，为计算社会科学向因果推断转向创造了条件。

邓肯·瓦茨（Duncan Watts）提出，理论需要在现实中得以复现并具有充分的解释能力，因果推断中需要重视预测的部分[13]。基于数据与算法双重驱动下的计算社会科学在因果推断领域的优势体现在三个方面，分别是：在线实验提高实验的内外部效度、大数据驱动下更好处理研究对象异质性以及行为数据对理论构念效度的验证。

随机控制实验的核心在于将实验对象分为实验组与对照组，这两组成员在属性上具有相似性，这样可以将结果上的差异归因于干预（treatment），可以规避混杂因素（confounder）对因果关系的影响。以往研究中广泛采用的观察性实验与实验室实验在进行因果推断时面临诸多局限。例如在对社交网络的研究中，存在同质性、社会传染以及个体属性对行为的影响等混杂因素的影响[82]。这些因素一方面难以通过观察性实验观测得到，另一方面通过实验控制也难以达到理想的效果，即使加以控制也与现实情况不符，影响实验的效度。传统问卷调查方法，人们在填写问卷过程中带有很强的主观意志，会明确地知道自己处于“被研究”状态下，这些外部环境因素都会影响问题回答的客观性和真实性。而基于大数据的计算社会科学通过采用行为追踪数据作为研究对象可以超越严格的实验设置，提高因果推断在社会网络研究中的有效性和对现实情况的解释能力。数字化时代人们在网络中的各种点击、浏览、记录行为都成为大数据，这种行为数据是在无意识中产生的，能够更加真实地反映人们在生活习惯、喜好、社会互动等方面的自然状态。Aral等人采用了110 万人过去五年中在运动中记录下的行为数据，包括地理位置、社会网络联系以及日常跑步模式，并引入“天气”这一工具变量，规避回归性分析中的内生性问题以及个体行为同质性等混杂因素的影响[25]，进而分析社会传染对运动行为的影响。大数据条件下的在线实验还可根据研究需要建构出一个理想化的“平行世界”，Salganik等人研究社会网络中人与人之间的示范与追随作用对音乐市场的作用，人为创造除了一个“音乐市场”，将研究对象分为仅凭自身音乐偏好选择音乐的对照组以及在他人影响下选择音乐的实验组，结果表明随着社会影响会增加音乐产品是否可以获得商业上成功的不可预测性[17]。

大数据的海量性、多样性以及在线实验的大规模参与者为研究集体的社会过程创造条件，一方面可以用来分析群体性社会交往、社会传染对主体行动和观念的影响。由于基数较大，大数据中看似微不足道的作用也会产生明显的综合效应，这在传统规模较小的研究样本中可能难以检测得到。另一方面可以对数据进行分层处理，研究平均效果与异质效果对结果的影响。在Kramer等人对社交媒体中情绪传染作用的研究中发现，情绪充分影响人们的身心健康与行为选择，在Facebook的用户规模下，即使0.1%的情绪效应也会影响每天成百上千个线上用户，这需要充分引起人们对社交媒体用户公共健康的重视[83]。基于大数据的在线实验可以通过对单个影响因素的独立效应以及不同因素的组合效应进行全面评估从而进行因果推断。Bond 等人将研究对象分为三组，对实验组施以不同的干预因素，来评估不同社会互动影响因素及其组合对选举中政治动员的影响[35]。为了研究同辈压力对青少年抑郁症状扩散的影响，研究者将青少年所处的环境进行分层处理，将同辈分为班级同学（classmates）、课外活动同学（clubmates）、自主选择同学（self-selection friends）三种类型，并将抑郁程度分为严重、一般、不严重三种层次。通过对影响因素的分割，减少不可观测的混杂因素的干扰[84]。

通过行为数据、大规模随机控制试验，计算社会科学对社会行为的研究能够更好检验社会理论在现实世界中的解释能力，为现实政策决策提供理论支持，同时模型也更具拓展性，能在各种现实场景下维持预测稳定性。Aral 等人通过对大规模行为数据的追踪以及各层次社会网络的建模，结果显示社会传染的嵌入性和社会结构多样性理论可以用来解释社会传染效应对运动行为的印象，而复杂传染理论没有做到。研究获得了对社会传染效应的精准估计，能够更好地预测社会政策干预的结果[25]。就政治极化形成的原因，回音室效应（echo chamber effect）、文化认知理论给出了各自的解释，但研究通过随机控制实验设计“多重世界”提出了新的“意见瀑布模型”（opinion cascades），为政治和文化分歧提供了另一种解释。意见瀑布模型表明，党派分歧具有高度任意性和不可预测性，参与者的党派选择是内在吸引力和社会影响力共同作用的结果。以往研究只关注意识形态、核心价值和政党认同的内在影响，忽视了政治文化派别由于社会环境与社会互动带来的动态特征，党派分歧可能在不断向对方立场倾斜的过程中产生。研究在以往关于政治极化理论的基础上进行扩展，为政治极化的形成机制提供了新的、可以在现实中得以复现的理论解释[85]。

八、结论和讨论

将数据科学的韦恩图与科学环结合起来，同时加入研究问题、因果推断和预测，构成了本文分析计算社会科学研究的理论框架。为了更好地理解计算社会科学的发展，本文首先介绍了如何基于数据科学的逻辑来拓展科学环的理论框架。基于这一理论框架，从计算社会科学关注的问题、大数据、计算机科学提供的算法、数学和物理学模型、因果推断与预测五个角度对计算社会科学的发展进行综述。

在问题方面，事实上计算社会科学关心的问题并非仅围绕数据和算法两大概念，而是受到数据资源垄断、算法水平受限等诸多限制，因而针对具体的问题在相关学科内展开讨论，即Watts 提出的“采用一种更注重解决问题的思路”[13]。从学科路径梳理大概可以分为社会科学、计算机科学等传统学科内部的研究，统计学、人文学科等相关学科的跨学科研究，以及人工智能等发展中的创新学科的研究等。计算社会科学的一个突出特点是学科界限的模糊。

数据和算法使得对社会现象和人类行为的测量和计算如虎添翼。大规模数据让社会科学研究在数字时代可以无处不在，但研究者的盲目乐观同样值得警惕。研究者对于大数据的运用应当有一些巧妙的策略，将其局限性转化为它的优势。如研究者可以在数据处理阶段对数据进行分组、加权，参考其他权威数据使得研究数据的结构符合现实社会情况，也可以在算法的基础上与传统社会研究方法相结合，针对不同的研究问题，创造性地设计出数据使用的方案，将不同来源的大数据资源配合进行研究。算法作为计算机科学的核心，既是一种任务工具，也是一种复杂科学的思维，算法驱动是计算社会科学在复杂性科学运动兴起和数字时代大规模数据涌现背景下的必然选择。在计算社会科学领域内，词向量模型、字典、主题模型等算法能够和大规模数据产生奇妙的化学反应，而不论是计算社会科学的文本分析与定性编码还是网络科学中的算法，都离不开人工智能，尤其是机器学习技术。

建立模型和因果推断的目标在于理解机制。在模型方面，统计物理和网络科学为社会科学研究提供了新的路径范式和理论框架。人类行为主体以及主体间的交往互动行为具有多重复杂性，基于大数据和算法建构的复杂网络模型能对真实网络系统进行更好的拟合，提供更加精确的预测。目前网络科学面临数据对网络结构完整性的冲击，由此催化的网络重构领域成为新的研究方向。因果推断依然是计算社会科学的核心问题。传统社会科学调查方法囿于样本规模、模型等限制因素难以厘清变量间的因果关系，大数据时代则提供了可能。因此，本文认为计算社会科学向因果关系的“转身”是重要且必要的。

计算社会科学代表了一种将数据科学融入社会科学的浪潮，而不是反过来。目前，计算社会科学已经取得了长足的发展，吸引了大量的研究者进入到这个新的领域当中。使用“计算社会科学”作为主题词在CNKI 数据库中检索，仅能找到117 篇中文期刊论文。一方面，国内关于计算社会科学的研究目前正处于一个起步的阶段；另一方面，计算社会科学领域发表的论文数量呈上升趋势。本文认为计算社会科学的发展遵循数据科学的基本逻辑，追求算法、模型和问题的融合。计算社会科学的发展方向和根本使命依然在于理解重要的社会问题并建构更加强大和有用的理论，这也为新文科建设提供了一种切实可行的操作框架。