社会科学大数据与社会治理:主要应用与实践反思

2020-01-17 02:32林森苗
黑龙江社会科学 2020年6期
关键词:信息

马 磊,林森苗,包 莹

(1.3.上海大学 社会学院,上海 200444;2.复旦大学 社会发展与公共政策学院,上海 200433)

随着互联网与信息技术的迅猛发展,数字化信息日益呈现出爆炸增长态势。今天的人们已完全沉浸在一个充斥着海量数据的“大数据”(The Big Data)时代。大数据已成为社会各界的时髦话题之一,不少国家都加入了这波汹涌澎湃的大数据浪潮中,国务院也在2015年9月印发了《促进大数据发展行动纲要》,这是我国在国家层面第一份促进大数据长远发展的政策性和纲领性文件。习近平总书记在一次中央政治局集体学习时明确指出:“要运用大数据提升国家治理现代化水平。要建立健全大数据辅助科学决策和社会治理的机制,推进政府管理和社会治理模式创新,实现政府决策科学化、社会治理精准化、公共服务高效化。”[1]

究竟何谓大数据?目前,社会各界并未形成一致共识。总体而言,它有四类区别于传统数据的特征:一是规模大,含有大量信息和上亿个观测对象,通常以千万亿字节(Petabyte)来度量;二是速度快,包括了高频数据及其快速处理方法;三是来源多样,传统上不相干的信息被汇总合并在一起,共同构成了大数据;四是数字化,各种信息被大规模地进行数字化处理,这既有助于跨部门的信息分享、合作、存储、处理,也有利于信息的快速分析和远程搜索[2]。

社会科学家和各国的社会政策制定者正在热情拥抱大数据。就像生物学家借助显微镜观察细胞层面的生物现象一样,大数据正是社会科学家手中的“显微镜”[3]。社会科学家使用大数据能够以更大规模、更快速度,在更细微的层面观测与研究人类行为,或检验以往的社会科学理论命题,或拓展新的研究议题,或实现与传统研究方法的融合创新。社会政策制定者借助社会科学家对大数据的研究成果,能够真正实现科学决策,切实提高国家治理现代化水平,实现社会治理的有序良性循环。

本文从大数据的主要应用、大数据的社会影响与自身脆弱性、大数据应用到社会治理领域未来的六大研究方向等三个方面,全面回顾了国内外的代表性研究,系统探讨了大数据与社会科学研究相结合,推动社会治理进步的优缺点。大数据不是灵丹妙药、不能包治百病,但它确实为传统社会科学研究和“善治”开辟了一片新天地,值得社会科学研究者和社会政策制定者认真思考与对待。

一、大数据在社会治理领域的主要应用

1.社会参与

一般认为,新媒体的出现广泛提升了大众参与公共事务的积极性,即所谓“e-democracy”,但该观点一直没有得到很好的验证。Larsson和Moe(2012)使用推特(twitter)的搜索功能,收集了2010年瑞典大选期间所有与选举相关的推文共计99832条。基于这些推文,他们分析了用户的选举参与状况和选举话题的传播趋势[4]。结果表明,推特在此次大选期间确实发挥了重要作用,它拓宽了人们的参与渠道,也为政治家宣传政见提供了高效便捷的方式。

Bond等人(2012)所做的互联网实验,则进一步阐明了社交网络发挥功能的前提条件。在2010年美国国会议员选举期间,他们随机给6100万脸书(facebook)用户发送了不同类型的投票宣传信息。其中,参照组只收到“出去投票”的信息;实验组成员除收到这条信息外,还能看到已参与投票的好友头像。结果发现,收到投票宣传信息后,实验组用户参与投票的概率显著高于参照组[5]。这说明投票动员信息不仅影响了脸书用户的投票行为,还影响到了他们的朋友,以及他们朋友的朋友的投票行为,并且几乎所有信息传播都发生在现实中本来就亲密的朋友中。现实中的人际社会关系强化了社交网络的作用,进而影响了人们的行为选择。

社交网络除了能提升居民参与公共事务的积极性外,是否也能在更局部的范围内,起到加强邻里互动的作用呢?答案是否定的。Bingham-Hall和Law(2015)分析了伦敦东南部的一些推特用户数据后发现,当地居民在推特上都关注了一个核心网络小圈子,这个圈子主要是由当地的一些事务部门构成的,而居民之间彼此并没有太多的关注[6]。这说明推特并未强化居民之间的联系,居民们更多依赖的仍是邻里间的口耳相传。

2.人口流动

大数据能帮助人们准确识别出庞大流动人群的迁移模式。Jurdak(2015)及其同事利用推特文本上附带的地理标签信息,研究了澳大利亚的人口迁移模式。对600万条地理标签的分析表明,人们的短距离和长距离流动基本都是在特大城市完成的[7]。国内学者龙瀛等(2012)使用2008年北京市连续一周的公交卡刷卡数据,结合居民出行调查数据和北京市的土地利用情况,识别出了公交持卡人的居住地、就业地和通勤轨迹,对居民出行模式与通勤形态的分析表明,全市大量居民存在着职住分离的状况[8]。

因就业、职业变动、婚姻等原因而发生的流动,流动人口往往面临着适应或融入本地生活的问题。大数据在这一方面也产生了一些研究成果。国内有学者分析了新生代农民工在北京建立的同乡QQ群,描绘了这个群体所具有的情感特征,展示了群组成员的行为逻辑及背后蕴含的社会文化意义,揭示出了QQ群对新生代农民工的社会支持功能[9]。不过,因这一虚拟社交群体是以利益为导向而建立的,往往是松散而不稳定的,所以很难给流动中的青年农民工提供真正的归属感。

3.经济社会发展

大数据能帮助社会科学工作者深入探讨宏观层面的经济社会发展状况。Goldberg(2015)及其同事从美国一家高科技公司收集了600多名员工历时5年的商务往来电子邮件共计1024万封。他们根据邮件文本内容以及往来邮件所展示出的私人网络关系,分析了员工在公司中的两种嵌入性机制对他们工作绩效产生的影响。结果发现,员工的私人网络关系和所处的公司文化氛围对其工作绩效均有影响,并且两者的作用存在着此消彼长的平衡。员工在私人关系网络中嵌入程度越低,越能从高度的公司文化嵌入性中获益;相反,对公司文化认同较低的员工往往更能从密集的私人网络关系中获益[10]。

有研究者通过汇总个体层面的社交网络数据,计算出了一个地区的社会资本存量,并分析了社会资本对区域经济发展的作用效果。荷兰乌特勒支大学的两位社会学家Norbutas和Corten(2018)收集了荷兰438个城市1000多万社交网络用户的信息,检验了这些城市的社会网络结构与经济发展的关系。研究表明,一个地区的社交网络结构形态越多样,内部平均空间连接距离越长,异质性信息越丰富,该地区的经济发展就越繁荣;相反,一个地区的社交网络越封闭、密度越高、内部平均空间连接距离越短,经济发展往往就比较滞后[11]。丰富密集的社会网络促进了地区内部信息的流动,强化了居民的信任与互动,因此有益于区域经济发展。

还有研究者从互联网的页面上实时抓取价格信息,利用这一大数据来计算价格指数,帮助政策制定者科学认识经济社会发展的态势,从而合理制定经济政策。麻省理工学院斯隆商学院的两位教授Cavallo和Rigobon(2016)使用网页自动抓取技术,从20个国家900多个在线零售商网站中,实时抓取了1500多万个商品的价格,这些实时价格被用来构造该国的消费者价格指数(CPI)或通货膨胀指数[12]。他们的这项工作为人工收集商品劳务的价格信息提供了有益补充,对学术研究与经济政策制定势必都会产生深远影响。

4.老龄健康与长寿

我国正在迅速迈入深度老龄化社会,如何把类型多样的大数据资料与老龄化研究相结合,为中国老龄化公共服务实践和政策制定开辟出一条新路,是摆在社会科学工作者面前的一项重大课题。物联网的快速发展催生出大量可穿戴设备和智能家居设备,这些设备使用新型传感技术,实时采集人类生理活动和社会活动信息,并同步上传至设备终端或云端。这些数据既能帮助医生准确诊断疾病,为老年人提供更合适的治疗方案,也能帮助老年人更长久地维持独立自主的生活,节约护理成本、提高生活质量、维护生命尊严。此外,老年人身体内部基因特征与各种生物医学指标所生成的大数据,同样也为老龄学研究者提供了丰富的衰老与病变信息,有助于研究者破译人类长寿的自然奥秘。

Kestens等人(2016)为了研究城市居住环境对老年人健康的影响,使用多种方法收集老年人与环境互动的信息。他们使用多传感器可穿戴设备收集了老人的日常活动与地理位置信息,使用交互式地图问卷收集了老人的活动终点与社会交往信息,还使用传统的问卷调查法收集了老人对具体地理位置的主观感受信息[13]。这些丰富的信息为定量、定性评估老龄健康与环境关系提供了便利。

基因组数据也是名副其实的大数据。人类基因组计划的研究目标就是对30多亿个碱基对进行精确测序,破译人类的全部遗传密码,其工作量之大令人咋舌。“基因纺织工”(GeneWeaver)的出现极大提高了研究者的工作效率,它是一个基因大数据分析系统,能有效存储、搜索和分析来自实验室、已发表成果和其他数据库的海量基因大数据[14]。它的目标是充分整合多种类型的基因组数据,以此探究人类衰老和长寿的秘密。这个分析系统中的一些工具能把人类衰老过程中的基因、正常生物过程和疾病等因素广泛关联起来,有利于研究者做出新发现。

“基因纺织工”的第一个用途是在细胞衰老和认知下降过程中,探索哪些分子和细胞因素起了决定性作用;其次是探索两种最常见的疾病状态(肥胖和老年痴呆),是否有共同的基因决定因素;再次是识别多重抗衰老干预过程中共同的分子作用机制,例如节制饮食延长寿命的分子生物学机制;最后一个用途是探讨衰老过程中基因功能的稳定性[14]。

根据人口学规律,年龄每增加8岁,人类的死亡率就会翻倍。特别是在40岁之后,诸如癌症、中风的发病率都会加速。基于此,人们通常认为人类机能退化、走向衰老的过程必然是加速的。俄罗斯莫斯科物理和技术学院(Moscow Institute of Physics and Technology)的物理学家Fedichev(2018)并不同意这一看法。他认为,虽然人类的衰老是不可对抗的自然规律,但老化的过程却并非一定是加速呈指数型变化的。即使物种学意义上很接近的两类哺乳动物,也可能表现出差别极大的衰老过程。他进一步指出,把生物医学大数据和复杂动态系统物理学的分析方法相结合,可以建立若干人体衰老预测模型,以便系统地发现人类衰老的生物标记,最终确定未来抗衰老干预措施的新治疗靶点[15]。

寻找具有生理学意义的准确生物标记,是评估各种抗衰老疗法的关键。不同人种在饮食、生活方式、环境暴露甚至平均衰老速率方面往往存在不小的差异,因此有理由相信,经由特定族群收集数据而训练出的老化时钟(aging clocks),更有可能解释上述潜在混杂因素对人体老化的影响,从而提高预测实足年龄(chronological age)和生物年龄(biological age)的能力。以丹麦哥本哈根大学Mamoshina(2018)教授为首的研究团队,通过采集加拿大、韩国和东欧人口血液样本大数据,提出了一个基于深度学习的血液老化时钟模型。与传统的基于特定人口的血液老化时钟模型相比,该模型显示出了更高的个体人群预测精度。通过使用美国人口样本对该模型进行校验,证实了该模型具有优良特性。研究结果表明,特定人群的老化模式和血液老化时钟是全因死亡率的主要影响因素[16]。

二、大数据的另一面

大数据广泛应用于社会科学各领域,有效提升了社会政策制定者的科学决策水平。不过,任何事物都有两面性,在鼓励社会科学家和社会政策制定者热情拥抱大数据的同时,我们亦要提防大数据自身的一些缺陷,以及它在人类社会生活中扮演的负面角色。下面,笔者将从批判性视角详细阐释大数据在社会治理领域应用中很少被提及的另一层面相。

1.大数据与社会安全正义

大数据应用于社会治理的一个重要方面是对违法越轨行为的监督与监控。相比传统的犯罪调查方式,利用闭路电视、摄像头、卫星等技术手段实施精准监控的优点不言而喻,例如数据全天候实时传播、360度无死角覆盖、可以进行长时段的回溯与追踪,从而提升了社会的整体治安水平和人民群众的安全感和满意度。美国社会学家Brayne对洛杉矶警察局的田野观察和访谈表明,公共安全部门利用大数据对目标人群实施监控已变得相当普遍,这种监控无论在深度还是广度上都远超传统的监控方式[2]。

在这一背景下,社会研究者通常关心的是,新的监控方式究竟是否强化了原来的社会不平等?一种观点认为,大数据监控能有效改善原来的社会不平等状况,原因是:第一,它提供了精准而完整的数据信息,可以纠正警察对弱势群体的刻板印象与偏见,减少对社区信任的破坏,维护司法公正,促进社会进步;第二,它提供了系统化的数据信息,可以用来监督警察的违法行为,从而降低警察随意执法、选择性执法的机会,保证执法的透明性与可信性。

但亦有观点认为,某些时候大数据监控反而会再造不平等。首先,大数据监控通常是以数字来测量每个人的犯罪风险,这样的做法表面看起来非常客观、公正,但实际上背后却隐藏了人类的主观偏好与判断。一个人的犯罪风险得分越高,越可能随时被警察盘问,而有被盘问记录又会进一步增加他的犯罪风险得分,从而形成大数据预测犯罪概率的自我循环,加重了犯罪嫌疑人被定罪的可能性。

其次,由多部门、多类型数据整合而成的大数据监控模式,往往会产生巨大的威慑力,那些更看重个人隐私或谨防污名化的公民将对此类监控机构避而远之,以免留下记录自己行为动向的数字痕迹(digital trace)。例如,有过牢狱经历的人对此类监控模式就异常敏感,他们在就医、从事金融活动、接受教育、就业等方面往往如履薄冰,尽量避免自己的信息被收集和记录到这一系统中,这在一定程度上恶化了此类群体与优势人群的不平等状况。

客观地说,大数据监控中产生的社会不平等,主要源于人们对数字客观性的盲目崇拜,以及大数据收集与分析过程中的歧视和偏见。大数据崇拜症认为凡是数据都是客观的、无偏的,而实际上,数据的产生与分析过程往往是由人介入的,是主观的。只有充分理解大数据收集与分析的每个环节,才有可能认清数字背后隐藏的偏误及其来源,也才有可能更好地让大数据服务于社会安全治理,实现社会安全正义。

2.大数据的脆弱性

大数据除了在社会安全治理方面的应用存在一定的争议之外,它自身也充满了脆弱性和道德伦理风险[17]。首先,大数据并非全样本,社会统计调查中所面临的代表性问题和概化问题,大数据同样不可避免。数据的量大并不能解决所有问题。虽然大数据是对特定人群及其行为信息的普查式记录,但这种记录和人口普查还是有很大差别的。由于大数据缺乏明确的抽样框,分析大数据时是无法计算出抽样权重的,因此也就不能估计出统计推断误差的范围,更不用说有效甄别出哪些样本或案例是代表性不足或是过度代表的。

大数据面临的概化或一般化问题主要表现在数据平台的多样性上。例如,不同社交平台的运行规则往往存在差异,用户在不同平台上如何互相关注、如何发布信息、如何评论与转发等等,也会有所区别,甚至用户群体自身的背景特征也会存在很大不同。依靠单一平台产生的数据信息来研究社会问题,其结论能否有效推广到其他平台,这一点是存在质疑的。

此外,人们往往同时使用若干平台,仅仅依赖单一平台产生的数据信息能否完整捕捉人类行为特征模式,也是要打一个问号的。例如,仅使用手机通讯数据,如何能准确观测并展示用户的情感特征呢?解决这一问题的根本出路在于使用多平台数据信息,进行交叉验证与推断,这也是未来大数据社会科学研究的一个重点。

其次,大数据的脆弱性还表现在数据产出过程的变动不居上。产生大数据的平台自身也会出错,而这些错误或偏差有时会被研究者误认为是用户行为特征的变化,从而得出错误的结论。此外,平台自身的运行规则也并非一成不变,而平台用户的行为总是会随着平台规则的改变而变化,反过来,平台用户的一些偏好或习惯也会影响平台规则的制定与修订,平台规则与用户行为的这种交互影响进一步增加了大数据的复杂性。社会研究者需要清晰把握大数据产出平台的历史演变与运营机制,才有可能准确揭示出人类行为特征模式的细微变化。

最后,大数据的脆弱性还表现在对平台用户不切实际的理想假定上。大数据崇拜者通常认为一个用户对应一个账号,用户的行为能准确完整地反映在各类大数据信息当中,但实际情况往往是,很多平台账号背后并非全都是人类,有很多账号其实是由机器人操控的,而它们很难被侦测到;有很多用户往往注册了不止一个账号,以此来掩饰自己的真实身份;更何况,不同用户使用平台的目的是不同的,有很多组织机构的公众账号在平台上的行为都包含了隐藏的目的。总之,单一的、一以贯之说真话的理想型个人用户是不存在的。

三、结语与展望

社会科学领域的大数据指的是那些对人类社会生活进行了全面数字化记录的信息资料。大数据的出现极大拓展了社会科学家观察、理解、分析和预测人类行为的广度与深度,从而提升了大数据分析成果应用于社会政策领域的精准性、科学性和有效性。

目前,在社会治理领域,大数据已被广泛应用于社会事务参与、人口迁移流动、经济社会发展、老龄化与健康长寿等议题,产生了一批高质量的学术成果,并迅速转化为各国科学制定社会政策的坚实基础。在这些成果中,有的是使用大数据检验了一些过去难以检验的理论观点,有的是通过分析大数据发现了一些新的社会规律,还有的则是直接使用多种类型的大数据指导经济社会发展、提升社会治理的现代化水平。

本文也提醒社会政策制定者一定要谨慎对待大数据,包括数据的收集、存储、分析、应用等各个方面。首先,要防止大数据被滥用和误用。公共安全部门利用大数据推动司法正义和社会进步是好事。但研究表明,使用大数据监控人类社会也会塑造出新的不平等,原因是大数据背后隐藏了人类的主观偏好,它并非像人们想象的那样客观公正无偏。其次,大数据自身也存在着脆弱性问题,包括研究对象的过度代表或代表性不足,缺乏多平台大数据的交叉检验,数据平台自身的不稳定性引致的数据变动,以及对平台用户过度理想化的假定等。大数据是发挥正面还是负面作用,完全取决于人类如何认识并使用它。笔者建议未来社会治理领域的大数据研究应该从以下六个方面进行拓展与创新:

第一,把大数据和传统调查数据有机结合起来,以提升大数据应用于社会治理领域的全面性和准确性。大数据并非传统社会调查数据的替代品,而应与传统数据资料相互补充、相互参证,共同推动社会科学研究在理论框架、研究内容、研究方法、研究资料的整合与分析方面取得进步,从而有利于科学精准地制定相关社会政策。大数据的优势在于数据的丰富性和规模,而传统调查数据的优势则是它的样本代表性和测量相对准确,当使用各类数据来分析经济社会发展问题、提供政策建议时,如何能确立一些基本的原则,做到对两种数据扬长避短、各取所长,是未来大数据社会治理研究急需解决的基础性问题。

第二,变革大数据收集的理念与方法,践行以参与者为中心的社会治理理念。传统数据(无论是调查数据还是访谈资料)的收集是以研究者为中心的(researcher-centered),大数据的收集则是以参与者为中心(participant-centered)。社会科学研究者需要转变数据收集的理念,设计出更具吸引力的数据收集方法,因为研究对象不再是近在咫尺的被访者,数据的收集过程也并非是你问我答、有来有往,大数据时代的社会科学研究对象已变成成千上万的互联网用户,他们隐藏在电子屏幕背后,只要他们轻轻触动一下指尖,研究者立刻就能获得数以万计的信息资料。信息时代每个人的时间和注意力都是宝贵的,如何以参与者为中心,充分调动他们参与项目研究的积极性,在整个数据收集过程中给普通用户提供良好的体验,是大数据时代需要反复揣摩的课题。

第三,创新大数据的类型化分析方法,从方法层面提升大数据应用于社会治理领域的精准度。大数据的规模通常极其庞大,如果不进行恰当的归并与分类,很难从中发现具有一般科学理论意义的规律模式。例如,在互联网公共事务参与研究中,面对几百万微博用户,研究者需要识别出哪些是信息发送方,哪些是接收方;哪些是意见领袖,他们发送或转推信息的行为是否更具自主性和独立性;哪些仅是边缘跟随者,他们的行为是否更具盲从性和随意性;哪些是信息传播的中介与桥梁,他们是否控制、筛选了新信息的流动方向,等等。合理分类是进行理论解释与科学预测的基础,大数据分析必须高度重视信息分类问题。

第四,关注不同来源大数据的比较分析问题。以社交网络大数据为例,不同文化背景下的社交网络行为是否有差异?不同社交网络平台反映出的用户行为是否有差异?在伦敦社区研究中,推特数据显示社交网络并未加强本地居民的联系,他们更多的是关注了一个公共部门小团体,该结论是否适用于当前我国居民的社交网络行为?微信上建立的社区群是否强化了居民间的日常联络?这都需要研究者通过跨文化、跨平台的比较才能得出可信的结论。

第五,关注大数据共享与分析的多学科合作问题,以学科间合作促进社会治理现代化水平的提升。以老龄学研究为例,无论是使用老年人的行为数据,还是生理与医学数据,都需要社会科学家、生物科学家、医药专家等进行跨学科的合作研究。不然,纯粹分析基因大数据、生物医学大数据是无法解释外在社会环境因素对老化过程影响的,纯粹分析社会环境因素对健康长寿的影响也是有失偏颇的,重要的是建立社会科学与其他学科的长效对话协作机制,从而推动我国老龄化大数据研究的实质进步。

第六,要把道德伦理问题置于大数据社会科学研究的中心,这是尤其需要提醒社会政策制定者注意的地方。传统社会科学研究者对研究伦理问题要么避而不谈,要么轻描淡写,大家形成的共识似乎是我们不否认研究伦理的重要性,但实践中却认为只要了解一下就好,没必要过度深究。大数据时代,许多数据变得廉价甚至唾手可得,但这同时也意味着数据的大规模泄露、个人隐私的被侵犯变得易如反掌,其负面社会影响力不可小觑,直接影响现代社会治理的广泛民意基础。把研究伦理置于大数据社会治理研究的中心,既可以设计出一些限制研究者接触个体数据、而只能使用汇总数据的规则,也可以建立大数据学术成果审查机构,该机构的审核结论将成为相关成果是否公开发表和应用于社会治理实践领域的重要依据。

猜你喜欢
信息
订阅信息
展会信息
信息超市
展会信息
展会信息
展会信息
展会信息
展会信息
信息
健康信息