喻国明
百度 (www.baidu.com)作为中文互联网第一搜索入口,在中国覆盖超过95%的网民,日均有超过40亿次的搜索请求。百度搜索词的海量数据代表了中国网民最真实、最客观的精神需求和信息寻求的行为特征,勾勒了一幅描绘中国社会生活诸领域的真实画卷。在某种意义上可以说,百度搜索词已然成为反映中国社会变迁的重要风向标和社会舆情参照系。
但是,一个个搜索词最多只是对中国社会整体发展面的碎片式的反映,并没有给社会公众提供一个关于社会整体状况的坐标系,使得人们对社会整体的现实走势和未来发展很难把握。基于此,百度公司委托中国人民大学舆论研究所进行百度搜索词数据的深度价值挖掘。我们利用数据挖掘方法,在国内首次提出了中国社会暖度指数、中国社会舆情运行压力指数、中国经济关注指数、中国民生关注指数、中国社会责任关注指数、中国创新力关注指数、中国社会期待关注指数、中国环境生态安全关注指数、中国金融安全关注指数、中国信息安全关注指数、中国人口安全关注指数、中国资源安全关注指数、中国卫生安全关注指数、中国公共安全关注指数等一系列反映中国社会基本面状况的社会评价性指标,并对不同网民的需求特点进行了较为精确的描述和分析。
本文根据2009—2012年百度每年搜索量最高和关注热度上升最快的前1 000个搜索热词总搜索量的相关数据,进行分析统计并得出结论。
世界已经进入了大数据时代。所谓 “大数据”,直观理解就是信息和数据量的规模十分巨大,无法用常规的信息技术手段和软硬件工具进行感知、获取、管理和处理的数据集合。大数据时代的生成背景是:数据获取技术的革命性进步、传感器等自动采集的数据、Web2.0等用户生成数据 (UGC)以及移动设备生成的数据(位置、移动和行为信息等)。大数据具有规模性、多样性、高速性和有价值等特点。大数据分析就是以诸种创新的方式对海量数据进行分析、梳理和加工,获得具有巨大价值的产品和服务或深刻洞见的数据及处理方法。
大数据分析的主要技术手段是采用数据挖掘(Data mining)。数据挖掘又称数据库中的知识发现,即指从数据库的大量数据中揭示出隐含的、前所未有的并具有潜在价值的信息的价值聚合、提炼的过程。我们对于百度搜索词数据所进行的、反映社会基本面状况的舆情指数的计算,正是基于百度作为搜索引擎的技术特性设计和数据价值挖掘的方法而构建起来的。
搜索量的高低反映了民众对该关键词所代表的事件的关注程度。百度作为国内第一大搜索引擎运营商,从后台数据库中可以提取出每一个搜索词的对应搜索量。但每天高达40亿次的搜索数据不但数量极为巨大,而且所指对象也极为繁杂。大数据处理的一个重要逻辑就是将价值含量较低的海量数据进行价值凝炼和萃取,在不失代表性的前提下进行数据简化处理。这对于舆情分析而言不仅是必要的,而且是可行的。
社会舆情分析所关注的是社会基本面的描述和分析,对于不涉及基本面的非权重的分散数据的处理不但极大地增加了数据处理的成本和难度,还会在相当程度上使数据处理受到非相关信息的扰动而使结果变得不甚清晰。按照统计学的原理,就社会基本面的舆情呈现而言,TOP1 000热搜词和上升最快的TOP1 000热搜词足以代表民意的集合性关注及变化消长,其中TOP1 000热搜词反映社会关注的基本面,而上升最快的TOP1 000热搜词则反映了新出现的新闻事件的社会关注度。这两类1 000个搜索热词可以较为粗略地 “刻画”出中国社会 “舆情地图”。因此,选取TOP1 000热搜词和上升最快的TOP1 000热搜词作为舆情分析的数据处理对象,不但数据量得到极大精简,而且也使 “民意图像”更加凝炼和清晰。
社会暖度、社会压力以及幸福感等都是内涵极为丰富的抽象概念,但又是反映社会基本面的重要指标。对于这类舆情指标的数据提取,传统的方法是从这些概念的定义出发,进行概念操作化的指标确定。但从反映实态民意的角度看,人们对于 “温暖”、“压力”、“幸福”的实际理解和感受或许要比基于理论定义的概念操作化更能反映舆情的实态。换句话说,人们正是在这样的意义框架里感受社会冷暖、社会压力和社会幸福的。而对于网络上的海量文本的核心词语 (如 “温暖”、“压力”、“幸福”等)进行社会语义分析,可以帮助我们准确定义当下中国人头脑中关于这些核心词语的心理感受域 (语义范围及权重大小)。
在本项研究中,我们采用了社会语义分析的方法,通过 “人大—方正舆情监测分析系统”采集对应于某核心词的海量网络相关文本,再依据社会语义分析软件去分析当下中国人心目中实际理解和感受下的相关概念的核心内涵究竟是什么,并根据社会语义分析的结果(根据分解出来的各个语义词与核心概念之间相伴出现的频次概率、与核心词的字符间隔数以及正负情感评价等)将TOP1 000热搜词中的所有相关词进行加权处理,计算出每一核心概念所负载的舆情指数。图1是我们对于构造舆情指数的指标中的核心词 (如社会暖度、社会幸福、社会期待和社会责任)按照现阶段民众的实际社会表达所分解出的该概念的社会语义分析图。
在前述数据处理的基础上,我们对相关热搜词数据进行了标准值转换,以便于在统一的尺度上进行比较分析。同时,由于国内近三年网络的普及率的变化,我们在计算2009年、2010年、2011年、2012年热搜词的搜索量时进行了适当校正,校正系数是根据2009年、2010年、2011年和2012年的中国互联网普及率的差值计算而来的,这使舆情指数具有横向序列和纵向序列上的可比性。
为了使得各类系数与民众主观常识相对应,将所有指数在同一个构面上通过标准值转化,均换算为0~100分之间。相关技术路线如图2所示。
图2 将所有指数在同一个构面上通过标准值转化换算
中国社会暖度指数集中体现了一个个社会事件在人们心目中所引起的关于社会环境的主观感受及情感体验:是 “有温度的”,还是 “冷冰冰的”。这一指数的高低是社会公众感知整个社会环境友善及亲和程度的 “温度计”。见图3。
图3 中国社会暖度指数
从图3可以看出,2012年中国社会暖度有所回升。由于中共十八大以后一些新的政治举措使得整体社会感知暖度有所上升,但上升幅度不大,仅为51.7分。另外,2012年像2011年发生的 “小悦悦事件”等涉及全国范围的社会寒心事件数量有所下降,在一定程度上造成了社会总体暖度有所上升的感受。
“幸福”是2012年的年度热词,但幸福是一个相对来说比较难以界定的情感词。本研究将网民搜索的热词与社会语义分析的相关词进行对位和赋值 (见图4),集中显示包含着幸福评价意义的相关搜索热词给人们带来的幸福期盼和美好体验。
图4 中国社会幸福指数
从图4整体来看,2012年社会幸福感扭转了往年不断下降的趋势,和社会暖度一样有所上升,但上升幅度不大,仅为1.6分。中央电视台记者采访 “你幸福吗?”虽然看似 “鲁莽”的简单发问,但在一定程度上引起了国人对幸福的重新定义和解读,民众开始反思社会快节奏带来的压力和紧张以及对幸福的感受,于是 “幸福”成为2012年的一大热词。整体来看,整个社会幸福感依然在一个较低位运行,甚至低于社会暖度指数,仅为48.4分。这表明,中国民众的普遍社会感受尚处于 “低幸福”的水平上。
图5 中国社会运行压力指数
社会运行压力指数是由民众相关搜索中涉及的信息对社会正常运行表现为负面或不利的搜索请求的数据整合构成,其整合后的指数指标所呈现的是社会紧张度,也代表着社会管理的压力指数。见图5。从图5可以看出,较之前几年,2012年社会舆情的整体压力指数持续上升,全年的社会舆情压力指数处于一个相对很高的位置,由2009年的46.1分快速上升为2010年的80.9分、2011年的83.9分,再升至2012年的85.7分。这种社会压力居高不下的现实态势亟待社会管理机制的有力变革,才有可能从根本上解决近几年高企的社会压力指数。不然的话,社会危机随时可能发生。
从图6可以看出,2012年,中国老百姓最为关注的三大热点领域为:社会民生、社会期待和公共安全;其次是社会责任和社会经济、卫生安全。这是未来若干年整个社会发展和政府治理的基本 “问题单”,社会民生的改善事关整个社会的稳定和可持续发展,而社会期待所反映的更多的是民众对推进改革、解决社会不公等问题的强烈期盼。因此,发展民生和大力度地推进改革理应成为未来整个社会政治运行的主线和关键词。
图6 中国社会民生、社会期待、公共安全、社会责任、社会经济、卫生安全等关注指数
从图7可以看出,近四年来,社会民生是公众高度关注的首要问题,与此相关的公共安全、卫生安全和环境生态安全也是公众持续关注的基本社会问题。其中,增长最快的是社会民生,由2009年的58.3分上升到2012年的118.5分,强度增长1倍多。此外,社会公共安全话题一直是人们四年来持续以较高的热情关注的焦点问题。
图7 各指数四年来的变化趋势
基于百度搜索词的大数据分析方法所构建起来的、反映社会舆情总体特点和态势的舆情指标模型是否科学及有效?我们不妨通过从2009年开始运行的 “人大—方正舆情监测分析系统”所采集的另外一套社会舆情的分析逻辑体系中的相关指标——社会运行压力指数来进行有效性检验。
在这套舆情监测分析系统中,社会运行的压力指数被定义为单位时间段内舆情热点事件的数量以及每一舆情事件的单位烈度。因为从社会管理的角度看,每个舆情热点事件对于社会而言,相当于是一个需要耗费管理资源的“火药桶”;而每个事件的舆情烈度指数则代表着每个 “火药桶”的TNT当量。因此,将得到一定烈度 (“人大—方正”系统的设定值为舆情烈度值60分以上的舆情热点事件)的舆情事件的数量和质量指标加总合成的指数,是衡量中国社会舆情压力或社会紧张系数的重要指标之一。
基于 “人大—方正舆情监测分析系统”对2009—2012年上述两项舆情指标的测算结果见图8。
从图8可以看出,2012年60分以上的网络热点事件总计455个,超过2011年 (349个)一百多个,而2011年为274个,2009年为248个。总体来看,2012年相较于2011年出现了显著增长,事件个体数量增长了106个,年增长率为30.3%,相较于以往三年,中国社会舆情整体压力呈现出逐年提升的加速度趋势。这种趋势的出现,一方面说明微博等社会化新兴媒体的崛起改变了传统的社会话语言说格局和社会话语权分布,草根阶层掌握了更多的社会话语权和话语平台;另一方面也的确说明我们目前所处的社会现实及存在矛盾进一步激化的趋势,为社会管理者进行相应的社会改革尤其是政治体制改革提供的空间和时间越来越有限。
图8 2009—2012年舆情烈度超过60分的热点事件的月度分布数量及四年来的变化趋势
如果我们将每月的舆情事件所对应的舆情烈度进行加权,可以得到每月的舆情总指数 (见图9),然后再计算出该月度平均每个事件的舆情烈度指数 (见图10)。从图9、图10可以看出,与月度舆情事件的个数相对应,四年来整体的舆情态势呈现出逐年上升的趋势,尤其是2012年的增长趋势最为明显,这便在相当程度上证明了中国社会舆情压力在不断提升的社会现实。
图9 2009—2012年以月度为单位的舆情总指数及四年来的变化趋势
如果以 “社会压力”这一舆情指标为例,将基于百度热搜词的大数据分析的相关结果与基于“人大—方正舆情监测分析系统”所获得的相关结果进行比较分析,我们可以很明确地看到两套数据。虽然数据来源和处理逻辑各不相同,但在反映社会舆情的涨落变化、总体态势方面却惊人的一致。
由于两组数据均进行了等间距的标准值处理,我们对两组数据间的相关度进行了皮尔逊(Pearson)相关分析,数据测定结果表明,这两组数据间的相关系数r=0.964,属于极为强烈的高度相关 (见表1)。
图10 2009—2012年以月度为单位的每个热点事件的平均舆情烈度值及四年来的变化趋势
表1 两组数据间的皮尔逊相关分析的数据测定
上述关于 “社会压力”两组舆情指标的相关分析的数据测定结果在相当程度上表明:本文所构建起来的见微知著、基于百度热搜词的大数据分析模型是有效的和科学的。
本项舆情监测系统的数据分析表明,当下中国社会舆情的压力指数正处于一种持续高位运行的态势。研究表明,我国已进入社会事件多发性阶段,变化和不确定是这一时代人们生活的主题,危机成为个人乃至社会难以按照传统方式加以控制的难题,即使是统计或精密的数理模型也无法精确预测。危机已经不再是一个个单纯的随机概率事件本身了,而是环境、秩序、规则或者契约的系统性破坏或错位,是一种社会常态化存在。这种社会紧张度持续高企的现实,要求我们必须从制度上建立更多的社会对话与沟通机制,建立社会的 “安全阀”机制,让人们的抱怨、不满有一个宽松合理的制度化的宣泄路径或平台。
社会安全阀 (social safety valve)亦称社会安全阀制度,是社会冲突理论中用以表示社会冲突积极作用的概念,指各个社会都存在着这样一类制度或习俗,它作为解决社会冲突的手段,能为社会或群体的成员提供某些正当渠道,将平时蓄积的压抑、不满情绪及个人间的怨恨予以宣泄和消除,从而在维护社会和群体的生存、维持既定的社会关系中,发挥 “安全阀”一样的功能。结合当下的中国实际,当社会紧张度高企的时候,我们需要一种对话沟通机制,甚至需要一些娱乐性节目来实现代偿性满足,以及让人们在网络上吐槽实现一种低代价的社会宣泄。对于人们在网络上的发言应该持更加宽松和开明的态度,不能将已经十分有限的社会安全阀 “关闭”。须知,过度抑制舆论的多样性表达只会让危机暂时后延,其结果只会使压力和危机以更加猛烈的方式爆发出来。
从社会管理创新的角度看,应该完善社会安全阀机制和社会代偿机制。社会安全阀机制是指对立、紧张情绪可通过向替代性对象发泄而予以消除的机制。应进一步完善这类安全阀机制,通过构建更多的社会安全阀来缓解日趋紧张的社会压力。
网络事件的火爆,燃烧的是网民的热情,但网民的热情是有限度的,好比一支蜡烛,燃烧一次,就短了一截。同质同类事件的不断演绎,假如仅仅是现象的罗列,只能让更多的网民徒增无望和暴戾。如果不能有效地引导民众的不满和愤懑并从线上和线下两个领域来建立长效机制的话,大众媒体不能对真相显示之后进行深度思考和旨在改变的纵深开掘,网络上就会不断积聚暴戾,一方面转化为网络仇恨,并充斥整个网络;另一方面这种仇恨由线上转为线下,现实社会压力不断增大,造成社会结构的脆弱和不稳定。通过目前的舆情监测数据,可见网络中隐隐弥漫着一种 “仇富”、 “仇官”、 “仇公检法”甚至 “仇医”的社会心态。而这样一种 “仇心态”背后更广阔和更深刻的背景是社会阶层的 “固化”、社会资本分配 (贫富和权力等)日益两极化、整个社会分化日益加深。
一个理性的社会,应该允许各种言论存在,否则,任何不据事实的偏袒都会造成阶层新的裂痕,使裂口越拉越大,终至断裂到无法修复。只有少数富人加上大多数穷人所组成的 “倒T型社会”,其阶层对立之强和利益冲突之烈,是无法用任何说教和道德约束来统领整合的。
在中国,“社会黏合剂”在整个社会是缺位的,因此,需要在全社会范围内构建一个公共话语平台。政府应该成为社会沟通平台的构建者和秩序的维护者,社会学中的 “自我决策效应”和舆论学中的 “观点市场”等理论都认为公众具有自我判断能力,各种观点只有在充分的表达和交锋中才能形成社会共识,而凝聚共识是当下中国社会最为紧要的关键之举。