吴诗贤 张必兰
〔摘要〕[目的/意義]探讨网络舆情事件中群体观点的演变规律,构建有效预测其演变趋势的方法。[方法/过程]参考物理学中场的思想和信息科学中数据场的方法,引入观点场概念,提出了一种基于观点势的观点潜在影响力评估模型;然后将该模型运用到微博评论的群体观点演化分析中,建立了微博评论的观点趋势预测方法。该方法的基本思想是以当前评论的观点势分布来预测未来评论的观点分布,在观点势计算时,以既有评论的排序值代表新的信息受众所处的参考场点与观点场中既有评论之间的距离。[结果/结论]通过实际的微博舆情事件数据实验表明,该网络舆情群体观点趋势预测模型能较好地评估已发表的显性观点对后来网民观点形成的影响力,具有较高的网络舆情观点趋势预测准确率。
〔关键词〕群体极化;观点场;观点势;影响力;评估模型;微博;评论;演变规律;演化趋势;网络舆情;舆论趋势;预测
DOI:10.3969/j.issn.1008-0821.2018.09.012
〔中图分类号〕G202〔文献标识码〕A〔文章编号〕1008-0821(2018)09-0074-05
An Opinion-Field-Model-Based Method for Prediction of the
Evolution Trends of Opinions of Microblog CommentsWu Shixian1Zhang Bilan2
(1.Computer Science and Information Engineering College,Chongqing Technology and
Business University,Chongqing,400067,China;
2.Library,Chongqing Technology and Business University,Chongqing 400067,China)
〔Abstract〕[Purpose/Significance]To explore the formation and evolution of group opinion trends in cyber public opinion events,and to construct a corresponding method for efficient prediction of the evolution trends.[Method/Process]Based on the analysis of the generation and evolution of viewpoints in network public opinion events,the concept of opinion field was introduced with reference to the idea of physical fields and data fields in information science.An evaluation model for the impact of opinion potential was thus proposed.The model was applied to the evolution analysis of the group opinions in microblog comment groups to establish a method for protection of such evolution trends.The basic idea of this method was to predict the viewpoints distribution of future comments & opinions based on the distribution of the current opinion potential,the quantification of which was based on the rankings of current comments that represented the distance between the reference field point (in which the new information audience was located) and the existing comments in the opinion field.[Result/Conclusion]The actual data experiments on microblog public opinion events showed that the forecasting model of the evolution trend of network public opinion & group opinion could better evaluate the influence of the published explicit opinion on the forthcoming formation of the netizens opinions,and predict more accurately the corresponding evolution trends.
〔Key words〕group polarization;opinion field;opinion potential;impact;evaluation model;microblog;comment;evolution rule;evolution trend;public opinion;opinion trend;prediction
相较于现实环境下的群体交流,传播过程的匿名性、舆情汇聚的便利性、舆情演化的马太效应等新媒体舆情发展特征,使得网络舆情事件往往容易形成群体观点的极化,并极有可能向网络群体激化方向发展乃至酿成现实社会群体性事件,甚至危及社会公众安全与政治稳定。因此,在网络舆情事件发生的早期,及时把握网络舆情观点发展趋势是舆情监控、舆情群体极化预防的重要措施之一。
情报学、社会学等多个领域的学者们从舆情形成机理、以及动力机制、演化规律等多方面展开了网络舆情群体观点演化相关问题的研究,取得了丰富的研究成果。典型的舆论演化模型主要有三类:一类是建立在微观个体之间有界信任基础上的DW模型[1]、HK模型[2],以及有界信任模型的改进模型[3-4];另一类是以复杂网络为载体的舆论演化模型[5-7];还有一类是将复杂网络和有界信任相结合的舆论演化动力学模型[8]。现有的舆情观点演化分析,大多基于给定的观点网络结构,采用一定的网民观点交互影响及更新模型来评估群体观点的演化,而在实际网络中,舆情事件的参与者数量及相互之间的链接关系时刻都在变化,信息传播的拓扑结构演变非常迅速,是典型的动态时变网络,直接定义在两两网民对上的观点影响模型,难以刻画未直接链接的网民之间观点的影响;模型验证也多以仿真为主、基于真实演化数据进行的实证分析较少。同时,笔者通过对多个实际舆情事件观点演化案例的分析,发现一旦网民在网络上表达观点后,受包括意见领袖在内的其他网民的影响而改变观点的并不多,大量观点交互的结果往往是谁也说服不了谁。网络舆情事件群体观点的极化,一般并不是初期参与舆情事件讨论的网民的观点由分散转向极化,而是后期不断增加的网民观点向前期影响力大的观点偏移形成的。因此,舆情事件群体观点的演化预测,关键是要较准确地评估已发表观点对后来网民观点形成的影响力。
微博、微信等新社交传媒工具能真实地记录针对具体舆情事件的各种评论的大量属性(如点赞量、回复量等),为观点演化理论和实证研究带来新的机遇。但是,在微博等社交环境下,已有评论与新信息受众之间很多时候并无直接链接记录(比如,网民进入某博文评论区浏览,是难以准确记录他实际看了哪些评论的),这种情况下已有评论对后期网民观点的影响是在非直接链接情况下实现的。
为了描述这种非直接接触式作用,本文在对网络舆情观点形成规律分析的基础上,受物理学中关于场的思想方法的启发,引入虚拟的观点场来分析舆情事件中既有评论观点与新信息受众之间的作用,通过拟核力场势函数描述既有观点在观点场中空间上的分布,以此为基础构建已发表观点对后来网民观点形成的影响力评估模型,并利用该模型建立微博评论群体观点趋势预测方法,最后利用真实舆情事件数据对该方法进行了验证。
2018年9月第38卷第9期现代情报Journal of Modern InformationSep.,2018Vol38No92018年9月第38卷第9期基于观点场模型的微博评论观点演化趋势预测方法Sep.,2018Vol38No91研究对象界定
舆情的事件的性质和敏感程度等很多因素都会直接或者间接影响网络舆情演化的趋势。对于良恶定性毫无争议、超越了多元主观认知临界的舆情事件,网民观点受基本伦理道德规范的约束易出现单极群体极化现象;而那些事件信息模糊、话题争议性显著的舆情事件,相对立的观点情绪都可能引起广泛共鸣,受群体情绪演化影响显著、舆情场极化可向多方向发展[9]。前一种情况的舆情事件,其极化方向是显而易见的。本文的目标是构建观点可向多方向发展类舆情事件的观点趋势预测方法。
2观点场模型
物理学中把场作为描述物质之间非接触相互作用的介质,描述场的性质和运动规律的场论成为现代物理学的重要分支,其相关概念和思想被广泛引入到其他学科领域。如,吴国恩利用情报场来描述信息施体、信息受体之间非接触相互作用[10],淦文燕等利用虚拟数据场来描述数据对象之间相互作用[11]。
借鉴物理学和情报学中场的思想和方法,本文引入观点场的概念来量化描述观点的影响力和相互作用。
21观点场的定义
参照物理场和数据场的概念,假设在网络舆情事件发生后到某一时刻T,共产生了n个观点构成观点集V={v1,v2,…,vn}。如果将这些观点及其作用看作一个物理系统,V中的任意一个观点视作一个具有一定观点质量的粒子,那么它在产生之后就会在周围形成一个作用场,n个观点的作用场合成为整个輿情事件的观点场。
22观点场的势和势函数
舆情事件观点场的势可理解为已经发出显性观点信息的观点粒子所具有的潜在影响能在观点场的分布。与物理场类似,在观点场中也可以定义势函数,观点势函数描述的是单个观点在观点场的分布规律。某场源观点在场中某点的观点势则由场源观点的观点质量以及场源与该点之间的距离确定。考虑到观点影响作用随着距离的增长快速衰减的短程特性,参考数据场势函数定义,本文用具有良好短程作用数学性质的拟核力场高斯势函数来描述任意观点vi的作用,则任意观点vi∈V在场点j的势函数为:
φvi(j)=mie-rijσ2(1)
其中,mi为观点vi的观点质量;σ为控制每个观点的作用力程系数,即影响因子;rij为场源观点vi与场点j的距离。
根据上述拟核力场高斯函数的性质,对于给定的σ值,每个观点的影响范围近似为3σ/2单位距离的局域区域,当距离大于3σ/2单位距离时,观点势函数值很快衰减到接近0。因此,为了简化计算,某个场点的势值不需要精确计算所有观点对象的影响合力,而只需要叠加以该场点3σ/2单位距离邻域内的观点产生的势值。
23观点质量
观点质量是指观点蕴含的对其他网民观点在距离为0时影响力的大小。观点质量的大小主要由观点载体(一般为1篇博文、1个论坛帖子、1篇新闻文章、1个评论等)的说服力等属性以及观点发布者的固有影响力确定。承载观点的文本一经发布,其所蕴含的观点情感倾向和强度等属性不随时间变化而改变、在具体舆情事件演化的一定时间内观点发布者的固有影响力也基本不变,因此,一般情况下观点质量可以看成不变量;但观点在舆情事件演化过程中所附加的一些属性也可能改变(如,某个观点获得的点赞量可能不断变化),这种情况下观点质量则可看成变量。
24观点极化度和观点势极化度
观点极化度代表了某一时刻网络舆情观点场舆论分布的极化程度,而观点势的极化度代表了网络舆情观点场舆论极化的趋势。
对网络舆情群体观点极化程度的度量,需要从其定义和本质出发设定其计量模型。如果直接测量某种倾向观点数量的绝对值,容易受群体大小等因素影响,所以群体极化一般考虑用极端观点比率这样的相对值来判定群体是否出现极化现象以及极化程度[12]。
德国科学家Rudolf Clausius(克劳修斯)最早提出用“熵”来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。香浓将其引入到信息论中,提出用“信息熵”度量信息量的大小。由于观点是信息的一种,可以用信息熵的方法定义观点(势)熵和观点(势)极化度:
Hv=-∑ni=1pi×log2(pi)(2)
dgp=1Hv(3)
其中,pi为某种极性观点数在所有观点数中的比例(计算观点极化度时)或某类观点势值占总的观点势值的比例(计算观点势极化度时),Hv为观点(势)熵,dgp为群体观点极化度或观点势极化度。
显然,各种观点(势)的比例分布越均匀,观点(势)熵就越大,如果所有观点(势)的比例都一样,则观点(势)熵达到最大,此时,观点(势)极化度最小。
3基于观点场模型的微博评论群体观点趋势预测方法微博的极大便捷性和交互性特点,使其迅速成为使用范围和影响力都极大的社交媒体,成为个人参与公共话题的一个重要平台,一些大“v”博主的个体影响力甚至超过一个传统媒体[13]。微博评论本身“虽然无法对微博进行传播,但获得较多用户评论的微博会以热门话题形式被推荐到更多其关注对象的用户微博主页中,实现广泛性传播。”[14]。尽管微博评论者大多是普通网民,但是,普通网民的评论观点如果成为热门评论也会对群体观点产生极大的影响,在评论的分布和增长中仍然体现出“多者越多”的非均衡增长和“极化效应”,“群体极化”现象在微博的传播过程中表现得也极为明显[15]。
本文以知名新浪博主针对某舆情事件博文作为根源信息构成的评论观点场为对象。观点极化分析主要考虑网络舆情受众面向博文的根源观点做出的主观评论,暂不考虑转发、点赞和对评论的回复所表达的观点。
31模型参数的讨论
利用式(1)计算微博评论观点势,需要先确定3个参数:微博评论观点场中场源观点与信息受众场点的距离rij、观点质量mi、影响范围因子σ。
311场源观点与信息受众场点的距离的确定
在前述观点场概念模型中,观点vi∈V在参考场点j的势φvi(j)随着它们之间的距离rij的增长而快速下降。在具体观点场中,距离的物理含义是不同的,如果是观点之间通过转发、回复等构成的有链接的观点网络,则距离rij为场源点和参考场点之间的网络距离,一般可由它们之间最短网络路径长度来代表,而在微博评论观点场中,每一个进入微博网络舆情场的网民个体虽然在理论上都具备遍历全域观点的能力,但事实上不可能遍历所有观点,新的博文信息受众(网民)查看评论的时候,一般只是查看部分排序在前的评论,如果把新的信息受众进入微博的点看作参考场点O,则观点场中既有观点与这个参考场点之间的距离则可由观点在评论排序中的位置来代表。
新版新浪微博正文页评论主要提供了按热度和按时间倒序方式查看评论,默认按热度排序。通过对多位微博用户的调查,大多数用户通常按新浪微博默认的热度排序浏览评论,少部分通常按时间倒序展现评论或两种排序浏览评论,同时由于最新评论不断变化,在简化计算时,可只考虑热度排序。这样,微博评论观点与新信息受众进入观点场场点O的距离rij可由该评论的热度排序值代表。
312观点质量的确定
在微博里发表评论多是普通网民,再加上观点的点赞量、转发量、支持性回复量等已在新浪微博评论热度排序计算中予以考虑,在简化计算时,可以把所有观点的质量均认为1。
313影响范围因子的确定
在观点势的计算中,影响因子σ是非常重要的参数,它的取值将会对结果产生很大影响。如果σ取值过小,那么會导致任何单位质量观点的势值都接近0,观点源对参考场点无影响;但如果取值太大,又会导致任何单位质量观点的势值都接近1,容易忽视观点源与参考场点间不同距离的影响。两种情况下都会使整个舆情场内距离对结果几乎无影响。
具体到微博评论观点场,通过调查分析发现,信息受众在查看评论的时候,查看的条数一般在一二十条内,超过50条的极少,即微博评论观点场既有观点对信息受众的作用力程大多在50个单位距离以下。因此,为了更好地反映这一特点,考虑到拟核力场高斯势函数的性质,影响因子σ可确定为:
σ=50×2/3≈24(4)
32微博评论排序的演化趋势特点
通过对大量微博评论时间序列数据的分析,发现按热度排序前若干名的评论一般在开始阶段变动较大,但大多在一段时间后变动逐渐减小,甚至不变,相应地,观点势场也从不稳定场变为稳定场,对应的常见观点势演化趋势如图1所示。图1微博评论观点势常见变化趋势
利用评论的观点势场对观点演化趋势进行预测时,如果观点势场处于不稳定状态时,可以根据其历史变化趋势对未来演化趋势进行预测,并进一步利用其预测未来观点的演化趋势,如果观点势场已达到稳定状态,则可直接利用当前观点势的分布预测未来观点极化趋势。许多最终评论数达到上万条的博文,往往在评论数达到几百条后,前几十条评论就基本稳定下来了,因此,本文后面的预测算法即以评论观点势场已达到稳定为条件。
33基于观点势的观点群体极化趋势预测算法描述
输入:各类观点排序向量R(1),R(2),…,R(n),作用力程影响因子σ
输出:各类观点的观点数量增长比例预测、观点极化度预测
算法步骤:
(1)[φ1,φ2,…,φ50]=Cal_opinionstr ength(R(1),R(2),…,R(n),σ)
//对每一个观点根据观点势公式计算观点势值
(2)[φc1,φc2,…,φcn]=Sum_opinionstr ength(φ1,φ2,…,φ50)
//對各类观点的观点势值求和
(3)dgp=Cal_polarizabi lity(φc1,φc2,…,φcn)
//计算观点势极化度
(4)以各类观点势的比值作为观点增量比值的预测,以观点势极化度作为观点极化度的预测。
输入中某类观点排序向量例:设在前50名排序评论中,第3、7、10、28、39、47名为第1类观点,则第1类观点的排序向量为R(1)=[3710283947]。
4实验
41数据来源及初步处理
笔者以2017年11月份热点“喜事变丧事,母亲因儿彩礼轻生”中衍生的话题作为实证案例,对前文提出的微博观点场群体极化趋势预测方法进行验证。以钱江晚报微博博文“喜事变丧事,母亲因儿彩礼轻生,父亲悲痛过度也跳河”为话题源的舆情子场来进行观点的群体极化趋势预测。
评论主要聚焦于悲剧发生的根源讨论,其中几类主要观点为:
A:抨击彩礼制度,同情男方及父母
B:女方要求不过分,不能将责任完全归咎于女方及其父母,是男方家长太偏激
C:男孩能力不足,连累父母
利用微博数据采集工具获取从11月22日13点到11月23日9点59分的评论(不含回复),每隔1个小时采集该博文下评论原始数据1次,构成评论的热度序列数据。对每条评论进行人工快速观点判定,剔除少部分垃圾评论和无关评论,得到上述3类关于悲剧发生根源的共1 021条评论作为实验数据。
42实验方法
到22日16点59分,A、B、C 3类观点共计达到229条,热度排序前50中属于A、B、C 3类的观点数为49条,从此时到数据提取截止时间,热度排序前50条评论变动极小,按前述观点势计算模型可知此后观点势变化也极小,实验就以此时观点场势分布来预测观点极化趋势。
421预测
按33算法计算各类观点增长比率预测值、增量评论的观点极化度预测值。
422预测偏差率的计算
统计22日17点到23日9点59分各类观点的增量并计算各类观点增量的实际比率,然后按下述方法计算各类观点增量预测的偏差率。
∑3t=1lt-ktkt2(5)
其中l1,l2,l3为预测的各类观点增长比率,k1,k2,k3为各类观点增量的实际比率。
利用22日17点到23日9点59分各类观点的增量,按观点势极化度公式计算观点增量极化度,并按下述方法计算观点极化度预测的偏差率。
dφ-dvdv×100%(6)
其中dφ为当前观点势极化度值,dv为增量评论的观点极化度值。
43结果与分析
431结果
按照上述方法,用后来评论的数据与预测数据对比,得到的结果如表1所示。表1预测结果
预测项目各类观点评论增量比率增量评论的
观点极化度预测02299:06327:0137407699实际02209:06422:0136907786预测偏差率(%)131112
432分析
分析结果可以看到,基于观点势的观点趋势预测模型对于舆情事件的观点趋势预测有很高的准确率。在本例中,虽然预测开始时3类观点的极化度较高(08291),但由于观点势的极化度相对较低(07699)并一直保持基本不变,评论最终的观点极化度趋向于观点势的极化度,说明利用当前观点势的分布能有效判别未来观点分布的发展趋势。
5结束语
舆论趋势预测是网络舆情研究领域中一个非常重要的课题。常见的舆情演化分析方法大多基于网民观点相互连接、交互影响和更新模型来评估群体观点演化趋势,但网络舆情事件群体观点的演化,往往并不是初期参与舆情事件讨论的网民的观点相互碰撞、改变的结果,更多的是后期不断增加的网民的观点受前期影响力大的观点的作用形成的。因此,舆情事件群体观点的演化预测,关键是要较准确评估已发表的显性观点对后来网民观点形成的影响力。本文从场的视域对网络舆情事件中观点的演化特征进行分析,提出了用观点势来刻画网络舆情事件观点场中各类观点的影响力,并以新浪微博博文作为根源信息构成的评论观点场为对象,构造了一种基于观点势作用模型的博文评论观点趋势预测方法,所提出的方法利用虚拟观点场描述网民观点的作用,相较于常见的基于网民个体之间观点直接相互作用的舆情演化模型,大大降低了实现的难度。实验结果显示,该方法具有较高的预测准确率,且在博文评论观点趋势预测的实际应用中,该方法一般只需对排序靠前的少量评论的观点进行识别即可对未来大量评论的观点分布进行预测,在目前评论观点自动识别技术还不十分成熟的情况下,更具有现实意义。
参考文献
[1]Borra D,Lorenzi T.Asymptotic Analysis of Continuous Opinion Dynamics Models Under Bounded Confidence[J].Communications on Pure and Applied Analysis,2013,12(3):1487-1499.
[2]Su W,Gu Y J,Wang S.et al.Partial Convergence of Heterogeneous Hegselmann-Krause Opinion Dynamics[J].Science China Technological Sciences,2017,60(9):1433-1438.
[3]李根强,罗艳艳,臧学莲.基于有界信任模型的网络社群舆情观点演化研究[J].情报科学,2017,(6):63-68.
[4]何建佳,刘举胜,王祥兵.認知失调视角下网络舆论演化模式与对策研究[J].现代情报,2018,38(3):58-65,78.
[5]Meier J,Zhou X,Hillebrand A.et al.The Epidemic Spreading Model and the Direction of Information Flow in Brain Networks[J].Neuroimage,2017,152:639-646.
[6]Maroufy E I H,Kernane T,Becheket S.et al.Bayesian Inference for Nonlinear Stochastic SIR Epidemic Model[J].Journal of Statistical Computation and Simulation,2016,86(11):2229-2240.
[7]李青,朱恒民.基于BA网络的互联网舆情观点演化模型研究[J].情报杂志,2012,31(3):6-9.
[8]钟敏娟.无标度特性下的有界信任交互网络伪舆情演化建模及仿真研究[J].小型微型计算机系统,2017,38(6):1284-1289.
[9]黄微,高俊峰.基于观点势能测度的网络舆情场极性识别研究[J].情报学报,2016,35(11):1185-1196.
[10]吴国恩.论信息的情报运动及其规律[J].图书情报工作,1990,34(3):1-6.
[11]淦文燕,李德毅,王建民.一种基于数据场的层次聚类方法[J].电子学报,2006,34(2):258-262.
[12]霍凤宁,禹婷婷,孙宝文.网络群体极化的判定、测量与干预策略研究[J].电子政务,2015,(10):19-26.
[13]于欣彤.微博的评论转发功能对群体极化现象的影响分析——以王宝强离婚事件为例[J].新闻研究导刊,2017,8(1):71-74.
[14]黄微,王洁晶,赵江元.微博舆情信息老化测度研究[J].情报资料工作,2017,(6):6-11.
[15]蔡荻.微博空间中的舆论形成及社会影响——以“郭美美事件”为例[J].中国传媒科技,2011,(12):5-7.
(责任编辑:孙国雷)2018年9月第38卷第9期现代情报Journal of Modern InformationSep.,2018Vol38No92018年9月第38卷第9期学术网络社会资本视角下的学科评价指标探索Sep.,2018Vol38No9
收稿日期:2018-06-05