基于观点吸引势的舆情事件意见领袖发现算法构建*

2016-07-22 11:39吴诗贤张必兰

吴诗贤, 张必兰

(1.重庆工商大学 计算机科学与信息工程学院,重庆 400067;2.重庆工商大学 图书馆,重庆 400067)



基于观点吸引势的舆情事件意见领袖发现算法构建*

吴诗贤1, 张必兰2

(1.重庆工商大学 计算机科学与信息工程学院,重庆 400067;2.重庆工商大学 图书馆,重庆 400067)

摘要:从物理学中场的思想出发,将论坛、博客等舆情事件的讨论平台看作一个舆情场,引入观点势函数描述舆情场内各网民间观点的相互吸引作用,基于各网民的时变观点状态建立有向的网民观点吸引网络,通过寻找具有高观点吸引势的网民节点实现舆情事件意见领袖的发现;该算法能有效避免传统的基于链接或回复关系的意见领袖发现算法中网民连接的依赖关系不明确的缺点。

关键词:意见领袖发现;舆情场;观点吸引势;观点吸引网络

随着互联网技术的发展和智能终端设备的普及,网络论坛、微博等网络平台上的网民构成了庞大的在线社会网络,形成了无数的舆情场。在网民的酝酿发酵下,舆情极易在网络中存在极化趋势,非理性的观点被群体极化后,就有可能导致现实社会群体极端事件的发生,甚至威胁到社会的稳定和国家的安全[1]。其中,意见领袖在信息传播与舆论形成过程中发挥着极大的作用,许多舆情事件的发生、发展中都有他们活跃的身影。因此,在网络事件发生的早期,及时发现该事件中的意见领袖是舆情监控、舆情群体极化预防的重要措施之一。

大量实证研究表明:真实的舆情网络具有复杂网络所具备的一些典型特征,如小世界效应、无标度和社区结构特性等[2-4]。因此,复杂网络的相关理论自然成为网络舆论研究的重要支撑,网络意见领袖对应于舆论网络中的重要网民节点,网络舆论意见领袖的发现即对应于网络重要节点的发现。因此,目前网络舆论意见领袖的发现方法是运用复杂网络的相关理论,通过对网络拓扑结构或节点属性的分析来对网民节点的影响力进行分析计算[5-11],核心是基于网民个体之间的回复或链接关系建立的无向舆情网络。但在论坛等舆情活动空间中,回复或链接不一定代表支持,舆情网络不能客观反映网民之间观点的相互作用,使意见领袖分析有较大误差。这种算法容易把标题党和大量反对贴主作为意见领袖。

意见领袖的最大特点在于他的观点能够极大程度地影响、改变其他网民和网民群体的观点,使其他网民观点向自己靠拢,具有强大的舆情能量和观点吸引能力。因此,此处引入物理场思想,通过观测一段时间内网民观点的变化情况,寻找具有最大观点吸引能力的网民群体实现意见领袖的发现。

1基于观点吸引势的舆情事件意见领袖发现算法

1.1算法的基本思想

在基础物理学中,势场被用于描述物质粒子间非接触的相互作用,场内任一点的势值与代表场源强度的某个参数量(如质点质量等)成正比,而与该点到场源间的距离成递减关系。从此思想出发,本文将舆情事件的讨论平台(论坛板块、博客等)看作一个包含n个网民及其相互作用的舆情场,在某舆情事件的舆情场中,个体网民通过发帖跟帖发布观点,通过览贴受到其他网民观点的影响,把个体网民观点在网络舆情中所具备的对其他网民的观点改变施加影响和作用的能力称作该网民的观点吸引势,观点吸引势大的网民则为该事件的意见领袖,这样即把意见领袖的发现问题转化为舆情场内网民观点吸引势排序问题。

给定舆情场G=(V,φ),其中V={v1,v2,…,vn}为网民的非空有限集合,φ={φ(vi,vj)}为舆情场的任意不同两个网民vj∈V对vi∈V的观点吸引势集合。参考数据场和拓扑势的概念[12],定义vi∈V对vj∈V的观点吸引势为

(1)

其中,rji为舆情网络中节点vj到vi的有向连通最短网络距离,δ为衰减影响因子,它反映vi对vj的观点吸引势值随他们之间网络距离的增大而衰减的速度。

则任意网民vi∈V的总观点吸引势为

(2)

基于观点吸引势的舆情事件意见领袖发现算法中需要确定衰减影响因子δ的值,才能计算出各个网民的总观点吸引势,进而通过排序发现意见领袖,可采用文献[13]中基于势熵的方法优选δ。

对应某个δ值的势场,定义势熵H(δ)来反映势场分布不确定性的强弱:

(3)

以仿真中的简单观点吸引网络为例(图1),势熵与δ关系曲线如图2所示,势熵H(δ)呈现随δ值的增大而先变小后变大的趋势,会在某一点上取得极小值。则可以取min(H(δ))为优化函数,采用某种寻优算法求取优化的δ值。

图1 观点吸引网络Fig.1 Opinion attract network

图2 势熵与δ关系曲线Fig.2 Plot of potential entropy vs. δ

1.2算法的步骤描述

以下步骤为在一个封闭的舆情场内,舆情事件发生后一段时间内,基于观点吸引势的舆情事件意见领袖发现算法。

1) 观测l个时刻t1,t2,…,tl时n个网民的观点值oi(tk),oi(tk)∈[-1,1],并求取相邻时刻所有网民观点变化值:Δoi(tk)=oi(tk+1)-oi(tk),i=1,2,…,n;k=1,2,…,l-1。

2) 对任意两个网民vi,vj,如果Δoi(tk)的正负极性与(oj(tk)-oi(tk+1))正负极性一致,则称vj网民对vi网民产生了一次观点吸引。

3) 对任意两个网民vi,vj,vj网民对vi网民产生的观点吸引次数与总观测时间间隔l-1的比值称为vj网民观点对vi网民观点的观点吸引概率,如果其大于某个给定的阀值ε(如0.8),则认为vi网民观点受vj网民观点的吸引,并建立一条由vi指向vj的有向边e(i,j)。

4) 对由n个网民节点和所有有向边e(i,j)组成的舆情观点吸引网络E(i,j),求取网络中各节点间的有向网络距离rji。

5) 令衰减影响因子δ∈(0,10),以min(H(δ))为优化函数,采用某种寻优算法(如模拟退火法、遗传算法、试探法等)求取优化的δ值。

6) 对每一个节点vi,将4)步得到的rji和5)步确定的δ值代入式(2)求取其φ(vi)。

7) 将φ(vi)排序,取前若干个节点(如前10%)为意见领袖节点。

上述算法中,除了衰减影响因子δ外,阀值ε的合理选取对算法的运行也非常重要。ε选取的基本原则是要让各网民的观点吸引势计算结果的区分度足够大,以保证发现意见领袖。ε选取过大、过小都会使各网民的观点吸引势区分度降低(参见下文仿真算例中的简单讨论);同时,为了避免观点吸引网络过于复杂,ε的取值还要随着网民数量的增加而增大。对网民数量较少的舆情场,ε可取0.5到0.8的值。对网民数量较多的舆情场,可先给ε赋足够大的初值,比如0.999,再对上述算法多次循环,每次逐渐减小ε值(随着ε值的减小,观点吸引网络一般会逐渐增大),直到能够明确区分出前若干φ(vi)为止。

2仿真实验

2.1仿真算例

设某拥有6个网民的简单舆情场在10个观测时刻的观点状态矩阵为

(4)

按照前述ε选取原则,ε选取0.65;以总观点吸引势排名前10%的网民为“意见领袖”。然后按1.2节描述算法,采用MATLAB编程,仿真中间结果及最终结果如下:

1)观点吸引网络。式(5)为vj对vi的观点吸引矩阵,矩阵元素1表示vj对vi有观点吸引能力,0表示vj对vi无观点吸引能力。

(5)

2)观点吸引势计算结果:

φ(v1)=0.367 9,φ(v2)=0.846 8

φ(v3)=1.214 7,φ(v4)=0.478 9

φ(v5)=0.478 9,φ(v6)=0.367 9

排序结果:v3→v2→v4v5→v1v6,因此,意见领袖发现结果为3号网民。

2.2算法参数ε的影响讨论

ε=0.9时,观点吸引矩阵为

(6)

ε=0.1时,观点吸引矩阵为

(7)

可见ε的取值既不能过大,也不能过小。过大时很难形成观点吸引网络,不能发现意见领袖;过小时退化为几乎所有网民之间有相同的吸引势,仍然无法发现意见领袖。

3结语

引入物理学中场的思想,将舆情事件的讨论平台(论坛版块、博客等)看作一个舆情场,认为场内的各网民节点都是能对其他网民节点产生观点吸引的观点场源,基于各网民的时变观点状态建立有向的网民观点吸引网络,通过寻找具有最大观点吸引势的网民节点实现舆情事件意见领袖的发现。该算法简单,只需要一段时期内时变的网民观点状态作为输入,网民节点间的相互连接具有明确的物理意义,可避免传统的基于链接或回复关系建立舆情观点网络的意见领袖发现算法中网民连接的依赖关系不明确的缺陷。该算法的主要不足在于意见领袖发现的精度依赖于网民贴子观点倾向性分析的准确性,这对帖子观点语义分析有较高要求。对该算法进行一定扩展,其应用范围还可扩大,如考虑一定时间内的网民单位时间发帖量,如果某网民单位时间发帖量非常大而观点吸引势却非常小,则可认为该网民很有可能是灌水网民或标题党。

参考文献(References):

[1] 吴诗贤,张必兰.网络舆情群体极化相关研究述评[J].重庆工商大学学报(社会科学版),2015(3):85-88

WUSHX,ZHANGBL.ResearchReviewOfGroupPolarizationofOnlinePublicOpinion[J].JournalofChongqingTechnologyandBusinessUniversity(SocialScienceEdition),2015(3):85-88

[2]WATTSDJ,STROGATZSH.CollectiveDynamicsof“Small-World”Networks[J].Nature,1998,393(4):440-442

[3]BARABASIAL,ALBERTR.EmergenceofScalinginRandomNetworks[J].Science,1999,286(5439):509-512

[4]GIRVANM,NEWMANMEJ.CommunityStructureinSocialandBiologicalNetworks[J].ProceedingsoftheNationalAcademyofSciences,2002,99(12):7821-7826

[5]MATSUMURAN,OSHAWAY,ISHIZUKAM.InfluenceDiffusionModelinText-BasedCommunication[J].Transa-ctionsoftheJapaneseSocietyforArtificialIntelligence,2002,17(3):259-267

[6]BODENDORFF,KAISERC.DetectingOpinionLeadersandTrendsinOnlineSocialNetworks[C]∥Proceedingsofthe2ndACMWorkshoponSocialWebSearchandMining.HongKong,China,2009:65-68

[7] 樊兴华,赵静,方滨兴,等.影响力扩散概率模型及其用于意见领袖发现研究[J].计算机学报,2013(2):360-366

FANXH,ZHAOJ,FANGBX,etal.InfluenceDiffusionProbabilityModelandUtilizingIttoIdentifyNetworkOpinionLeader[J].ChineseJournalofComputers,2013(2):360-366

[8] 尹衍腾,李学明,蔡孟松.基于用户关系与属性的微博意见领袖挖掘方法[J].计算机工程,2013(4):184-189

YINYT,LIXM,CAIMS.MiningMethodofMicroblogOpinionLeaderBasedonUserRelationshipandAttribute[J].ComputerEngineering,2013(4):184-189

[9] 胡勇,张翀斌.网络舆论形成过程中意见领袖形成模型研究[J].四川大学学报(自然科学版),2008(02):347-351

HUY,ZHANGCHB.LeaderFormationModelDuringPublicOpinionFormationinInternet[J].JournalofSichuanUniversity(NaturalScienceEdition),2008(2):347-351

[10] 王珏,曾剑平.基于聚类分析的网络论坛意见领袖发现方法[J].计算机工程,2011(5):44-46

WANGJ,ZENGJP.OnlineForumOpinionLeadersDiscoveringMethodBasedonClusteringAnalysis[J].ComputerEngineering,2011(5):44-46

[11] 张亚,阮彤,丁军.面向领域微博权威性人物分析技术与研究[J].计算机应用研究,2014(10):2907-2911

ZHANGY,RUANT,DINGJ.Domain-orientedMicro-blogAuthoritativeUserAnalysisandResearch[J].ApplicationResearchofComputers,2014(10):2907-2911

[12] 李德毅,杜鹢.不确定性人工智能[M].2版.北京:国防工业出版社,2005

LIDY,DUY.UncertainityinArtificialIntelligence[M].2ndedtion.Beijing:NationalDefenceIndustryPress,2005

[13] 淦文燕,李德毅,王建民.一种基于数据场的层次聚类方法[J].电子学报,2006(2):258-262

GANWY,LIDY,WANGJM.AnHierarchicalClus-teringMethodBasedonDataFields[J].ActaElectronicaSinica,2006(2):258-262

责任编辑:李翠薇

doi:10.16055/j.issn.1672-058X.2016.0004.014

收稿日期:2015-12-07; 修回日期:2016-03-08.

*基金项目:教育部人文社会科学研究基金(13YJCZH197).

作者简介:吴诗贤(1973-),男,重庆长寿人,讲师,从事智能信息处理研究.

中图分类号:TP391

文献标志码:A

文章编号:1672-058X(2016)04-0086-05

Construction of Opinion Leader Discovery Algorithm Based on Opinion Attraction

WUShi-xian1,ZHANGBi-lan2

(1.SchoolofComputerScienceandInformationEngineering,ChongqingTechnologyandBusinessUniversity,Chongqing400067,China; 2.Library,ChongqingTechnologyandBusinessUniversity,Chongqing400067,China)

Abstract:Inspired by the idea of physical fields, the discussion platform of each blog or public opinion event is regarded as an opinion field, an opinion attraction potential function is used to describe the interactive attraction from all net citizens in a public opinion field, the directional opinion attraction network of the net citizens is established based on the time-variant point state of the cyber citizens, and then the opinion leader is discovered by detecting the nodes of the net citizens with high attraction potential. This algorithm can effectively avoid the disadvantages of dependency relationship indeterminacy among the net citizens in traditional opinion leader discovery algorithm based on link or reply relation.

Key words:opinion leader discovery; internet opinion field; opinion attraction potential; opinion attraction network