张 永,华姗姗,张 航
(兰州理工大学 计算机与通信学院,兰州 730050)
目前在OSNs(Online Social Networks)上的用户不再是被动接受信息的媒体受众,而是通过建立单向或双向好友关系交流、分享信息资源,成为信息的制作者、分享者和传播者,积极参与到网络活动中[1]。Facebook、Twitter作为国外主流的OSNs应用,其热门话题的传播速度明显优于报纸、杂志等传播途径。而国内流行的舆论扩散窗口新浪微博和即时通信工具,也是目前应用范围较广的在线社交网络服务平台。较之即时通信工具的私密性,新浪微博作为140字内的短文本观点交流和转发他人言论的自由社交应用,已成为人们获取及时新闻和高舆论热点话题的重要工具之一。
由于流行病扩散与信息传播的相似性,用于研究疾病传播的动力学传染病模型也广泛应用于信息传播领域。为了使疾病传播模型更适用于在线社交网络上的信息传播研究,传染病模型的演化和改进也成为研究热点。文献[2]提出改进的SI(Suscepticble Infected)模型。文献[3]提出考虑概率递减机制(Decreasing Probability Susceptible Infected,DPSI)模型。文献[4]提出引入潜伏节点E的SEIR模型。文献[5]提出考虑直接免疫策略的改进SIR(Susceptible Infected Removed)模型。文献[6]将网络流通量代入SIR模型中,发现均匀的负载分布有利于信息传播,大度节点对信息传播有双重作用,而通信量拥挤会阻碍信息传播。文献[7]提出的SIHR(Susceptible Infected Hibernator Removed)谣言传播模型,考虑隐退节点H,并引入遗忘机制和记住机制。
目前,有学者从谣言抑制、流行病阈值、用户行为影响因素分析方面展开社交网络上信息传播规律的研究[8-14]。文献[8]提出使用意见领袖方法从扩散源抑制不良言论的扩散。文献[9]采用局部策略方法从扩散过程实现有效抑制。文献[10]把疾病传播和信息传播分别放到接触层和通信层独立考虑并得出:疾病爆发会导致信息传播扩大化;疾病信息扩散可有效提高疾病爆发阈值,抑制疾病传播;信息传播阈值不变,但是提高了流行病阈值。文献[11]将自我意识、自我保护和免疫策略与SIR模型结合起来综合分析流行病阈值和免疫阈值的变化。文献[12]把意识分为私人意识和公众意识,从具体行为意识层面研究疾病的动态传播。文献[13]以SIR为基底模型研究记忆力对疾病传播阈值的影响。
以上文献虽都有行为因素分析,但多数源于人行为意识的主观因素,而在实际社交网络中,信息转发是信息传播的重要途径。因此,本文通过对影响用户转发行为相关因素的分析定义转发影响力公式,并以此分析用户间的信息传播效率。
2016年11月20日0点—2016年11月23日16点京昆高速多车相撞(舆论总数为22 206)和日本福岛地震(讨论量为52 849)成为实时热门搜索新闻事件,利用新浪微舆情工具(http://wyq.sina.com/login.shtml)进行分析,结果分别如图1(a)和图1(b)所示。从图1可以看出,京昆高速多车相撞事件呈现蒲公英式传播模型[15],以源点为中心的大范围传播后出现碎片化小范围扩散。即在首轮传播热度过后趋于平淡,很少转发或者只出现少量小伞状二次传播。而日本福岛这一实时事件呈现双子星传播模式[15],整个传播过程中仅存在2个影响力比较接近的中心节点。林丹出轨这一娱乐事件一周讨论量高达1 064 494。同样使用新浪微舆情分析工具进行事件全网传播分析,结果表明,其传播方式完整地呈现出波纹式传播模型[15],如图1(c)所示。这种传播方式主要集中在以源点博文为核心的传播圈内,表现出从中心向外围扩散的特点。首次传播热度过后,将很少或不出现二次传播热潮。
图1 热点舆论事件分析
综上分析,热点事件在网络上的传播并不是无规律可循,一般会存在1个或2个高潮时期,但是舆论热潮过后事件就会趋于平静。事件传播通常是以大V用户为传播源头,他们的粉丝为信息散播分支,实现树型扩散式传播。由于分支越来越多,事件传播规模会随之扩大,但事件影响力却变小。随着时间的推移,讨论数或传播量会降低至零,表明事件全网传播进入尾声,该事件不再具有传播价值。为了更好地描述以上事件传播过程,本文通过SCIR模型动态模拟事件传播过程,并将该模型的传播效果与SIR模型进行比较,从而更加深刻具体地描绘社交网络上信息传播的复杂性。
如果从关注机制来考虑社交网络中的用户间关系,那么用户u与v之间的交互关系可分为陌生人、关注、被关注、双向关注4种。其中,以B为源传播者,上述4种交互关系如图2中的(4)、(3)、(2)、(1)所示。同样以B为中心的用户行为传播信息树图如图3所示,以B为信息传播源点呈树型扩散,信息覆盖范围越来越广。
图2 以B为中心的用户关系
图3 以B为源点的用户行为树
2.2.1 消息转发力度
微博中消息传播主要是靠转发行为实现,因而转发力度可以作为影响转发因素的重要参数。本文将潜在转发人群的概率定义为转发力度。从图2和图3综合分析可得,用户B发布信息的极大化传播跟粉丝的转发力度密不可分。因此,本文根据用户之间关注行为的单向性、双向性以及特定时间内兴趣所趋路转粉联系将文中的粉丝用户群分为纯粉、互粉和路转粉3类,但各类粉丝对于消息传播的影响程度是有区别的。如图2所示,纯粉指只存在对用户B的单向关注行为的粉丝群;互粉指用户B关注该用户并且此用户也关注用户B;路转粉指本来未关注用户B,但因为兴趣所趋,成为用户B的粉丝,但用户B并未关注该用户。则转发力度公式如下:
(1)
Fans=FPure+FMutual+Fpasserby→fan
(2)
其中,p1、p2、p3指各类粉丝的影响权重,为了便于权重衡量,本文规定纯粉、互粉和路转粉的权重分别为2、1、0.5。
2.2.2 用户影响力
在信息传播过程中,信息传播个体的传播影响力决定着消息的传播广度和流行时长。一般认为粉丝数多的用户影响力值也相对较高。粉丝对影响力用户博文转发量越多,消息的传播面越广,用户影响力也会因此而提高。但是由于消息来源的广度与关注者数正相关。用户关注者数越多,接收信息的范围会随之扩大,那么该用户微博被转发的概率会增加,影响力也会提高。因此,文中用户影响力评估主要考虑2个方面:粉丝对博文原创者发布信息的转发传播和消息来源的接受广度。综合考虑关注者和粉丝活跃度的PageRank[16]用户影响力评估算法描述如下:
(3)
其中,R(u)指的是用户u的影响力,d为阻尼系数,一般情况下取d=0.85,假定初始R值为1。Fans(u)表示节点u的粉丝总集合,Followers(u)表示节点u的关注者总集合,ηu,v是节点u分配给粉丝节点v的R值的比例,ζu,w是节点u分配给关注者节点w的R值的比例。
(4)
其中,Ak为节点u的第k个粉丝节点的活跃度,Am为节点u的第k个关注者节点的活跃度,N为节点u的粉丝总数,M为节点u的关注者总数。
对于粉丝节点v,其活跃度A表示为:
(5)
对于关注节点u,其活跃度A′可以表示为:
(6)
其中,Ft、Ft′、Pt、Rtt、Thut、Ct分别指T天内用户关注朋友数目、用户粉丝数、发布微博数、转发微博数、点赞数和评论数。
2.2.3 个体信任水平的衡量
用户之间的信任水平使用二值函数来衡量,其中0、1分别表示个体间的非信任和信任状态:值为1表示2个个体处于不同状态,接触后状态发生改变,信息可以传播;值为0表示2个个体属于相同状态,状态不发生变化,消息不会传播。在信息传播过程中,携带者节点接触传播节点,那么信任值为1,携带者会感染成为信息传播者,进行消息传播;而携带者接触携带者,信任值为0,接触个体仍处于原态,不具备信息传播能力。式(7)中statei表示的是节点i的状态,i指的是处于S、C、I、R任意一种状态。
(7)
2.2.4 内容相似性
用户之间进行信息交换,趣味是否相投至关重要。用户对于获取信息的感兴趣程度,文中表述为兴趣相似值。用户之间的兴趣相似值将从两用户发布博文的内容相似度来具体衡量。即发布博文内容相似性越高,用户间的兴趣相似值越高,那么其中一个用户对另一用户发布博文转发的概率也会增大。
本文内容相似度算法只适用于长度不大于140字的博文,并且使用空间向量余弦算法[17]来计算2个用户博文的相似比重,其算法描述如下:
2)将剔除掉1)中所列无意义字符后的博文U分为若干关键词词组,则用户K的一篇博文可记为:UK={u1,u2,…,un},其中,ui表示连续划分的第i个关键词组,1≤i≤n。
3)对N词博文中出现的M次w词组,计算其频次F:
(8)
而w的权重指数index为:
(9)
针对关键词的权重计算公式如下:
W=F×index
(10)
4)假设每个博文中词与词之间不相关,那么博文Cu和Cv的内容相似性计算公式如下:
Similarity(Cu,Cv)=
(11)
其中,Cu、Cv分别表示用户u和用户v的一篇博文,i表示Cu中的特征词数,j表示Cv中的特征词数。
2.2.5 有效转发率
有效转发率在信息传播过程指的是用户u的博文被用户v转发的有效概率,算法如下:
(12)
其中,q1、q2分别指的是用户v转发用户u的原创微博和转发微博的权重,Roriginal是用户u的原创微博数,Rforward是用户u的转发微博数,Ru是用户u总的博文数。
针对转发过程中已知源点用户u对于转发用户v在目标微博内容[18]w下的影响力Influence(u,v,w)计算公式如式(13)所示。
(13)
在现实生活中,当个体处于感染状态时,要通过接种、免疫、隔离等保护措施避免其他个体不被感染是比较困难的。但是在SI演化过程中引入过渡型节点,对处于过渡状态的个体采取接种免疫等有效保护措施可有效减少个体转变为感染者的概率,甚至降低疾病的有效传播速率以及爆发规模,从而实现有效抑制疾病传播的目的[18]。与文献[16]中将C节点定义为接触状态相比,本文将无意识接收信息但并未进行信息传播的C类型节点定义为携带者节点,使其更贴近现实生活。本文使用文献[16]中SCIR模型状态转换过程分析,考虑式(13)中转发行为影响力对信息传播的影响,以及建模过程不同网络中模型的对比分析、关键参数分析和网络信息覆盖率讨论,从而构建出文中提出的信息传播SCIR模型。
SCIR模型中信息传播存在如下规则:个体未从任何渠道获取热点事件传播源,那么在时间片1/δ后个体将以概率δ自动蜕变为持久免疫节点,不再参与信息传播;一个源点传播个体发布一条博文后,其粉丝对用户发布的博文以概率α进行转发或者评论以传递给更多的人;当未知者浏览传播信息时,他已了解信息但是并未产生传播意识,那么未知者将以概率ε转变成观望者;观望者可能因为对传播信息感兴趣以概率p对其进行转发或只是出于单纯的浏览,一段时间后直接以遗忘速率μ将浏览过的信息淡忘蜕变为免疫态;而原有博文被广泛传播或者热潮过后可能失去自身吸引力,以概率β被人们淡忘或者不再具有传播价值,那么它将不再以任何形式被传播。
SCIR模型中仍设人口总数不变,并且认为转发影响力Influence(u,v,w)等于直接传播速率p,用S(t)、C(t)、I(t)、R(t)分别表示t时段易感染者、携带者、感染者、康复者的人口总数,假定人口总数为N(t),那么S(t)+C(t)+I(t)+R(t)=N(t)。对应态人口密度分别记作s(t)、c(t)、i(t)、r(t),则各态人口密度变化公式表示如下:
(14)
其中,
初始状态,假设S(0)=N-1,I(0)=1,C(0)=0,R(0)=0,即除了一个传播者节点,其余节点全部为易感染节点。特别地,
本文在Windows 7系统中用Anaconda 2和PyCharm 5.0.1搭建python运行环境,并在python 2.7版本中使用networkx工具包生成BA和WS网络。然后用生成的网络为底图构建对应网络下的SCIR模型,并对式(13)中的权重ϑ进行参数学习,以最优目标选择作为优值选取条件,辅之模型中的其他变量参数建模。最后在对应网络下进行实验结果对比分析和在新浪微博上进行验证。其中,文中所用的新浪数据来源获取网址为:http://www.nlpir.org/?action-viewnews-itemid-299。
BA网络分布不均匀,用hub型节点作为影响信息传播的枢纽节点,与真实网络中的领袖型传播节点极为相似,但是与小世界网络相比其聚类系数偏低。而小世界网络虽然有着高聚类系数,但是多数节点均匀分布,大度节点极少。新浪微博具有幂律分布特性,属于异质网络,超级传播者对信息传播影响比较明显,但是网络信息覆盖率比前两者低。假设文中网络为有向无权网络,文中出现的图均无单位,网络参数设置和不同网络条件下的度分布图分别如表1和图4所示。
表1 网络参数设置
图4 各网络的度分布
实验选取一个节点为初始传播节点I,其余节点全部为易感节点S,设传播轮数为15次并且进行200次迭代实验。设初始传播速率、康复速率、节点转变速率均为0.5,SIR和SCIR模型各态节点在BA网络、WS网络以及新浪微博中的密度变化分别如图5~图7所示。其中,横轴t为传播轮次,纵轴为各节点密度分布情况。综合对比图5~图7中各态节点密度变化情况,可以看出SCIR模型比SIR模型具有更好的网络适应性,新浪微博的稳定性低于BA网络和WS网络,网络信息覆盖率相对而言比较低,信息无法达到全网覆盖。
图5 BA网络中节点密度变化
图6 WS网络中节点密度变化
图7 新浪微博中节点密度变化
在图5中,BA网络中随着时间的推移,2个模型s(t)节点都从1降为0,而且在t为2到6时间段内急剧下降。这是由于几乎全是S节点的初始传播条件发生变化,I节点和C节点数目不断增长所致。c(t)和i(t)节点在增至峰值后也呈下降趋势,最终趋于0。而R是唯一在一定时间后趋于1的节点。对比图5(a)和图5(b)可以看出,SCIR模型中因为C节点的引入,i(t)的峰值明显下降,I类节点处于爆发高潮时期的最大感染人口比出现近乎0.1的减幅。从图5(b)可以看出,在时间为4时,S节点和C节点的密度几乎同时抵达峰值,说明此时信息传播进入爆发高峰期。在t为10时,SCIR模型中r(t)=1,信息实现全网覆盖,但SIR模型中却仍然存在少数S节点,使得r(t)在传播结束时刻仍无法增至1。
从图6可以看出,在WS网络中,SIR模型中i(t)在t=6时刻达到峰值0.6,SCIR模型到达峰值时间稍有延迟,且峰值降至0.4,但是曲线波动趋于平缓。如图6(b)所示,c(t)变化曲线与i(t)变换曲线形状非常相似,且c(t)的峰值出现时刻明显早于i(t)。从图5得出的SCIR模型比SIR模型稳定性更好的结论在图6也得到验证。
新浪微博中2种模型的对比如图7所示。SCIR模型中初态的S节点密度尾值较SIR模型中s(t)值从0.4下降至0.2,终态的R节点密度值较SIR模型的r(t)值从0.6上升至0.8,但感染人口密度变化并不明显。上述情况表明信息传播结束时,新浪微博中仍存在部分感染节点S,并未实现网络中所有节点都转变为免疫节点R的理想态,信息传播不能实现全网覆盖性传播。对比图7(a)和图7(b),图7(b)的情况比图7(a)有明显改进。
在不同网络中,SIR模型与SCIR模型随着初始有效感染速率λ变化下的传播节点I的最大密度(最大感染比例)对比情况如图8所示。其中,横轴表示初始有效感染速率,纵轴表示最大感染比例。2种模型在不同网络中最大感染比随着λ增大呈现增长趋势。但SCIR模型的整体最大感染比值相对SIR模型偏小,且增长趋势更加平缓。SIR模型在BA和WS网络中,λ<0.1区间段类似线性增长,之后增长趋势相对平缓,且整体感染比高于SCIR模型。但在新浪微博中,2个模型除了初始阶段的明显差异,后期增长趋势吻合度很高。
图8 不同网络中最大感染比变化情况对比
康复速率β为0.2、0.4、0.6、0.8、1.0时免疫节点密度r(t)随t的变化趋势如图9所示,式(15)中的其他参数均给定值。其中,δ=0.2,ε=0.3,μ=α=p=0.5。r(t)随着β值的增大而呈上升趋势,说明β值对于免疫节点密度的增大有正向促进作用,且β取值不同,曲线斜率变化也不同,说明β对于r(t)的影响强度是不等的。
图9 免疫节点密度变化趋势
从图10可以看出,新浪微博中较之于外部感染速率,内在传播速率对传播节点密度i(t)的影响较为显著。虽然i(t)随着α的增大也出现了明显的增幅,但是i(t)最大只增长到0.3;而在p的影响下,i(t)最大增至0.8,说明外部感染速率虽然对传播者密度有影响,但是不明显,而内在传播速率对传播者密度变化影响非常明显。从影响时长来说,内在传播速率p的影响时长也比外在感染速率长。因为在t接近传播终态时,α影响下的终态i(t)值在0.1附近,而p影响下的i(t)值却在0.4附近,说明图10(a)中i(t)到达零点花费的时长要比图10(b)中的少,后者i(t)波动的时间更久,即内在传播速率p对i(t)的影响周期大于外部感染速率α。由于α对i(t)的影响区间在[0.1,0.3],纵轴最大值如果仍设为1,参数曲线波动幅度仅占到差不多整幅图的1/3,视图水平偏低,因此图10(a)中纵轴最大值减半,设为0.5。
图10 传播节点密度变化趋势
本文在传染病动力学SIR模型的基础上引入携带者节点C构成SCIR模型,将转发行为影响力取值作为感染节点感染速率的概率变量。实验结果表明:SCIR模型中感染节点比例与SIR模型相比有明显下降;SCIR模型中的免疫节点到达稳态时,信息覆盖率比SIR模型高;新浪微博中信息传播覆盖度相比其他2种网络偏低,信息传播受事件热度影响显著;初始有效感染速率对感染节点比例增长有正向促进作用,但最终会趋于平稳,且SCIR模型中感染节点增长比SIR模型更平缓;参数变化对节点比例提升有影响,会加快信息传播进程,但是不会改变传播阈值。
本文假设网络拓扑为无向图,所用网络均取自真实网络的一部分。文中假设的网络结构是理想化设想,但现实生活中社交网络的结构并非单一特定化而是具有复杂社会性,如何根据信息本身以及初始传播速率等因素研究复杂分层网络中的信息传播规律,将是下一步的研究方向。