黄伟 曹春萍
摘 要: 随着社交网络的迅速发展,掌握信息传播的规律,进行信息传播的管理越来越重要,而提取信息传播特点和建立模型已经成为研究热点。传统信息传播模型并未考虑易感染者的类型以及时间网络等行为因素,对信息传播规律的研究不够准确。针对信息传播及用户行为的分析,改进模型增加双重易感染者、潜伏者等传播个体和优化传播过程的微博网络传播算法(MDSLIR)。该算法使得用户可以根据传播方式及时获取、传播和免疫信息,从而更好对社交网络信息进行管理。以新浪微博为例,研究微博信息的演化规律,使用微博上的真实数据进行仿真测试,并与传统算法进行比较,实验结果表明MDSLIR算法的有效性和可行性。
关键词: 微博;不完整阅读;潜伏者;双重易感染者;信息传播
【Abstract】: With the rapid development of social networks, it is more and more important to master the law of information dissemination and the management of information dissemination. The extraction of information dissemination characteristics and model building has become a research hotspot. The traditional information dissemination model does not consider the types of vulnerable people and the behavioral factors such as time network, and the research on the law of information dissemination is not accurate enough. For the analysis of information dissemination and user behavior, the improved model increases the micro-blog network propagation algorithm (MDSLIR), which is a dual-susceptible person, a latent person, etc., and an optimized propagation process. The algorithm enables users to acquire, disseminate and immunize information in a timely manner according to the propagation mode, thereby better managing social network information. Taking Sina Weibo as an example, the evolution law of microblog information is studied. The real data on Weibo is used for simulation test and compared with traditional algorithms. The experimental results show the validity and feasibility of MDSLIR algorithm.
【Key words】: Microblog; Incomplete reading; Lurked; Double susceptible; Information propagation
0 引言
近年OSN(Online Social Networks),如Face book、微博、微信、推特等,在Web 2.0的時代下,表现出非常迅速的发展趋势[1]。以微博为代表的社交网络平台,随着明星、网红和媒体内容的越来越深入人们生活,用户使用频率越来越高[2]。与传统信息传播相比,微博传播渠道多样信息丰富。此外,由于微博社交网络结合了媒体发布和用户交流两大
特性,使得信息可以在网络上以一种裂变的方式传播,这比传统媒体传播的速度和广度都有了极大地提高。因此,如何分析,如何预测微博社交网络中信息的传播特征,构建传播模型,有着十分重要的理论价值和现实意义。
1 相关研究
在过去的研究中,诸如疾病,悖论和谣言等信息传播现象受到了极大地关注,Kermack和McKe n d rick提出了感染流行病模型(Susceptible Infected Removed,SIR),大多数关于建模信息的研究是建立在SIR流行病模型的基础上的[3]。为了结合考虑不同疾病的传染特征,后续研究人员提出了几种改进模型,如易感染模型(Susceptible Infected,SI),易感受感染模型(Susceptible Infected Susceptible,SIS),离散的SIR模型等[4]。使用文献[5-6]将传染病的传播个体与途径和社交网络进行比对,发现两者在传播中甚是相似,因此提出了SIR模型能够使用在社交网络上。文献[7]研究不同社交网络之间的传播模式,在信息传播的预测上使用聚类分析,根据已知的传播行为,预测未来的传播行为。文献[8]表示尽管研究人员利用流行病模型研究了微博的信息传播,但是并未考虑用户的不完整阅读的行为,因此在模型中考虑了不完整阅读的因素,提出了一种微博易感染受感染移除的模型(Microblog Susceptible Infected Removed,Mb-SIR)。文献[9]考虑到易感染者并不是一定要经过感染才能免疫,而是直接从易感染者到免疫人群,提出了包含直接免疫的SIR模型。文献[11-13]考虑用户的遗忘规律,通过遗忘规律和SIR模型的结合,描述了一个更加系那是的传播过程。
上述的文献研究利用了经典的传染病模型,在传统的SIR模型的基础上,结合社交网络信息传播与传染病模型的规律,对传统的SIR模型进行改进。不仅为微博网络中信息传播过程的进一步研究奠定了基础,也促进了微博信息传播的研究。但是上述文献存在不同方面的缺点,并不能将所有的影响因素都考虑进去。如文献[8]在考虑不完整阅读的时候,却疏于考虑一些易感人群与传染人群接触后,出于对话题的不感兴趣,会直接变成免疫人群;另外对于一些潜在人群,在多次经过朋友推荐后,也会变成传播人群这方面也考虑欠佳。
为了对社交网络的信息传播规律进行更真实地演绎,本文结合微博信息传播的真实情况,提出一个MDSLIR模型(Microbiog Double Susceptible Lurked Infected Removed)。该模型针对用户的不完整阅读和直接免疫行为进行分析,并且提出双重易感染者概念,初次接触的易感染者和关注已久的易感染者,还考虑了潜在人群的传播情况,在完善信息传播途径的同时增加传播个体分类。通过对MDSLIR模型的研究,用户可以从信息传播的特点出发,及时地,准确地根据自身需求进行获取、传播和免疫信息。
本文的结构安排如下,第二部分介绍本文提出的新模型MDSLIR的优点,不同人群的传播特性图,以及算法的工作过程;第三部分进行实验结果分析;第四部分结束语。
2 MDSLIR模型
当用户在微博上发布消息后,他的粉丝原本应该看到这些信息,却因一部分粉丝受到网络延时或个人时间的限制,并不能看到博主的这条消息,称为不完整阅讀行为;而在能看到消息的粉丝中,有一定概率会对该消息进行转发的,称为易感染者。一部分粉丝对博主的消息不感兴趣而不转发的行为,称为直接免疫。还有另一部分的粉丝,刚开始对博主发的消息不感兴趣,但随着朋友的多次传播和鼓励,就有一定概率会去转发该信息,称为潜伏 者[16]。传统的SIR模型中,易感染者成为感染者的概率不受其他因素限制,而在微博的传播过程中,由于不完整阅读、直接免疫、潜伏者、双重易感染者等情况,使得传统SIR传播模型在微博中适用性不够。
综上所述,本文改进传统的SIR微博传播模型,对传播个体进行细化的同时完善传播途径。将博主的粉丝分为易感染者1(S1-Susceptible)、易感染者2(S2-Susceptible)、潜伏者(L-Lurked)、感染者(I-Infected)、免疫者(R-Removed)。易感染者表示还没有看到该博文的粉丝;感染者表示看到了博文,并且转发的粉丝;潜伏者表示看到博文,暂时不转发的粉丝;免疫者表示看到博文永远不转发的粉丝。两种易感染者,第一种是第一次看到消息的易感染者,第二种是该易感染者之前就对博主的信息感兴趣,并且想更多的了解博主的其他信息。注意,S1和S2的个体存在明显差别,尽管都是易感染者。差别主要体现在两个方面,第一,前者的形成来自于个人的心理,后者是社会传染的结果。其次S1中的人只知道博主的该条信息,与这些人相比,S2中的人就是博主的忠实粉丝,了解更多博主的信息,这些人有很大概率会是传播者,小概率成为免疫者。同时,还增加了不完整阅读行为和直接免疫的情况,如图1所示。
3 实验结果分析
3.1 数据采集
本文采用八爪鱼爬虫工具从微博中爬取实验数据集,以2017年4月份到8月份微博的数据内容作为采集数据对象。综合使用数据挖掘技术[17-21],采集方式为从某一用户出发,获取用户的粉丝数据,然后抓取用户间的关注关系以及数据集中每个用户在该段时间内,转发、评论和发表微博的总数。将微博用户作为网络中的节点,用户间的关注关系作为节点的边。构建用户关注关系数据集U,数据集中包含1857个用户节点的微博信息。
升高后快速降为0。为了简化模拟真实微博的传播过程,设定阅读率为1。
为了验证MDSLIR模型的准确性和能否有效反映出微博信息的传播特征,本文使用相同的仿真环境和数据集,分别对MDSLIR模型、SIR模型和SCIR模型进行实验对比,如图3所示。
相较于SIR模型,本文MDSLIR模型增加了潜伏节点使其在传播范围和传播速率上受到了限制,达到稳定状态的时间较长;而相较于SCIR模型,本文MDSLIR模型增加了直接免疫行为以及双重易感节点使得到达稳定状态的时间比SCIR模型短。真实的传播过程中,由于易感节点的类型不同,会影响信息传播的速度;而不完整阅读、直接免疫、潜伏免疫等行为会阻碍信息传播。故三种模型的性能可采用微博转发率即传播节点的比例来验证。例如,“鹿晗关晓彤恋情”该话题通过多次迭代之后,SIR,SLIR,MDSLIR模型中传播节点比例分别约为49%,30%,17%。传统的SIR,SCIR模型是相对理想的传播模型,而本文MDSLIR模型考虑了更多影响因素,更真实地反映了微博信息的传播过程。
为了验证双重易感节点即转发概率对信息传播的影响,本文针对不同易感节点的转发概率进行仿真实验,结果如图4所示。
其中,1)在传播网络到达稳定之前,R(t)免疫节点密度随P2和Q1的增大而减小,这是由于P2和Q1为易感节点变为感染节点的概率,即转发率。转发率越大说明易感节点转发该微博的可能性增加,因此免疫节点密度会下降;2)P2和Q1改变对传播网络中的最终节点密度不产生影响,即R(t)最终趋向1;3)P2和Q1的增加使得微博信息传播达到稳定的时间变长。
实验结果表明MDSLIR模型更能准确地展现微博信息的传播过程,反映出信息在微博网络中的传播特性。模型中提出的不完整阅读行为,使得微博平台可以通过调整阅读率筛选出有害信息,而使积极向上的信息可以有效及时的传播;新增加的潜伏者表明信息的传播不是突然爆发的,而是需要一个过渡期即潜伏期,也就是说可以通过潜伏期可以控制恶意信息的传播;另外,对易感人群进行区分,能够更加细化转发效率的高低,使得实验仿真更加接近真实的微博信息传播情况。传统的传播模型并不能对微博信息传播进行准确地控制,因此本文MDSLIR模型通过增加潜伏节点、区分易感人群和完善信息的传播途径,更好地适应微博信息传播场景,使得管理者能够根据信息随时间的传播采取不同的控制手段。
4 结束语
本文提出了一种更真实反映微博信息传播过程及状态转移的MDSLIR模型,该模型考虑了微博信息传播的真实情况,在原有的SIR模型上进行改进,增加双重易感染者、潜伏者等传播个体,优化了不完整阅读行为、直接免疫等信息传播过程及对状态转移进行了新的阐述。以新浪微博为例,构建微博信息传播的传播网络,对网络节点数据进行仿真并与其它传统模型进行比较,分析了模型中各参数对传播过程的影响。实验结果表明,本文模型能够很好地反映微博信息传播过程。本文提出的微博传播模型未考虑到粉丝看到博文时的多次转发情况以及微博博主的粉丝的影响力因素,另外,在噪声数据的处理上也考虑稍欠佳,未来将会对这些不足进行改进,完善传播模型。
参考文献
[1] ZHAO Y R, WANG Y T, WU M Z. Overlapping Community Detection Based on Node-influence Propagation in Heterogeneous Social Networks[J]. Journal of Chinese Computer Systems, 2015, 36(10): 2190-2196.
[2] 中国互联网络信息中心, 第 40 次中国互联网络发展状况统计报告[R], [2017-08-08]. 北京: 民主与法制时报, 2017.
[3] Kermack W O, Mckendrick A G. A Contribution to the Mathematical Theory of Epidemics.[J]. Bulletin of Mathe matical Biology, 1991, 53(1-2): 89-118.
[4] Allen L J. Some discrete-time SI, SIR, and SIS epidemic models[J]. Mathematical Biosciences, 1994, 124(1): 83.
[5] Sudbury A. The Proportion of the Population Never Hearing a Rumour[J]. Journal of Applied Probability, 1985, 22(2): 443-446.
[6] Zhou J, Liu Z, Li B. Influence of network structure on rumor propagation[J]. Physics Letters A, 2007, 368(6): 458-463.
[7] 周雪峰, 徐恪, 张蓝珊, 等. 社交网络的传播测量与时间序列聚类分析[J]. 小型微型计算机系统, 2015, 36(7): 1545-1552.
[8] Su Q, Huang J, Zhao X. An information propagation model considering incomplete reading behavior in microblog[J].Physica A Statistical Mechanics & Its Applications, 2015, 419(2): 55-63.
Ding X, Liu Q, Zhang W. An improved model for information dissemination and prediction on microblog networks[J]. Journal of University of Science & Technology of China, 2014.
Zhao L, Xie W, Gao H O, et al. A rumor spreading model with variable forgetting rate[J]. Physica A Statistical Mechanics & Its Applications, 2013, 392(23): 6146-6154.
Zhao L, Qiu X, Wang X, et al. Rumor spreading model considering forgetting and remembering mechanisms in inhomogeneous networks[J]. Physica A Statistical Mechanics & Its Applications, 2013, 392(4): 987-994.
Zhao L, Wang Q, Cheng J, et al. Rumor spreading model with consideration of forgetting mechanism: A case of online blogging LiveJournal[J]. Physica A Statistical Mechanics & Its Applications, 2011, 390(13): 2619-2625.
Wang B, Zhang J, Guo H, et al. Model Study of Information Dissemination in Microblog Community Networks[J]. Discrete Dynamics in Nature and Society, 2016, (2016-10- 26), 2016, 2016(1): 1-11.
王亚奇, 蒋国平. 复杂网络中考虑不完全免疫的病毒传播研究[J]. 物理学报, 2010, 59(10): 6734-6743.
王振飞, 张利莹, 张行进, 等. 面向时间感知的微博传播模型研究[J]. 计算机科学, 2017, 44(2): 275-278. 平, 苏光大, 人脸识别技术综述[J], 中国图像图形学报(A版), 2000, 5(11): 885-894.
卓廣平. 数据挖掘开发及应用研究[J]. 软件, 2015, 36(5): 81-83.
史尤昭. 数据挖掘技术研究与应用[J]. 软件, 2015, 36(11): 38-42.
李晋宏, 戴海涛. 可穿戴设备数据挖掘及可视化技术的研究[J]. 软件, 2015, 36.
崔仁桀. 数据挖掘在学生专业成绩预测上的应用[J]. 软件, 2016, 37(1): 24-27.
胡健, 王理江. 数据挖掘在选课推荐中的研究[J]. 软件, 2016, 37(4): 119-121