基于微博关注网络的转发预测算法研究

2020-08-21 09:09刘超姚耿杨宏雨
数字技术与应用 2020年7期
关键词:预测模型信息传播微博

刘超 姚耿 杨宏雨

摘要:针对目前研究转发预测的方法忽视了微博传播过程中用户关注网络的问题,基于微博信息的转发机制,结合传染病建模理论,提出一种基于微博关注网络的转发预测模型。首先建立微博转发者与其被关注粉丝之间的数量关系,然后建立微博传播者预测模型。微博数据集上的实验结果表明,与基准模型相比,该模型能够取得更好的预测效果。

关键词:微博;预测模型;信息传播

中图分类号:TP391.9 文献标识码:A 文章编号:1007-9416(2020)07-0121-04

0 引言

在线社交媒体和社交网络已成为人类生活中不可替代的重要部分,例如新浪微博作为国内最活跃的社交网络之一,在2018年其月活跃用户达4.62亿,连续三年增长数量超过7000万[1]。在线社交网络已经成为互联网时代最重要的人际交互平台,使得虚拟网络成为当今社会热点话题和舆情传播的主要渠道。在此背景下,预测用户生成内容的受欢迎程度,其在众多应用中的实用价值而引起了广泛关注[2],因此预测信息传播的流行程度已成为了在线社交网络研究的重要内容。

微博作为中国最具影响力的社交媒体平台之一,对微博流行度的预测已经成为当前的研究热点。由于微博的转发数据较为容易获取,并且微博转发量能够反映微博在一段时间内的热度,因此一般采用微博的转发量作为微博流行度的量化指标,从而将对微博的流行度预测转化为对微博发布后对转发数量的预测,根据其早期的转发动态来预测其最终的转发量[3]。

目前对微博转发量的预测有基于时间序列、基于回归模型、基于传染病模型等多种预测方法。基于时间序列的方法是对微博转发量进行时间序列建模,研究微博转发量在一段时间内的变化规律[4],这种方法不考虑微博传播过程中的个体差异,通常只适用于研究微博传播的一般情况[3]。基于回归的方法是通过挖掘影响微博传播中的关键因素,一般包括发布时间、文本内容、评论数量等,利用这些特征建立回归模型,从而预测微博最终转发量[5]。这种方法的困难在于不易选择合适的特征,并且需要较多的历史数据训练模型[3]。最后,基于流行病模型的预测方法是以传染病学和传播学的理论研究基础,构建新的传播规则和模型,建模思路清晰可靠,已成为微博转发预测的一种重要方法。本文选择基于传染病模型,对微博转发量进行预测。

传染病建模的基本建模思路是把微博网络中的用户节点划分为多个仓室,通常有未知者S、传播者I和免疫者R。对于某条微博,未知者S表示没有接触过这条微博的用户,传播者I表示接触过并且会以一定概率转发该微博的用户。免疫者R表示接触过微博后不会进行传播的用户。微博的转发扩散就表示为用户节点在不同仓室之间的转移[6]。在经典SIR模型的基础上,Xiong等[7]增加了接触信息者C,建立了基于转发机制的信息传播模型,接触信息者C表示阅读了这条微博,但还没有决定是否要转发。Zang等[8]在SI模型的基础上提出了一种网络增长模型,将信息在社交网络上的传播过程转化为网络的增长,实现了对社交网络中用户数量变化的预测。他们建立的这种模型将早期指数增长网络放缓至中后期的幂律增长,更加精确地描述了网络的变化过程。

本文基于对微博传播过程的分析,建立了一种基于关注网络的微博转发量预测模型,考虑了微博在传播过程中潜在关注者数量的变化,并根据这一动态变化的指标预测未来转发量。在开源数据集上进行的实验结果表明,本文建立的模型相比基准模型,能够实现更好的预测效果。

1 模型建立

在微博网站上,当某个用户发出一条微博时,只有这个用户的粉丝可以收到这条信息,并考虑该信息是否值得转发。如果一些用户决定转发它,那么这些用户的粉丝就有机会阅读和传播这条微博。这些粉丝的转发又会带来新的用户去阅读和传播。这样这条微博信息的影响就超出了发布者的局部网络,并且有机会在微博网络上扩散到更大范围。

基于上述的信息传播机制,我们的模型以下列方式定义。在每个时间步里,转发者和其他用户之间的交互行为有以下规则:

(1)定义转发者为I,每个转发者的粉丝会收到微博信息,因此,这个转发者的粉丝会成为这条微博的潜在关注者。

(2)全部的潛在关注者构成一个仓室S,并且会有的概率转发这条微博,即以的速度转变为转发者。当该S仓室内的用户转变为转发者后,这个用户的粉丝会在下一个时刻加入到仓室S中。

可以看出,在该模型中,存在两种状态,分别是转发者I,以及潜在关注者S。这个模型的一个重要特征就是S并不是一个定值,而是根据初始微博传播的数据,建立S和I之间的数量关系:。我们将分别定义为在t时刻潜在关注者和转发者的数量。因此在的时间段内,新增I的数量可计算为:

通过对微博传播数据的分析,发现潜在关注者数量S与微博传播初期的转发者数量I,以及初期转发者的平均粉丝数相关,其中S和I之间存在较为明显的函数关系。当转发数量较小时,微博处在一个快速传播的阶段, 此阶段转发数会大幅增加,在这个阶段,平均粉丝数较大,反映了在传播初期,参与传播的用户多为活跃用户,微博影响力较大。此时,每个参与转发的用户会带来较多的潜在关注者,因此总的S数量相对I数量呈现出更加快速的增长。

随着时间的增加, 转发快速增长阶段结束后,总转发次数在慢慢趋于平稳,这个阶段转发率下降到一个较低程度。此时,主要参与转发的是数量相对较多的普通用户,他们拥有较小的粉丝数,但是由于整体的转发数量较多,因此也会使潜在关注者的数量在短时间内有明显的增长。之后随着转发率和单位时间内转发数的进一步下降,新接受到信息的潜在关注者较少,因此信息较少发生传播,总转发量在较长时间上维持稳定。

由上述分析,可以根据某微博在t时刻的转发数量I,计算得到对应的未感染者数量,如公式(4):

由上述公式,可以得到任意时刻I的数量。首先利用LM算法,在微博传播的初始阶段进行拟合,最小化误差和,得到参数。再将参数带入到公式中,计算得到下一时间点的I的数量。为了使I的预测值更加准确,也为了方便计算,需要让计算时间间隔较小,保证条件成立。

2 实验分析

2.1 数据预处理与评价指标

本文的实验数据来自Jing Zhang等[9]采集的微博转发数据集。该数据集采集了170万用户的微博数据,并构建了这170万用户之间的关注关系网络。为了准确评价实验结果,使用绝对误差MAPE,以及平均绝对误差MAE,其计算公式为分别为公式(10)、公式(11)。

2.2 实验分析

2.2.1 微博热度对模型预测效果的影响

首先,在实验数据集上用本文提出的模型进行实验,以每条微博发布后4h的数据为训练集,对未来24h的微博转发量进行预测。模型对不同热度的微博预测结果如图1。根据实验结果可以看出,本文提出的转发量预测模型能够较为准确的对微博的未来转发量进行预测。特别是对于微博转发量较大、热度较高的微博,预测效果较好。

2.2.2 预测时间对模型预测效果的影响

选择数据集中转发量超过20000的微博数据,用本文提出的模型以及对比的模型进行测试,对比模型分别采用SH[10]、LL[11]、UAPA[12]。计算模型在微博发布后的各个时间节点上的预测误差,结果如图2所示。根据实验结果可知,随着预测时间的增大,模型的误差也会增大。从总体上看,本文提出的模型(SIP)在各时间段内,均有较低的预测误差,同时相比其他模型,准确率也更高。

3 结语

本文基于微博转发的实际规律,结合传染病建模理论,建立了一个针对微博转发量的预测模型。首先用参与传播者的粉丝作为微博的关注者,代替传染病模型固定数量的初始未感染者,并建立了微博关注者与转发者数量关系方程,利用已知数据拟合其中的参数,然后又建立了转发者数量的预测模型。将本文建立的模型在真实数据集上進行实验,证明该模型有较好的预测效果。

参考文献

[1] 2018微博用户发展报告[R].北京:新浪微博数据中心,2019.

[2] 胡长军,许文文,胡颖,等.在线社交网络信息传播研究综述[J].电子与信息学报,2017,39(4):794-804.

[3] 吴越,陈晓亮,蒋忠远.微博信息流行度预测研究综述[J].西华大学学报,2017,36(1):1-6.

[4] Yang J,Leskovec J.Patterns of temporal variation in online media[C]//Proceedings of the fourth ACM international conference on Web search and data mining.ACM,2011:177-186.

[5] Jamali S,Rangwala H.Digging digg:Comment mining, popularity prediction,and social network analysis[C]//2009 International Conference on Web Information Systems and Mining.IEEE,2009:32-38.

[6] 李洋,陈毅恒,刘挺.微博信息传播预测研究综述[J].软件学报,2016,27(2):247-263.

[7] Xiong F,Liu Y,Zhang Z,et al.An information diffusion model based on retweeting mechanism for online social media[J]. Physics Letters A,2012,376(30-31):2103-2108.

[8] Zang C,Cui P,Faloutsos C.Beyond sigmoids:The nettide model for social network growth,and its applications[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2016:2015-2024.

[9] Zhang J,Tang J,Li J,et al. Who influenced you? predicting retweet via social influence locality[J].ACM Transactions on Knowledge Discovery from Data (TKDD),2015,9(3):25.

[10] Szabo G,Huberman B A.Predicting the Popularity of Online Content[J].Communications of the ACM,2010,53(8):80-88.

[11] Shen H,Wang D,Song C,et al.Modeling and predicting popularity dynamics via reinforced poisson processes[C]//Twenty-eighth AAAI conference on artificial intelligence.2014.

[12] 朱海龙,云晓春,韩志帅.基于传播加速度的微博流行度预测方法[J].计算机研究与发展,2018,55(6):1282-1293.

猜你喜欢
预测模型信息传播微博
何以解忧?基于社交媒体大数据的睡眠健康公众叙事研究
基于神经网络的北京市房价预测研究
事实与流言的博弈
如何进行突发事件中的舆情引导
重大突发事件中微博之力不微