朱海龙 云晓春 韩志帅
1(中国科学院信息工程研究所 北京 100093) 2(中国科学院大学网络空间安全学院 北京 100049) 3(国家计算机网络应急技术处理协调中心 北京 100029) 4 (北京科技大学计算机与通信工程学院 北京 100083) (zhl@cert.org.cn)
近年来,以微博为代表的部分社交网络应用迅速融入人们的生活中,并深刻地改变了用户之间信息传递的方式.在以报纸、广播、电视为代表的传统媒体中,信息传播的主要方式是少数权威节点发布信息,绝大多数用户阅读、收听或者观看消息,信息传播速度相对较慢,深度较浅,同一平台上不同信息之间传播范围的差别并不是很大.而在微博平台上,每个用户都可以自己发布和转发信息,信息的传播是以发布、阅读、转发、再阅读……这种不断迭代复制的方式进行传播的.相对于传统媒体,微博消息传播速度更快,信息传播的路径和过程随机性更强,不同信息之间传播的“流行度”也非常地不均衡,绝大多数消息传播范围很小,而极少数热点消息却能在极大范围内进行传播.
对微博消息传播的流行度进行预测是非常有价值的一项工作,但却是个非常困难的问题.首先,微博用户规模大,截至2014年底,新浪微博用户为2.49亿[1];其次,影响微博消息传播的因素很多,不仅仅与微博消息本身的内容有关,还与网络拓扑结构、关注关系、用户兴趣、发布时间等诸多因素有关,其中很多属性因素由于隐私保护的原因很难获取并进行分析;最后,消息的传播过程存在较大的随机性,以上这些因素导致对微博的流行度预测存在较大难度.
然而,虽然我们很难在微博刚发布时准确预测其未来流行度,但在微博传播一段时间之后预测其未来的传播趋势是可行的.根据多篇文献及实际统计结果显示,社交媒体上消息发布后一段时间内的传播特征与其未来的传播趋势具有较强的相关性.对于微博来说,不同微博之间内容热度高低、用户影响力的大小、用户兴趣、网络结构等因素的不同会体现在发布后短期内的传播数量和传播趋势上,可根据这些早期传播特征来预测未来流行度.
国内外很多学者对于流行度预测问题开展了大量的研究工作.2008年惠普实验室的Szabo和Huberman[2]研究了Digg和YouTube中帖子的流行度变化趋势,发现这2个网站中帖子的早期流行度与未来流行度在进行对数变换之后存在线性相关关系,并基于此发现提出了在线信息流行度预测SH(Szabo Huberman)模型.2013年Pinto等人[3]在SH模型上进行了改进,将YouTube视频传播早期时段分成多个时间片,根据每个时间片的传播流行度来预测未来的传播流行度,并基于这种思想提出了一种改进的多元线性(multiple liner, ML)回归模型.
尽管使用SH模型和ML模型等能够对在YouTube中视频帖子的传播流行度进行预测,但是对微博消息预测效果并不令人满意.这主要是因为相对于Digg和YouTube来说,微博消息的传播周期更短、速度更快、传播机制也更复杂,所以有必要对微博消息的流行度预测问题进行进一步研究.现有方法主要是根据消息早期传播的流行度值来进行预测,没有考虑早期传播速度变化趋势.经过对微博的传播流行度变化态势分析发现,传播加速度与未来流行度有一定的相关关系.另外,微博消息的流行度与消息最初发布时间密切相关,在进行预测时应充分考虑这一因素的影响.
基于以上发现,我们提出了一种新的微博消息流行度预测方法,首先基于微博发布后短时期内的传播加速度及传播流行度构建二元线性回归模型,然后结合用户相对活跃强度对流行度和传播加速度进行修正,最终得到用户活跃度及传播加速度(user activity propagation acceleration, UAPA)模型.我们将UAPA模型和业内有代表性的SH,ML,RPP(reinforced Poisson process)模型进了对比,经过实验证明新的预测模型对微博消息的流行度预测在多个指标上均具有更好的表现.本文的贡献主要有:
1) 提出了传播加速度这一流行度预测的新特征;
2) 提出了基于传播加速度、早期流行度和用户相对活跃强度的微博流行度预测模型UAPA;
3) 分析了不同模型预测效果的对比以及相关参数设置对于预测效果的影响.
近年来主流的流行度预测模型按照预测方法来分,主要可以分为基于回归分析的方法、基于分类的方法、基于时间序列分析的方法以及其他方法.
基于回归分析的预测方法是将消息的未来流行度作为因变量,分析帖子早期传播的各种特征,找出与未来流行度相关的因素作为自变量,构建回归预测模型.有代表性的工作有:Tatar等人[4]使用了简单的一元线性回归方法,根据网站上文章早期的评论数预测未来评论数.Kim等人[5]分析了某博客网站上博文点击数的变化情况,发现博文早期的点击数与最终点击数有关,并在此基础上提出了一种指数回归预测模型.Bandari等人[6]基于发布源、内容特征、发布用户等特征分别使用线性、SVM(support vector machine)和KNN(K-nearest neighbor)三种回归分析的方法预测Twitter的未来流行度.Can等人[7]在Twitter内容特征、网络结构特征之外考虑消息中图片的3种视觉特征,在此基础上使用线性、SVM和随机森林3种回归分析方法预测未来流行度.2013年Bao等人[8]发现微博消息的未来流行度与早期传播的链路密度和传播深度有关,并根据这2个因素分别建立了线性回归预测模型来预测消息未来流行度.2013谷歌发布的技术白皮书[9]使用线性回归方法根据电影早期搜索量等信息来预测电影最终的票房,可以达到92%的准确率.
基于分类的预测方法通常将消息的未来流行度人为分为若干等级,选择部分早期传播特征并使用分类算法预测消息最终流行度的级别.这方面的研究主要有:Bandari等人[6]根据转发数量将Twitter消息流行度分为高、中、低3个等级,并使用Bagging、决策树、SVM和朴素贝叶斯这4种分类方法预测Twitter消息的未来流行度.Hong等人[10]使用逻辑回归的方法对Twitter消息的未来流行度进行预测.Tsagkias等人[11]使用随机森林的方法对8个网站的在线文章基于多种文本特征进行2次分类:第1次分类是预测文章是否会有转发;第2次是预测文章未来流行度是否会超过1个阈值.Figueiredo等人[12]首先使用KSC(K-spectral clustering)聚类方法[13]按照传播态势对视频进行聚类,然后使用随机树方法基于视频的内容、链接等因素预测视频的未来流行度.孔庆超等人[14]提出了一种改进的KNN分类算法来预测豆瓣网讨论帖未来流行度.Gao等人[15]构造了微博传播中转发网络特征和边际网络特征,并结合时间特征使用多种分类方法预测微博消息的流行度.
基于时间序列分析的预测方法是将消息的传播看作一个时间序列过程,根据早期传播各个时间片流行度的变化来预测消息的未来流行度.例如Kuang等人[16]将微博传播过程分为生命周期内传播和周期外传播2个阶段,先根据转发间隔时间、首次响应时间等因素预测微博传播生命周期的长短,然后在周期内采用时间序列分析方法预测微博消息的流行度,周期外的流行度则采用一个简单的Log函数来预测.Hu等人[17]使用时间序列的加法多元线性回归(multiple liner regression, MLR)模型和乘法(holt-winters, HW)模型预测新浪和天涯新闻的未来流行度.Gao等人[18]提出了一种基于增强泊松过程的微博消息流行度预测模型,考虑了消息新颖性随时间衰减的情况和消息转发过程中优先链接的因素.
除此之外,还有一些其他的流行度预测方法,例如Zaman等人[19]基于概率模型Matchbox提出了一种Twitter消息的流行度预测方法.Lerman等人[20]详细分析了用户在Digg的行为规律,结合结构特征提出了一种基于用户行为的流行度预测模型.Lee等人[21]借鉴了医学中生存分析的方法,提出了一种基于Cox模型的在线消息流行度预测方法.Matsubara等人[22]以传染病模型为基础,结合流行度按幂率分布减弱和用户关注周期性变化,提出了一种SpikeM模型.
尽管上述诸多方法对于在线消息流行度预测问题研究上有了一些有效的成果,但对于微博消息流行度的预测却不令人满意,这主要是因为微博消息传播随机性更强、周期更短、传播机制更复杂,需要进一步研究并提出有效的研究方法.目前流行度预测主流的研究方法中,基于分类的方法只能预测流行度的大概范围区间,无法给出一个具体的值,不适用于流行度预测这种输出空间为连续值的预测对象;基于时间序列的方法适用于预测短期的流行度,远期的流行度预测由于误差累计的原因导致精度较差;另外一些方法则存在主观上假定部分影响传播的要素符合特定分布以及数据过拟合的问题,不能客观地反映传播规律.通过前期研究表明,基于回归分析的方法可以对消息未来流行度给出一个量化的预测值,经过认真筛选解释变量,选择合适的回归函数可以较为准确地对在线消息流行度进行预测.本文基于回归分析方法提出一种新的微博消息流行度预测方法.该方法第1次将传播加速度作为预测特征,同时结合用户在不同时段的活跃程度,对未来流行度进行预测.经实验表明,本文的方法能有效提高预测的准确性.
本文的研究对象为新浪微博消息,相对于阅读数、评论数、点赞数等指标,消息的转发数更能刻画消息传播的流行度,同时也更容易采集获取并进行量化计算,因此本文用微博消息的转发数来刻画微博消息的流行度.
对于每一条微博样本,我们可以得知源微博的发布时间及对其每次转发的时间,由此可以构建按时间排序的转发顺序链.对于给定的1条微博消息m,我们定义其发布时间(submission time)为t0,对m第i次转发时间用ti来表示,那么消息m的转发顺序过程可以用{t0,t1,…,ti,…,tfinal}来表示,其中tfinal表示消息m最后1次转发的时间.
为了分析微博的传播规律,并建立微博流行度预测模型,我们通过新浪微博的API以及模拟用户爬取Web页面2种方式采集了部分微博数据进行分析和实验.我们随机选取了2016-01-01—2016-02-06之间的44 030条源微博,并以这些源微博为源头,跟踪采集了对这些源微博在各个时间段的转发微博,这样每条源微博及其后续的转发微博构成1个微博样本.为了更全面地对微博数据进行分析和验证,我们形成了2个数据集:1)随机数据集Random,其中包含42 103个样本,涉及100万次转发;2)热门数据集Hot,其中源微博最终转发数都大于100,包含1 927个样本,涉及41万次转发.对于每个数据集我们都把样本平均分为2部分,分别构成训练集和测试集.后续对微博传播特征的分析基于随机数据集Random,对于预测模型的验证和分析在2个不同的数据集上分别进行.
本文的研究目标是预测微博在目标时刻的流行度,对于每一条微博而言,其生命周期是不一样的.但对于本文的预测任务来说,事先不知道微博生命周期会持续多长时间,因此需要提前设定目标时间Ttar的具体值.目标时间一方面要能涵盖对源微博的绝大多数转发时间,这样才能充分反映微博的未来流行度;另一方面因为微博生命周期相对于其他社交网络更短,为了使预测工作具有一定的时效性,目标时间也不宜设置过长.
经过统计分析发现,微博转发数量在时间分布上存在不均衡的情况.相对于微博消息几天甚至几十天的生命周期而言,绝大多数转发行为是在微博传播最初的几个小时内完成的,我们只需要分析并处理相对较短的时间就可以近似地得到消息最终流行度.我们统计了数据集上各条微博消息完成生命周期内85%,90%,95%的转发量所需时间的平均值,如表1所示:
Table 1 The Selection of Target Time表1 目标时间的选择
从表1中我们看出,90%的转发都发生在微博发出后24 h之内,而完成95%的转发量则平均需要43 h,微博发出24 h之后转发量增长得很缓慢.在本文后续的工作中我们把目标时间Ttar设定为24 h,一方面是24 h之内发生的转发量占总转发量接近90%,能够较好地体现微博最终的流行度;另一方面是24 h涵盖了源微博发布后一个完整的用户活动周期,可以更全面地体现微博在不同时段的传播情况.
目前,社交网络信息流行度预测领域中,应用较为广泛的是SH[2]模型和ML[3]模型,但对微博流行度的预测效果却不能令人满意.原因在于上述2个模型都是针对YouTube中视频的流行度进行预测,而YouTube视频的流行度变化规律与微博具有明显的差别.Figueiredo在文献[12]中详细分析了视频消息流行度变化的4种模式,如图1所示.其中图1模式A中视频消息的流行度随着时间稳定的增加,其变化趋势较稳定;而图1模式B,C,D都存在1个突然的流行度急剧增加随后又下降的尖峰,不同的是三者上升与下降的速度略有不同,在大多数时间内变化趋势很小.王巍等人[23]统计了微博的流行度变化趋势,大体可分为3种模式,如图2所示.其中图2模式A和图2模式B都有1个流行度较高的时间段,区别在于时间长短不一样,而图2模式C有2个流行时段,但无论哪种模式,其变化趋势都较为明显.对比视频和微博流行度的变化趋势来看,视频消息流行度变化趋势较为稳定,而微博的变化趋势变化较大.
Fig. 1 Varying mode of video popularity[12]图1 视频流行度变化模式[12]
Fig. 2 Varying mode of Weibo popularity [23]图2 微博流行度变化模式[23]
我们经过分析发现,微博未来的转发数不仅与其在参考时刻转发数量的绝对数值有关,还与其在t0~Tref这段时间内转发数的变化趋势有关.如图3所示,2条微博消息ma与mb,在4 h时二者的转发数目相差并不明显,但二者的转发数的变化趋势有着明显差别,mb的转发呈明显加速态势,而ma的转发过程比较平稳,二者在10 h时最终的转发数量具有明显的差别.综上所述,现有的主流预测方法不能对微博这种变化趋势变动较大的消息进行有效的流行度预测,有必要充分考虑消息传播变化趋势这一重要特性,重新建立模型来预测微博的流行度.
(1)
得到A(Tref)之后,我们进一步分析传播加速度与未来流行度的关系,画出了二者之间关系的散点图(图4中Tref=4 h,Ttar=24 h,k=4),如图4所示.从图4可以看出,总体上传播加速度与未来流行度呈现一定的正相关关系,在大多数情况下,传播加速度较大的微博未来流行度也较高.因此,我们认为微博的传播加速度可作为一项预测未来流行度的重要因素,我们在SH模型的基础上增加传播加速度这一特征,构建了一个二元线性回归模型:
(2)
其中α0,α1,α2为模型参数,通过在训练数据集上最小二乘估计获得.最终的未来流行度预测模型为
(3)
Fig. 4 Propagation acceleration and popularity at target time图4 传播加速度与未来流行度
与其他社交网络平台一样,微博上用户的转发活动具有明显的周期性.以1天24 h为例,我们统计了数据集中各个时间段用户发布转发微博数量的曲线图,如图5所示:
Fig. 5 Weibo user activity in a day图5 微博用户活跃度
Fig. 6 Early propagation acceleration, popularity at reference time and popularity at target time of two Weibo messages图6 2条微博的早期传播加速度、流行度与未来流行度
从图5可以看出,微博平台上用户在1天24 h不同时间段的活跃度相差悬殊,在午夜2时到早8时这段时间活跃度最低,在上午10时至晚21时处在一个比较活跃的状态,22时至次日1时则是1天中微博用户最活跃时段,比下午和晚上的转发量多出50%左右.相应地,单条微博在参考时刻的流行度以及在早期的传播加速度除了与微博内容、参与用户和社交关系有关以外,还与早期传播过程中用户的活跃度有关.例如对于2条相似的微博ma和mb,其中ma首发时间为早上5时而mb为上午10时,图6展示了2条微博在参考时刻(Tref=4 h)的流行度、传播加速度和在目标时刻(Ttar=24 h)的流行度.
微博ma其首发时间在早上5时,处于微博用户最不活跃的时间段,因此其在参考时刻的流行度并不高,同样的原因,ma在传播初期这段时间的传播加速度也不高,但是我们发现其在目标时刻的流行度却比较高,这可能是ma本身具有较强的流行性因素,因此在目标时刻的流行度较高.而对于微博消息mb,其首发时间在上午10时,是微博用户比较活跃的阶段,其参考时刻的流行度和早期传播加速度都比较高,但其在目标时刻的流行度却不是很高,这可能是因为mb本身流行度不是特别强,只是因为其首发时间为热门时间段,所以其在传播早期的流行度和加速度都较高,但其本身相对较弱的流行性导致其未来的流行度不高.
因此,仅仅考虑参考时刻的流行度和早期加速度来预测未来流行度是不全面的,还应充分考虑微博消息首发时微博平台的活跃度.我们提出了微博用户相对活跃强度的概念,它是一个向量,代表每天24 h中第i小时平台的活跃强度.其定义如下:首先计算微博平台上平均每小时转发的微博数u,然后在计算每个小时内平均的转发量为V[i](1≤i≤24).每个小时平台的相对活跃强度为
(4)
它反映了微博平台上1天时间周期内各个时间段用户的活跃度.在此基础上我们修正微博在参考时刻的流行度N(Tref)和早期传播加速度A(Tref),分别除以参考时刻的微博用户相对活跃强度,得到相对流行度N*(Tref)和相对传播加速度A*(Tref),
(6)
并替代式(3)预测模型中的N(Tref)和A(Tref),得到1个新的预测模型UAPA,其具体形式为
(7)
其中β0,β1,β2为模型参数,通过训练集上的最小二乘法估计获得.
为了验证本文提出的微博流行度预测模型的有效性,我们将它们与3种常用的社交媒体消息流行度预测模型进行比较,本节实验中使用的方法包括:
1) SH模型.Szabo和Huberman在文献[2]中提出的一种基于一元对数线性回归的流行度预测模型,该模型表示为
(8)
Fig. 7 Performance comparison on MAE of models图7 各种模型平均绝对误差的性能比较
2) ML模型[3].是一种对SH模型的改进模型,它将消息传播早期t0~Tref这段时间分为k个时间片,基于每个时间片的内消息的流行度构建面向未来消息流行度的多元线性回归模型,但与SH模型不同的是,ML模型不是基于对数线性相关性的回归模型,而是基于多元线性回归的预测模型.该模型具体的形式为
(9)
其中,参数N(Tk)是第k个时间片内微博消息的转发数,θ为模型参数,通过事先对训练集最小二乘法获得,在本文中k=4.
3) RPP模型[18].是一种基于增强泊松过程的模型,集成了消息强度、消息随时间衰减的时间松弛方程、刻画消息传播过程中优先链接现象的增强方程3种因素,其中设模型参数ε=10,时间松弛方程为幂率方程,增强方程为指数方程,另外增加了时间映射过程.
4) UAPA模型.如本文式(7)所示.
在实验中我们采用3种测试指标来评价各个模型的性能,分别为平均绝对误差(mean absolute error,MAE)、平均百分比绝对误差(mean absolute percentage error,MAPE)和准确度Accuracy评价指标.其中MAE衡量了在实验数据集上预测值与真实值之间的平均绝对误差.对于含有n条源微博消息的测试集C,MAE的定义为
(10)
MAPE指标衡量了测试集上平均预测值与真实值的相对误差,其定义为
(11)
Accuracy指标衡量了在测试集上预测相对误差小于0.1的比例,其中I[X]是一个指示函数,X为真结果为1,否则为0.
(12)
在本节中我们进行3组实验,首先在随机数据集Random和热门数据集Hot上分别对比各个预测模型预测性能,然后基于随机数据集Random分析不同的目标时间长度对于预测效果的影响,最后分析UAPA模型中参数k的取值与预测性能的关系.
Fig. 8 Performance comparison on MAPE of models图8 各种模型平均百分比绝对误差的性能比较
Fig. 9 Performance comparison on Accuracy of models图9 各种模型准确率性能对比
首先,我们分别在2个数据集上测试了各个模型性能并进行了比较.其中我们目标时间固定设置为一个完整的时间周期,即Ttar=24 h;Tref分别取2~24 h的各种情况分别计算各模型的预测结果,从直观的意义上来讲,Tref代表了模型训练时间的长短.对于ML和UAPA模型,其中均设参数k=4,图7~9给出了3个实验指标下各模型的实验结果.从总体来看, UAPA模型对于所有的Tref在各个性能指标上均明显优于其他3种模型.
对于MAE指标,我们发现随着Tref的增加,各种模型的预测误差减小的速度相对均匀,这说明对于同一模型,影响绝对预测误差的主要因素是Tref时间的长短.横向对比来说,UAPA模型比ML,SH,RPP模型明显预测误差更小,SH误差最大.另外,各种模型在热门数据集Hot上的绝对误差都小于在随机数据集Random的误差,这主要是因为对于热门微博来讲,早期传播特征与未来流行度关系更紧密,各预测模型更能体现出这种关系;而对于非热门微博,早期流行度与未来流行度差别不大,模型预测效果也较差.UAPA模型相对于RPP模型在热门数据集Hot上的性能提升比在随机数据集Random上更大,这主要是因为传播加速度这一特征对于热门微博更加突出,也说明UAPA模型更适用于热门微博的流行度预测.
对于MAPE指标,从图8中我们看到Tref从2~4 h时,各个模型的MAPE都有明显的下降,但之后随着Tref的延长,相对预测误差的下降幅度明显减缓,增加Tref对于性能的提高作用在减小.相对于随机数据集Random,各模型在热门数据集Hot的预测精度都有明显的提升,其总体变化趋势与随机数据集Random相似.
另一方面,对于预测用户来说,Tref越短预测结果价值越大.因此,平衡Tref和预测误差,我们认为Tref=4 h是一个比较好的折中设置,当Tref=4 h时,UAPA模型的相对误差小于20%,在热门数据集Hot上甚至小于15%,可以获得一个比较理想的准确度,同时一般用户也能够接受这个参考时间.
对于各个模型来说,UAPA模型在4 h≤Tref≤14 h这一区间相对于ML和SH模型的性能改善更为显著,这可能是由于Tref≥4 h时传播加速度和用户活跃度才能有比较明显的差别.在4 h≤Tref≤14 h时段,UAPA模型在随机数据集Random上虽然优于RPP模型但提升不大,但在热门数据集Hot中,UAPA比RPP预测精度有较大程度的提高.由此可见,UAPA模型在4 h≤Tref≤14 h时间段,尤其是对热门微博的预测场景更能发挥其优势.
从Accuracy指标来看,UAPA模型大幅优于另3种基准模型.与MAPE指标不同的是:在随机数据集Random上当Tref=2 h时UAPA模型就获得了90.38%的准确率,在热门数据集Hot上则达到了91.6%,而且随着Tref的增加,准确率并没有明显的提高,即便是Tref达到24 h以上时,模型的准确率也没有达到100%,这可能是由于模型参数的误差导致一部分样本预测值与实际值偏差较大,而且这种偏差主要分布在传播早期,增加Tref不会减少这种误差.总体来说,即便是存在5%的不可消除的预测误差,UAPA模型可提供很高的预测精度,适用于大多数预测场合.
我们注意到UAPA模型在Accuracy指标和MAPE指标表现有所差异,对于MAPE指标,UAPA模型随着Tref的增加,误差逐渐减小;而对于Accuracy指标,UAPA随着Tref增加准确率小幅提升之后基本稳定在一个较高的水平.这可能是在测试集中有部分样本的相对误差值较大,平均之后提高了整个样本集MAPE值,而根据Accuracy的定义,这部分样本只会从样本数量上影响Accuracy指标,相对来说对样本集的指标影响较小.这也说明Accuracy指标从某些角度讲更能科学、准确评价模型性能.
在第2组实验中,我们在随机数据集Random上把Tref固定设为4 h,通过调整Ttar来看不同模型MAPE的性能表现.从图10中我们可以看出,随着Ttar的延长,所有模型的MAPE值都随之增大,这表明对于各个模型来说,延长目标时间都会降低预测性能.然而,从图10中可以看出,MAPE值增加的相对幅度随着目标时间Ttar的延长而减小.例如,对于UAPA模型,当Ttar从8 h增加到12 h,MAPE值增长了122.14%;而Ttar从20 h增加到24 h,MAPE值只增长了44.05%.这说明预测模型性能下降的边际效果随着目标时间的延长而逐渐减小.导致这种现象的原因是对源微博的转发大多集中在生命周期前段,随着Ttar的增加,源微博在第i个小时获得的转发次数通常会小于第i-1小时获得的转发次数,也就是说Ttar虽然线性增加,但是转发量却没有成比例的增加,相应的预测误差也会增大的慢一些.
Fig. 10 Target time and prediction performance on MAPE图10 目标时间长短对于MAPE预测效果的影响
最后,我们分析UAPA模型中参数k对预测性能的影响.从3.3节所述我们可以得知k是把训练时间段Tref分片的数量,我们通过设定Tref=4 h,Ttar=24 h,分别取k为2,3,4,5,6,7,对UAPA模型的MAPE指标进行了分析对比.图11给出了实验结果对比,从图11中我们可以看出,随着k值的增大,误差有所减小.但是当k=5或者更大数值时,预测性能提高得很有限.例如对于UAPA模型,当k=4比k=3时MAPE值降低了14%,而当k=6比k=5的情况下MAPE仅仅降低了1%.在Tref=4 h前提下,k=4或k=5是较为理想的值.
Fig. 11 Parameter k and prediction performance on MAPE图11 参数k对MAPE预测效果的影响
在本文中,我们分析了微博消息在发布初期传播趋势与未来流行度的关系,提出了传播加速度的概念和计算方法,并基于早期传播加速度和流行度并结合用户周期性的活跃强度提出了一种微博流行度预测UAPA模型.通过在微博真实数据集上进行验证表明,本文提出的模型可以对微博未来流行度进行准确的预测,效果优于主流的预测方法.最后分析了模型参数取值对于预测效果的影响.
虽然本文模型能较为有效地预测微博未来的流行度,但在Tref较短的情况下预测效果仍有较大的改进空间.为进一步能更早对流行度进行准确预测,本文未来的工作主要从2个方面开展:1)把微博传播的过程归纳为几种典型模式,为每种模式建立不同的预测模型,在实际预测时首先根据发布后的传播特点预测其传播模式,然后在根据不同的模型来预测其未来的流行度;2)进一步分析用户活跃度的周期性,目前的做法都是按1天不同时段分析用户活跃性的不同,但经统计发现工作日与节假日微博用户的活跃情况差别十分明显,后续的工作可进一步区分工作日和节假日的用户活跃度.
[1]Internet Society of China. China Internet Development Report 2015[M]. Beijing: Publishing House of Electronics Industry, 2015 (in Chinese)(中国互联网协会. 中国互联网发展报告2015[M]. 北京: 电子工业出版社, 2015)
[2]Szabo G, Huberman B A. Predicting the popularity of online content[J]. Communications of the ACM, 2008, 53(8): 80-88
[3]Pinto H, Almeida J M, Gonçalves M A. Using early view patterns to predict the popularity of YouTube videos[C]Proc of the 6th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2013: 365-374
[4]Tatar A, Leguay J, Antoniadis P, et al. Predicting the popularity of online articles based on user comments[C]Proc of the Int Conf on Web Intelligence, Mining and Semantics. New York: ACM, 2011: 67-74
[5]Kim S D, Kim S H, Cho H G. Predicting the virtual temperature of Web-blog articles as a measurement tool for online popularity[C]Proc of the 11th Int Conf on Computer and Information Technology (CIT). Piscataway, NJ: IEEE, 2011: 449-454
[6]Bandari R, Asur S, Huberman B A. The pulse of news in social media: Forecasting popularity[C]Proc of the 6th Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2012: 26-33
[7]Can E F, Oktay H, Manmatha R. Predicting Retweet count using visual cues[C]Proc of the 22nd ACM Int Conf on Information & Knowledge Management. New York: ACM, 2013: 1481-1484
[8]Bao Peng, Shen Huawei, Huang Junming, et al. Popularity prediction in microblogging network: A case study on Sina Weibo[C]Proc of the 22nd Int Conf on World Wide Web. New York: ACM, 2013: 177-178
[9]Panaligan R, Chen A, Quantifying movie magic with Google search[OL]. [2016-02-28]. https:ssl.gstatic.comthinkdocsquantifying-movie-magic_research-studies.pdf
[10]Hong Liangjie, Dan O, Davison B D. Predicting popular messages in Twitter[C]Proc of the 20th Int Conf on World Wide Web. New York: ACM, 2011: 57-58
[11]Tsagkias M, Weerkamp W, De Rijke M. Predicting the volume of comments on online news stories[C]Proc of the 18th ACM Conf on Information and Knowledge Management. New York: ACM, 2009: 1765-1768
[12]Figueiredo F. On the prediction of popularity of trends and hits for user generated videos[C]Proc of the 6th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2013: 741-746
[13]Broxton T, Interian Y, Vaver J, et al. Catching a viral video[J]. Journal of Intelligent Information Systems, 2013, 40(2): 241-259
[14]Kong Qingchao, Mao Wenji. Predicting popularity of forum threads based on dynamic evolution[J]. Journal of Software, 2014, 25(12): 2767-2776 (in Chinese) (孔庆超, 毛文吉. 基于动态演化的讨论帖流行度预测[J]. 软件学报, 2014, 25(12): 2767-2776)
[15]Gao Shuai, Ma Jun, Chen Zhumin. Popularity prediction in microblogging network[C]Proc of APWeb 2014: Web Technologies and Applications. Berlin: Springer, 2014: 379-390
[16]Kuang Li, Tang Xiang, Guo Kehua. Predicting the times of retweeting in Microblogs[OL].[2016-03-05]. http:dx.doi.org10.11552014604294
[17]Hu Changjun, Hu Ying, Xu Wenwen, et al. Understanding popularity evolution patterns of hot topics based on time series features[C]Proc of APWeb 2014: Web Technologies and Applications. Berlin: Springer, 2014: 58-68
[18]Gao Shuai, Ma Jun, Chen Zhumin. Modeling and predicting retweeting dynamics on microblogging platforms[C]Proc of the 8th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2015: 107-116
[19]Zaman T R, Herbrich R, Van Gael J, et al. Predicting information spreading in Twitter[OL].[2016-04-06]. https:www.microsoft.comen-usresearchwp-contentuploads201012NIPS10_Twitter_final.pdf
[20]Lerman K, Hogg T. Using a model of social dynamics to predict popularity of news[C]Proc of the 19th Int Conf on World Wide Web. New York: ACM, 2010: 621-630
[21]Lee J G, Moon S, Salamatian K. An approach to model and predict the popularity of online contents with explanatory factors[C]Proc of the Int Conf on Web Intelligence and Intelligent Agent Technology. Piscataway, NJ: IEEE, 2010: 623-630
[22]Matsubara Y, Sakurai Y, Prakash B A, et al. Rise and fall patterns of information diffusion: Model and Implications[C]Proc of the 18th ACM SIGKDD Int Conf on Knowledge Discovery and Data mining. New York: ACM, 2012: 6-14
[23]Wang Wei, Li Ruiguang, Zhou Yuan, Microblog burst topic diffusion prediction algorithm based on the users and node scale[J]. Journal on Communications, 2013, 34(z1): 84-91 (in Chinese)(王巍, 李锐光, 周渊, 等. 基于用户与节点规模的微博突发话题传播预测算法[J]. 通信学报, 2013, 34(z1): 84-91)
ZhuHailong, born in 1978. PhD candidate. His main research interests include social network and machine learning.
YunXiaochun, born in 1971.PhD, professor and PhD supervisor. His main research interests include network security and Internet modeling.
HanZhishuai, born in 1993. Maser candidate. His main research interests include deep learning and machine vison.