基于模拟退火算法的微博热度衰退研究

2018-09-03 02:29昊,王
无线互联科技 2018年16期
关键词:折线图模拟退火热点

封 昊,王 珂

(西安建筑科技大学,陕西 西安 710055)

1 微博社交网站发展概述

Twitter是美国最大的微博社交网站,目前全世界范围已达到5亿多用户[1]。随后在2009年8月新浪微博进入中国网民的视线,新浪微博是近几年来国内四大微博中发展势头最猛的一个社交网站,用户基数大,网罗了生活中各个方面的专业人士、名人大咖和大量的普通用户[2]。新浪微博总结起来有三大特点:(1)每天产生巨大的信息量,传播影响深远[3];(2)微博信息传播速度快,热点事件更是在1 h内传遍全国;(3)微博信息内容丰富,其中也包含了表情、网络用语、链接、视频、音乐等微博的信息[4]。

本研究首先引入一个理论:引爆点理论。引爆点理论是由美国的格拉德威尔提出的,该理论包括3部分。第一是关键人物法则,包括3类人:联系员、内行和推销员;第二是附着力因素;第三是环境威力法则[5]。

试着将引爆点的理论套用在微博传播中,大致可以分为这3个部分:(1)个别人物法则。包括联系员—“粉丝”数量多的人;内行—加V的名人;推销员—微博活跃用户。(2)附着力法则。微博内容要有吸引力,能够引起网友兴趣。(3)环境威力法则。一条微博在刚发布的几小时内是最为关键的时间。但是如果在短时间内迅速推高转发率和评论数量,就会引发爆发性转发[6]。

引爆点理论提供了微博成为热点的理论依据,从而引出微博热点衰退的研究,通过模拟退火算法模拟微博的衰退过程。正如引爆点理论所说,当一条微博在短时间内热度呈指数上升的时候,非常符合上述特点,但是其中最重要的是,一条微博如果在短时间内拥有大量的转发并且评论的用户数量也呈爆炸式增长,它的传播范围将会很大,可能会迅速成为这几天的热点微博,但是即使是热点微博也有其热度,它的热度随着时间将会慢慢减弱,最后成为历史信息。

2 模拟退火算法研究

本小节将介绍两个具体的模拟退火算法,为微博热度随着时间衰退而降低的整个过程模拟做好前期准备。两种算法分别为随机和确定性模拟退火算法,算法的伪代码如下。

随机的模拟退火算法的曲线跳跃很大,但是总体还是呈下降趋势的;由此确定模拟退火算法曲线很平稳地在下降。分析两种模拟退火算法可以得出:算法1能更好地模拟微博的热度,因为在现实中,微博的热度总是跳跃,其中爆发就是事件本身的属性,接着第二次或更多次的爆发一般是由于名人微博大咖转发而引起的,所以本论文选取随机模拟退火算法作为研究对象。

3 微博热度时间衰减建模

微博为要成为热点取决于传播力,而传播力度大小主要在于微博的转发数量和评论人数。为此本论文根据模拟退火算法提出了微博热度的计算方法,改进一些参数使其更适合微博的热度衰退计算。

(1)F(y)在模拟退火算法中,对某个状态y时的评价函数值,微博中将表示为微博的热度计算,具体的计算公式为:

F(y)=γMDF+(1-γ)MDR (γ>0.5) (1)

公式(1)中MDF为某条微博当天的日转发量,MDR为某条微博的日评论量,其中γ为大于0.5的(0,1)之间的小数,表示为某条微博的转发的传播范围,使它成为热点的可能性更大,所以在热点函数计算中MDF权重要大于MDR。

(2)Y(t)表示在时间t时刻微博的热点状态,Y(t+1)表示在下个新的时间状态的微博热点状态,因为每天的微博热点都有不同,而且过去热点微博,其热度也会下降或者上升,所以此处的时间单位是每天。

(3)α用于控制降温的快慢,利用选定的系数α进行计算即:T=αT,得到新的温度,如取r=0.999。

(4)T为系统的温度,系统初始应该要处于一个高温的状态。

(5)Tmin:温度的下限,若温度T达到Tmin,则停止搜索,在本章表示微博热度趋于一条直线,就是在没有人评论或者转发该条微博。算法流程如图1所示。

初始值T0越大越好,为了减少计算量,要根据实际情况选择;控制参数T的衰减函数,常用Tk+1=αTk,α的取值范围在0.5~0.99,Markov链长Lk取微博的研究时间区间为准。

图1 微博时间衰退算法流程

4 实验与结果

对上面建模算法,获取微博热点事件“女游客丽江遭暴打惨被毁容”进行实验,主要获取微博从开始到结束这个时间段内的微博转发量和评论数,计算微博这个时间段内的热度,并画出热度折线图,如图2所示,然后通过改进模拟退火算法对该热点事件进行模拟,并画出折线图,如图3所示。通过两幅图来看,完全可以用改进模拟退火对微博热度走向进行模拟,为了进一步说明两幅折线图的相关性,我们采用线性回归中的R-Square作为评价工具,R-Square就是R方,公式如(2)所示。

公式(2)中Y_actual为微博热度中实际的热度,Y_predicted为用模拟退火算法进行模拟后所得到微博热度,Y_mean为微博在这段时间内的平均热度。式中R方的值越大越好,意味着微博热度大部分的点都和原来曲线点重合率很高。

图2 “女游客丽江遭暴打惨被毁容”热度折线图

图3 “游客丽江被毁容”热度模拟折线图

通过计算模拟退火算法得到折线图中的R-Square为0.73,说明模拟图和原来折线图相关性很大,几乎可以用来代替原来折线图,为了直观的体现两者之间的联系,我们把两张折线图画在同一个轴中,如图4所示。

仿照这上面的实验方式,本章有选取了10组热点微博事件,用模拟退火算法进行模拟,最后计算他们的R-Square值,画出折线图和柱状图,如图5所示,在图5中可以看出超过8组事件的R-Square值超过了0.7,说明本预测模型的成功率大概为80%,进一步说明了用模拟退火算法对微博时间热度衰退研究成果是非常有价值的。

图4 预测热度模型与实际比较折线图

图5 热点微博事件R-Square值折线图

猜你喜欢
折线图模拟退火热点
热点
Optimization Design of Miniature Air Quality Monitoring System Based on Multi-Sensor Fusion Technology
热点
模拟退火遗传算法在机械臂路径规划中的应用
结合热点做演讲
让折线图显示在一个单元格中
基于模糊自适应模拟退火遗传算法的配电网故障定位
SOA结合模拟退火算法优化电容器配置研究
基于遗传-模拟退火算法的城市轨道交通快慢车停站方案