摘 要:网络舆情发展迅速,有效地实现话题的热度预测对网络舆情监管和正确引导具有重要意义。为了实现对话题热度的预测,并提高预测的精度,本文提出基于小波神经网络的话题热度预测模型。首先经过预处理分析发现热点话题,然后选取具有热度表征能力的指标量化话题热度,构建出话题热度指标的时间序列模型,最后提出基于小波神经网络模型的话题热度预测方法,预测出下一时间段的话题热度值。实验结果显示,与BP神经网络预测模型相比,本文提出的小波神经网络预测模型无论从预测曲线的拟合度还是绝对误差标准差的数值上都具有更高的预测精度及稳定性。
关键词:网络舆情;热点话题;热度预测;小波神经网络
中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2018)05-0074-05
Research on Topic Heat Prediction Model Based on Wavelet Neural Network
TAN Peng,LUO Shunlian,SUN Xiaosong,WANG Hui,LIANG Xiaohan
(Civil Aviation University of China,Tianjin 300300,Chima)
Abstract:With the rapid development of network public opinion,realizing the forecast of hot topic has great importance for supervision and correct guidance of network public opinion. In order to realize the prediction of the hot topic and improve the accuracy of prediction. This paper proposes a prediction model based on wavelet neural network. Firstly,analysis the text that has been pre-treated to find the hot topic,and then we select some typical characterizations of heat topic index to construct the time series of heat topic value. Finally,a topic heat prediction method based on wavelet neural network model is proposed to predict the topic heat value of the next period. The experimental results show that compared with BP neural network the prediction model proposed in this paper has higher prediction accuracy and stability whether in curve fitting or the numerical absolute error of standard deviation.
Keywords:internet public opinion;hot topic;heat prediction;wavelet neural network
0 引 言
随着互联网的快速发展,微博已经成为人们生活中获取与分享信息的重要网络平台,网络舆情在网络平台上形成迅速,具有巨大的社会影响力。对于国家政府机关来讲,加大对网络舆情的监测力度,及时有效地预测舆情的发展趋势并对其进行正确的引导,对于社会和谐稳定、国家安全等都具有重要的现实意义[1,2]。因此,及时准确地预测微博上话题的未来流行趋势具有十分重要的意义。
近年随着大众对网络舆情的参与度的提高,关于网络舆情预测问题的研究日益增多[3-5]。目前依据预测的性能,可将网络舆情预测的方法分为两种。一种是线性网络舆情预测方法,这类方法的优点是比较简单、容易实现,但是现实中网络舆情的发展变化并非呈现线性发展趋势,这使得预测结果容易出现偏差,导致达不到理想的预测效果的情况发生。另一种是非线性预测方法,这类方法是基于非线性理论建模的,主要的预测模型有隐马尔可夫模型、K近邻方法、支持向量机以及神经网络等方法。与线性预测方法相比,网络舆情的预测精度得到了一定程度上的提高[6-8]。为了提高预测的精准度,部分研究人员提出一些将两种或多种模型相结合的网络舆情预测模型[9],这种预测模型可以更好地发挥各单一预测模型的优势,并弥补其不足,构建出性能更加优越的预测模型。如陈宇中等人将小波变换与差分自回归移动平均模型结合起来构建了一种新的网络舆情微博话题热度预测模型[10],取得了不错的预测效果。
小波神经网络是结合小波变换与人工神经网络的思想而形成的,有效地融合了小波变换良好的频域分辨率以及神经网络能充分逼近任一复杂的非线性关系、高速寻优及自我学习能力的优点。闫辉辉、朱智慧将小波神经网络应用在医学领域的血药浓度预测上[11],取得了良好的预测效果。靳然、李生才为了准确预测病虫害,将小波神经网络应用于农业领域麦蚜发生期的预测[12],与BP神经网络的预测效果相比具有较高的预测精度。
1 基于小波神经网络的话题热度预测模型
热点话题的热度随着时间的发展呈现一定的变化规律,微博用户之间通过评论、转发、关注等行为组成一个互相连接的庞大的社交网络。鉴于用户与用户之间这种弱联系关系,本文选取话题的评论数、转发数以及点赞数这些能直观显示热度的表现形式构建话题的热度评价指标,并构建小波神经网络预测模型实现对话题热度的预测。本文构建的基于小波神经网络的话题热度预测模型框架如图1所示。
1.1 数据预处理
微博平台某一时段的博文聚焦多个话题,需要对微博博文数据进行预处理,通过聚类的方法将微博话题分类,通过热度筛选发现热点话题。然后对热点话题进行进一步剖析与研究。本文对微博博文进行数据预处理的流程图如图2所示。
获取的微博信息为文本信息,无法使用计算机直接进行处理分析。为了将文本表示为计算机可以处理的数字化信息,本文采用VSM模型对待处理文本进行特征抽取和加权处理,以实现文本向数字化表示的转化。每条文本信息被表示成如公式1所示的形式。
其中,di表示文本的特征项,wi表示特征项di的权重。
对于特征项选择,使用文档频度DF的方法,对文本进行分词、去停用词处理后得到一个单词粒度的文本集合,以每个单词作为一个特征项,计算每个特征项相应的频度值,选取具有高表达文本能力的特征项。
通过筛选得到一组具有表征能力的特征项集合{d1,d2,…,dn}。使用定量统计法计算每条文本中特征项di的权重wi,权重越大,对文本来说越重要。通过特征选择及权重计算将每条文本表示成如公式(1)形式的向量,实现对文本的建模。
实现对文本的建模后,根据话题间的语义距离对话题进行分类。本文中微博话题的发现采用聚类的方法将文档聚类成若干话题集合,同一集合之间文本相似度较高,不同集合之间相似度较低。由此,可以对互联网上大量信息进行整合,集中对某些话题进行进一步的处理。
基于k-means算法效率快、时间复杂度低等优点,本文采用划分式的k-means聚类方法实现对建模后的微博文本信息的话题分类识别。首先从所有未分类数据中随机选取K个对象作为初始话题类的中心,计算其余文本与K个初始话题中心的相似性即向量之间的距离,将每条文本归类到距离最近的中心点所在的话题类。计算话题簇中所有点的算术平均值,更新话题中心向量,不断重复这个过程直到算法收敛。
文本聚类不同于普通的数值数据的聚类,通过文本向量化,将文本之间的相似度的度量转换成文本之间的距离的计算。两个文本的距离值越小,它们的相似度越大,属于同一类话题的概率就越大。本文采用欧氏距离(ED)来计算两条文本之间的相似度。对于确定的两条文本向量,采用公式(2)计算出文本之间的距离。其公式为:
其中,d1、d2均为n维向量,每个向量都表示一条文本信息,即通过VSM建模后表示的文本向量。
通过聚类算法对建模后的微博文本实现话题分类,使用通过特征筛选得到的特征向量集合{t1,t2,…,tn},发现k个话题{C1,C2,…,Ck},通过构建的热度度量指标计算得到话题的热度,对比不同话题之间的热度值,选出热度最高的话题作为热点话题。
1.2 话题热度预测模型小波神经网络的设计
经过数据预处理阶段后,发现热点话题,需要对热点话题的数据进行分析,然后对分析后的数据建模,构建合适的小波神经网络,使用小波神经网络预测模型实现对话题热度的预测。本文构建的小波神经网络预测模型的框架图如图3所示。
1.2.1 话题热度指标及其时间序列的构建
为了更好地抽取影响新浪微博话题热度的特征向量,本文首先将微博博文定义为一个八元组W:
其中,
W.ID表示该微博的ID;
W.user表示该微博的发表用户;
W.time表示该微博的发表时间;
W.text表示该微博的文本内容;
W.comments表示该微博的评论文本;
W.comment_num表示该微博的当前评论数;
W.repost_num表示该微博的当前转发数;
W.attitude_num表示该微博的当前点赞数;
微博的转发和评论行为分别从传播的广度以及话题的讨论深度两个层面刻画出微博的热度。包含了用户对这类微博话题的兴趣以及用户的情感表达等多种主观情感。微博的评论数、转发数、点赞数对于话题传播的趋势有重要影响,因此,本文选取话题h在时间t内的相关微博的讨论数量w_count、平均转发量repost_avg、平均评论数comment_avg、平均点赞数attitude_avg作为衡量话题热度的topic_hot指标。各指标的计算公式如下:
其中,表示在时间间隔t内话题h的讨论量。由各个热度指标综合构建话题热度的计算公式,公式如下:
使用构建的热度公式(7)计算得出话题的topic_hot值,将此值以时间间隔为t,按时间序列存储得到对应的每一个时间点上的序列{S1,S2,S3,…,Sl},其中,Si表示第i个时间间隔内话题的热度topic_hot,对于时间序列{S1,S2,S3,…,Sl}的观测值Sn,与之前d个观测值间的是一种非线性映射关系,其关系为:
式中,d为维数,f(sn-1,sn-2,…,sn-d)为非线性函数。
由公式(8)可知,f(sn-1,sn-2,…,sn-d)的构建是实现话题热度值序列预测的关键所在。因此,以{S1,S2,S3,…,Sl}为基础构建热度值的训练样本集,其中xi=[sn-1,sn-2,…,sn-d]T为热度值的输入样本;ti=sn为热度值的输出样本;N=l-d为训练样本数目。利用该热度值训练样本训练小波神经网络,可使训练后的小波神经网络逼近f(sn-1,sn-2,…,sn-d),进而实现对{S1,S2,S3,…,Sl}后续热度值Sl+1的预测。
1.2.2 小波神经网络的构建
小波神经网络是对BP神经网络进行优化的网络,将隐含层的传递参数替换为小波基函数,综合两者的长处,使得网络的学习能力得到提高,并且提高了预测的精度。小波神经网络预测模型的拓扑结构如图4所示。
图中,X1,X2,…,Xk是小波神经网络预测模型的输入参数,本文的输入参数即为xi=[sn-1,sn-2,…,sn-d]T,Y1,Y2,…,Ym是小波神经网络预测模型的预测输出,ti=Sl+1为本文的输出结果,ωij和ωjk表示小波神经网络预测模型的权值。
由于不同维度的数据级别存在一定差异,数据级别差较大时会对网络的预测性能造成较大的影响,为了解决这个问题,在预测之前首先对数据进行归一化处理。本文首先对所需预测的时间序列{S1,S2,S3,…,Sl}的数据进行归一化。采用MIN-MAX标准化方法对输入的数据进行归一化处理:
构建网络时,在网络的隐含层采用的计算公式为:
其中,ωij表示输入层到隐含层的权值;hj表示公式中所使用的小波基函数,aj、bi分别表示为hj的伸缩及平移因子;本文hj函数采用Morlet函数,其公式为:
输出层采用的计算公式为:
其中,ωik表示隐含层到输出层的权值;h(i)函数表示隐含层第i个节点的预测值;l、m分别表示为隐含层以及输出层的节点数。
为使输出结果最大限度地接近预期值,本文采用梯度修正法,修正网络中的各个权值。
首先,计算当前预测结果的误差:
其中S为实际的结果值,S′为经过小波神经网络计算得出的预测结果值;
其次,根据通过公式(13)计算得到的误差e,修正ωij、aj、bi的值。
其中,、、是根据网络的预测误差计算得到的:
其中η为学习速率。
根据本文数据集的特点及实际的预测目标将小波神经网络设置为4-n-1的结构,最大迭代次数选取较为适中值1000;学习速率η的值选取默认最优值0.9;系统精度选取适合本实验数据规模的值0.01。大多数隐藏层节点数n的选取,依靠实际研究问题通过人工试验选择合适的值,随着隐含层节点个数的增加,预测误差呈现一定的规律,首先整体呈现减小趋势,当达到最优值后,误差整体会呈现增长趋势。因此本文通过实验分析确定隐含层节点的个数。
为了确定隐含层n的值,本文通过仿真实验选取最优值。隐藏层节点数n的候选值取1-15。对于每一个候选值,预测值选取15次独立实验得到的平均相对误差的均值作为结果,以降低实验偶然性,提高可信度。对于不同隐含层节点个数n所对应的平均相对误差的变化如图5所示。
观察图5,当小波神经网络隐含层节点数为9时,平均相对误差达到最优值。针对本文使用的数据集的特点,本文构建出结构为4-9-1的三层小波神经网络预测模型。本文使用如图6所示的流程图对网络进行训练,以达到良好的预测结果。
2 实验结果分析
实验时选取新浪微博作为数据源,通过对已有数据包中2012年4月3日至4月8日的微博数据进行热点话题分析,发现热点话题“携程旅游网”事件。以此作为舆情分析的源事件进行预测分析。使用1.2.1节中构建的热度指标的计算公式(7),计算出时间间隔为三十分钟的话题热度序列,构建出预测数据模型。预测模型部分数据如表1所示。
实验使用MATLAB工具编程构建出小波神经网络模型以及BP神经网络模型。按照80%、20%的比例将数据划分为训练集和测试集。使用训练集数据对小波神经网络的性能进行训练,以使其达到较高的预测精度,将测试集数据输入训练好的小波神经网络中,得到预测输出结果。为验证本文基于小波神经网络的建模预测方法的性能,选取BP神经网络作为对比实验。采用平均绝对百分比误差(MAPE)以及绝对误差标准差(AESD)两个指标来对预测模型的预测性能进行评价。
假定任一话题为D,它某一时间段t内的实际热度值为e,预测出的热度值为e′,则该话题在时间段t内的热度预测的绝对误差AE为:
(20)
平均绝对误差MAE的公式如下:
(21)
n个时间段内的平均绝对百分比误差MAPE为:
(22)
绝对误差标准差AESD为:
(23)
显然,MAPE越小,说明预测的精度越高;AESD越小,说明预测的稳定性越好。
小波神经网络以及BP神经网络的热度预测值与真实热度的对比图及预测误差对比图如图7和图8所示。
通过对预测结果进行分析,根据公式(22)、公式(23)计算得到的小波神经网络以及BP神经网络的MAPE及AESD如表2所示:
通过图7、图8和表2对比分析可以看出,与BP神经网络预测模型相比较,小波神经网络预测模型的预测结果曲线的拟合度高于BP神经网络模型的预测结果曲线的拟合度,且误差曲线较之略低;而且小波神经网络的MAPE为6.582%,小于BP神经网络的MAPE为9.221%。无论从预测曲线的拟合度上来说,还是平均绝对百分比误差及绝对误差标准差的大小上来说,小波神经网络都具有更高的预测精度及稳定性。
3 结 论
本文提出使用小波神经网络对话题的热度进行预测,通过实验分析表明本文提出的模型对话题热度的预测具有有效性,并通过对比实验说明了本文提出的方法提高了预测的精度。但由于自然语言本身极其复杂,对自然语言的处理分析有待进一步改善。下一步将从语义分析的角度进行进一步的研究。
参考文献:
[1] 刘洋.新媒体背景下涉警网络舆情的应对与引导 [J].法制与社会,2017(5):201-202.
[2] 张雪婷.企业面对网络舆情的回应博弈策略研究 [J].金融经济,2017(2):125-126.
[3] 曹玖新,吴江林,石伟,等.新浪微博网信息传播分析与预测 [J].计算机学报,2014,37(4):779-790.
[4] 侯凯.微博中话题的传播模型及热点预测 [D].北京:北京邮电大学,2015.
[5] 张博,李竹君.微博信息传播效果研究综述 [J].现代情报,2017,37(1):165-171.
[6] 刘勘,李晶,刘萍.基于马尔可夫链的舆情热度趋势分析 [J].计算机工程与应用,2011,47(36):170-173.
[7] 邓青,马晔风,刘艺,等.基于BP神经网络的微博转发量的预测 [J].清华大学学报(自然科学版),2015,55(12):1342-1347.
[8] 聂恩伦,陈黎,王亚强,等.基于K近邻的新话题热度预测算法 [J].计算机科学,2012,39(S1):257-260.
[9] 曾振东.基于灰色支持向量机的网络舆情预测模型 [J].计算机应用与软件,2014,31(2):300-302+311.
[10] 陈羽中,方明月,郭文忠,等.基于小波变换与差分自回归移动平均模型的微博话题热度预测 [J].模式识别与人工智能,2015,28(7):586-594.
[11] 闫辉辉,朱智慧,刘伦铭,等.基于小波神经网络时间序列模型预测血药浓度的研究 [J].中国现代应用药学,2016,33(11):1417-1422.
[12] Jin Ran,Li Shengcai. Comparison of occurrence periods of wheat aphids based on artifical neural network and wavelet neural network prediction systems [J]. Journal of Plant Protection,2016,43(3):353-361.
作者简介:谭鹏(1996-),女,汉族,四川人。研究方向:舆情分析、软件。