杨雪林
摘 要: 针对传统的网络舆情监管预测算法对大广度、强干扰的网络舆情数据预测性能差的缺点,在深入研究现有网络舆情监管预测算法基础上提出一种基于大数据语义特征分析的网络舆情监管预测算法。该算法采用二元语义对网络舆情特征进行拟合,构建与匹配网络舆情关键词,构建时间序列模型,分析与提取语义特征,从而实现大数据分析法对网络舆情的监管预测。最后利用仿真实验对该算法进行验证,其结果表明,该算法预测精度高、实时性强,对提高网络舆情的监管能力具有重要意义。
关键词: 大数据; 网络舆情; 特征提取; 舆情监管
中图分类号: TN711?34; TP393 文献标识码: A 文章编号: 1004?373X(2017)24?0028?03
Abstract: In allusion to the problem that the traditional network public opinion monitoring and prediction algorithm has poor prediction performance for large amount of network public opinion data with strong interference, a network public opinion monitoring and prediction algorithm based on semantic feature analysis of big data is proposed after the in?depth study on the current network public opinion monitoring and prediction algorithm. In the algorithm, the two?tuple semantics is used to fit the features of network public opinions, construct and match the keywords of network public opinions, construct the time series model, and analyze and extract semantic features, so as to realize the monitoring and prediction of network public opinions by using the big data analysis method. The simulation experiment was carried out to verify the algorithm. The results show that the algorithm has high prediction precision and strong real?time performance, which is of great significance for improving the network public opinion monitoring capability.
Keywords: big data; network public opinion; feature extraction; public opinion monitoring
網络舆情是指在博客、微博、BBS论坛等网络平台上发表评论与意见,而形成的互联网空间社会舆情的映射[1?4]。网络的开放性与网络通信技术的发展促进了信息的快速传播,从而加速网络舆情发酵传播。为了避免不良情绪与谣言等网络舆情给社会生活造成恶劣的影响,需要对网络舆情加强管理[5?8]。针对传统的基于主题[9]、基于自相关特征[10]、基于概念格的网络舆情监管预测算法对大广度、强干扰的网络舆情数据预测性能差的缺点,本文在深入研究现有网络舆情监管预测算法基础上提出了一种基于大数据语义特征分析的网络舆情监管预测算法。该算法采用二元语义对网络舆情特征进行拟合,构建与匹配网络舆情关键词,构建时间序列模型,分析与提取语义特征,从而实现大数据分析法对网络舆情的监管预测,对提高网络舆情的监管能力具有重要意义[11]。
1 网络舆情时间序列模型构建
构建本质为非线性特征序列的网络舆情的时间序列模型。设d维随机变量Ui,监测到的网络舆情为,并通过网络平台对其进行特征提取与聚类分析。在经过传播之后,网络舆情在路由链路层的域间关联特征表示为:
式中:β为二元语义分解系数,取值范围为;S为热点时间评价集;K为抽取关键词算子。其中元素为实函数,S中第k个元素为sk。设二元语义为,,对网络平台上频繁出现的词汇进行筛选,当逆函数满足:
采用傅里叶变换分解舆情语义特征,使其转化为:
对热点信息的关键词与特征参量进行采集,从而实现基于大数据的时间序列模型构建。并以此进行特征提取与数据分析,为网络舆情监管提供数据信息。
2 网络舆情二元语义拟合
语义特征提取的基础是基于主题词表的二元语义拟合。主题词表呈树状,其分叉特征为二元语义,,则其之间的距离为:
采用闭合频繁项检索法检索二元语义,输出为:
通过对网络舆情时间序列的信息采样与结合路径消耗,网络舆情主题词表结构图如图1所示。从中进行特征分解可得到,自特征序列和分解序列分别为:
基于叉项信息链状态估计方法统计的信息实现网络舆情的二元语义拟合。
3 基于大数据的网络舆情监管预测算法
3.1 语义特征分析
针对传统网络舆情监测方法抗干扰能力低、精度差的缺点,本文提出基于大数据语义特征分析的网络舆情监管预测算法,以提高抗干扰度与精度。相空间中的网络舆情序列的语义本体模型表达式为:endprint
其实质为非线性均衡信道模型。式中:相空间中的网络舆情序列嵌入维数,延迟时间为,,为舆情信息权重向量,由二元语义决策得到评价指标权重输出为。从而建立决策矩阵为:
网络舆情相空间的综合评价映射为:
根据综合评价与指标权重对网络舆情语义列表向量进行分割,从而得到基于大数据语义特征分析的网络舆情提取方案为:
3.2 基于大数据分析的网络舆情监管预测实现
针对聚敛的语义特征网络舆情可预测,而发散时扰动大的特点,本文采用协方差修正法对语义主题树特征进行处理,协方差修正模型为:
网络舆情预测基于舆情分布网页与文档的相关联度匹配语义主题词特征分析。由于大数据种类多样、处理速度快,因而基于修正过后的主题词表能够实现网络舆情的准确预测,且速度更快。
4 仿真实验分析
采用SQL Server数据库中网络舆情数据,对本文所提算法进行实验验证。采样周期为0.02 s,样本长度为1 024,干扰强度为,图2为采样的网络舆情大数据信息。对其进行二元语义拟合,提取其语义特征,结果如图3所示。从图3可见,语义特征匹配性好、聚敛性高。将本文方法与传统预测方法进行比对,对比结果如图4所示。从图4可见,本文所提出的预测方法收敛时间较短,且误差小。
5 结 语
本文通过对网络舆情监管与预测问题进行大量研究,针对传统的网络舆情监管预测算法对大广度、强干扰的网络舆情数据预测性能差的缺点,提出一种基于大数据的网络舆情监管预测算法,并对其进行了仿真实验验证。验证结果表明,该算法预测精度高,实时性强,对提高网络舆情的监管能力具有重要意义。
参考文献
[1] 卜湛,伍之昂,曹杰,等.在线评论情感计算与博弈预测[J].电子学报,2015,43(12):2530?2535.
[2] 张双双,王延年.节点分布不均匀的无线传感网络低功耗算法[J].西安工程大学学报,2015,29(6):720?723.
[3] LANCET T. Identifying influential users in network public opinion of crowd unfollow on twitter [J]. Journal of information & computational science, 2015, 12(17): 6629?6642.
[4] PATCHARAMANEEPAKRON P, ARMOUR S, DOUFEXI A. Coordinated beamforming schemes based on modified signal?to?leakage?plus?noise ratio precoding designs [J]. IET communications, 2015, 9(4): 558?567.
[5] 柳虹.网络舆情热点发现研究[J].科技通报,2011,27(3):421?423.
[6] 马俊涛,高梅国,董健.基于稀疏迭代协方差估计的缺失数据谱分析及时域重建方法[J].电子与信息学报,2016,38(6):1431?1437.
[7] 李云,陈庞森,孙山林.基于近场通信认证的无线局域网无线接入协议的安全性设计[J].计算机应用,2016,36(5):1236?1245.
[8] MA N, LIU Y. SuperedgeRank algorithm and its application in identifying opinion leader of online public opinion supernetwork [J]. Expert systems with applications, 2014, 41(4): 1357?1368.
[9] 胡金柱,周星,舒江波,等.基于启发式规则的网页主题信息精确定位方法[J].计算机应用研究,2010,27(2):494?497.
[10] ZHANG W, LI X, HE H, et al. Identifying network public opinion leaders based on Markov Logic Networks [J]. The scientific world journal, 2014, 4 (5): 435?444.
[11] 王少鹏,彭岩,王洁.基于LDA的文本聚类在网络舆情分析中的应用研究[J].山东大学学报(理学版),2014,49(9):129?134.endprint