利用BP神经网络对网络舆情进行预警

2014-09-17 14:18:39陈乐朋周家政

电脑知识与技术 2014年22期

陈乐朋周家政

摘要：随着近年来中国网民数量众多而网络给予了众多网民言论自由，因此网络舆情越来越被关注，对网络舆情的预警也越来越迫切。该文采用了五个指标对“厦门PX事件”、“昆明PX事件”和“宁波PX事件”进行量化描述，通过Matlab建立BP神经网络识别模型中进行学习，然后再对“宁波PX事件”进行预警识别。模型具有较好的识别能力，预警结果的准确率达到了90%以上。

关键词：网络舆情；BP神经网络；预警

中图分类号：C915 文献标识码：A 文章编号：1009-3044（2014）22-5283-04

互联网这些年来在我国的快速的发展，我国网民人数较之前有了大幅的提升。网络的开放性和灵活性让其成为反映社会舆情的主要载体之一。而近两三年网络舆情引发的事件激增，引起了政府的高度重视，网络俨然已成为政府部门了解民意的又一理想窗口。显然，能够直观表达网络舆情的光定性的解读远远不够，对于决策者更希望得到一个舆论事件过程中所处的量化等级。由于舆情危机产生具有模糊性和随机性是非线性的，因此通过建立预警指标，再利用容错能力高，通过学习复杂数据发现规律进行识别的人工神经网络是不二选择。故本文的核心在于BP神经网络[1]。

1 网络舆情危机预警指标体系

网络舆情危机的发生，受到多种随机因素的影响，而且每个因素对结果所起的效果大小也是不一样的。因此网络舆情危机预警的关键是建立科学、系统的预警指标体系。依据近些年来网络舆情方面专家的调查汇总和政府机构对舆情监督部门的考察，并结合网络舆情与危机预警机制方面的资料，经过多次地调试整理汇总制定出，对网络舆情信息从五个具体的指标构建了网络舆情危机预警指标体系[2]。

1.1 舆情预警指标

1.1.1 舆情信息的敏感度

网络上有各式各样的信息，而这些各式各样的信息其敏感度也是不同的，对于可能造成社会动荡的网络信息则是政府最为关注的。显然各条信息所引起的社会敏感度是不同的，敏感度越高说明产生舆论危机的可能性就越高。这种指标的量化标准采用专家打分的方法得到。得分设定的范围为[0，1]，0、0.5、0.7、1表示的意义依次为“具有敏感性”、“敏感”、“很敏感”、“相当敏感”。

1.1.2 舆情信息的流通量

舆情信息的流通量反映出舆情信息在网络上传播情况和讨论热度。而这些网络上的流通信息会被搜索引擎例如Google、百度等抓取。因此通过限定时间段搜索引擎搜索关键词得到的搜索量可以作为流通量使用。

1.2.3 舆情观点倾向度

舆情观点倾向度主要量化网民对于某个舆论信息观点倾向度。分别由1，0，-1表示正面、中立、反面观点，用[f（x）][f（x）]表示各个观点面倾向度，n表示发表观点的总观点数，此指标用[μ]表示：

其实就是求各个观点总和的均值，其取值范围在（-1，1）。这部分则是通过统计事件讨论最热的贴吧的跟帖信息或者微博评论进行打分得到的。

1.2.4 舆情影响范围

舆情影响范围是指在某一时刻或时间段内，舆情信息所影响的区域性范围。对于这部分的评分依照我国的行政地域划分进行评分。即村＼社区、乡＼镇＼街道、县＼区、市、省、国家。其取值范围为[0，1]。这部分的取值则是通过新闻报道中时间的发展态势进行取值。地域对应的取值见下表：

1.2.5 网络舆情媒体曝光度

网络舆情信息被媒体曝光之后则将网络信息的讨论引到现实社会中，而现实中媒体的报道是有着比网络更为严格的审查制度。媒体的报道无疑对网络舆情有着更为影响力的宣传进而推动着舆论的发展。而这部分的数据则采用Google news中通过对时间段的设定搜索关键词得到相应的搜索到的新闻条数进行量化评价媒体的曝光度。

1.2.6 舆情指标

而结果评级依照《国家突发公共事件总体应急预案》将预警等级设为四个等级：特别严重、严重、较重和一般。而根据网络舆情危机的严重程度、经济程度、可控性等方面将预警设为5个等级：安全、轻警、中警、重警、急警[7]。

2 数据获取与处理

2.1 事件的选取和回顾

在实证分析中以“宁波PX事件”为预警模型的最终目标，而选择了“厦门PX事件”和“昆明PX事件”为学习样本进行学习。这一连串关于PX事件其危害的对象不仅仅是政府形象更是对整个社会和谐稳定造成了较大的影响。尤其是宁波PX事件中，甚至出现了不理智的因受谣言的蛊惑冲击政府机关掀翻执勤警车的情况。倘若能及时且准确地对此类事件进行预警并作出相应的预防措施就能对事件进行有效的控制。

2.2 指标数据的获取

对于所建立的模型而言其关键不仅仅在于预警模型的指标的建立和神经网络的识别。其数据的获取亦是十分关键的一步。根据各个数据的特点，整理各个指标数据获取方式如下。

将厦门PX事件和昆明PX事件作为一个学习样本，其数据清单如表3所示。

同样将模型的预警目标——“宁波PX事件”作为目标数据，其数据清单如表4所示。

2.3 输入数据的标准化处理

网络舆情危机预警指标体系中有5个预警指标，其中存在定性指标和定量指标两大类，并且对各个指标的数据进行了量化处理，然而各个指标的单位的量纲是不同的，为了能够对各个指标进行对比评分，需要将它们进行标准化得到[0，1]无量纲指标。

量化的指标均有正负方向均有正负方向之分，自然这些数据的标注化方法均有不同：

1）正向指标处理：正向指标表示值越大越安全，危机等级越小无量纲化以最小值为基准，正向无量纲化处理方程：

2）负向指标处理：负向指标在文章中表示指标值越小越安全，危机等级越小。无量纲化以最大值为基准，负向的无量纲化处理方程：

其中，X 表示量化后的指标值， [xmin]表示指标的最小值， [xi] 表示指标的实际值， [xmax]表示指标的最大值。

3 舆情预警模型的建立及结果

3.1 模型的建立

神经网络模型是一个典型的“输入-处理-输出”的过程。输入是采集到的指标的实际值，输出是模型识别的结果，即预警的敏感度，而中间过称则采用BP神经网络模型进行学习计算，这部分相当于“黑匣子”。在处理的时候，该文采用三层BP网络（一个输入层、一个隐含层、一个输出层）的网络结构，那么输入、输出节点数分别是5和1[8]。

在设置完参数之后用第四章所讲述的利用Matlab软件完成模型的建立。

3.2 结果及检验

通过搜集得到的数据汇编成的学习样本，并将其中的70%作为样本，30%作为检验样本进行。

通过计算可以得到该表，从该表中容易得到，学习过程中准确率达到了91.76%。并在测过程中抽取了5项进行预测，得到的准确率为92.31%，其较高的准确率。因此有理由认为该模型在未来的预测过程中其准确率应该达到90%以上。

4 研究结论

本文的研究结果表明：基于舆情量化指标的BP神经网络能够对网络舆情信息进行较为准确的预警，无论是学习还是最后实践的识别准确率都达到了80%以上。这种预警方法通过舆情信息的预警指标利用量化评价方法可以降低人为的主管臆断，而实验结果也表明了其拥有较高的识别准确率。并且利用Matlab进行编程得到的预警模型具有广泛的应用前景和使用价值。模型可以为政府提供网络舆情的预警，也为企业的网络声誉进行预警为企业的公关提供预警参考。

参考文献：

[1] 薛圈圈.基于BP神经网络的网络舆情危机预警研究[D].江西：江西财经大学，2010：25-30.

[2] 戴媛.我国网络舆情安全评估指标体系研究[D].北京：北京化工大学，2008：13-22.

[3] 袁越.厦门PX时间[OL].http：//news.sina.com.cn/c/2007-09-27/165713986641.shtml.

[4] 王秀娟.昆明PX事件[N].中国石油石化，2013.

[5] 大公网.镇海PX项目引发群体性事件[OL].http：//www.takungpao.com/mainland/node_13226.htm.

[6] 周子健.基于网络搜索量的上海世博会国际影响力研究[J].艺海，2011（5）：80-82.

[7] 王新辉.基于BP神经网络的国际电子商务信用风险预警模型研究[D].沈阳：沈阳工业大学，2008：7-14.

[8] 杨淑娥，黄礼.基于BP神经网络的上市公司财务预警模型.系统工程理论与实践[J].2005（1）：21-26.