基于关键词提取的网络舆情监管预测算法研究

2020-11-11 08:02阮梦黎

智能计算机与应用 2020年6期

阮梦黎

（山东管理学院，济南250357）

0 引言

网络舆情监管预测作为网络监管的重要组成部分，对保障信息安全和社会稳定都有着十分重要的意义。传统网络舆情监管预测采用人工监管预测，如网警或采用大数据分析等衍生出灰度阈值监测法等，从监测预测效果上看，由于大数据运算体量较大，人工完全取决于个人能力等主观因素，现有网络舆情监管预测算法存在网络舆情反应较慢，舆情态势预测准确性较低等不足［1］，为此，本文提出了基于关键词提取的网络舆情监管预测算法研究。

关键词提取是指利用信息技术和智能算法从待查询的文本或网页中自动获取标志性核心词汇，从而实现认知原文档大致内容要义的过程，它是通过抽取代表信息或核心词语来进行文本挖掘进而实现舆情监控、预测或决策分析等后续工作的关键环节。本文设计的根据关键词提取的网络舆情监管预测算法，通过确定关键流程以及监测到的网络舆情集合，计算网络舆情在路由链路层的域间关联特征，实现频繁词汇的筛选，利用傅里叶变换分解舆情语义特征，确定筛选度，使其转化成为关键词，利用信息检索与数据挖掘计算，完成网络舆论权值的计算，确定网络舆情时间与计算次序的对应关系，基于此进行网络舆情二元语义的拟合，确定网络舆情综合评价映射，并进行舆情预测结论的最终显示。为了保证研究的正确性，进行仿真试验，试验数据表明本算法具有较高的预测准确性，适合网络舆情监管预测。

1 算法运算关键流程的确定

关键词提取网络舆情预测算法是根据网络舆情二元语义的拟合，分析网络舆情综合评价映射，控制筛选度实现的，其网络舆情监管预测算法基本流程如图1 所示。

2 网络舆情时间序列的构建

2.1 网络舆情关键词的提取

设监测到的网络舆情集合为H｛h1，h2，h3，…，hn｝，一般监测到的舆情集合均较大，不适合整体的监管以及预测，为此进行关键词的提取，针对关键词进行网络舆情监管和预测。网络舆情关键词的提取过程示意图如图2 所示［2］。

图1 网络舆情监管预测算法基本流程Fig. 1 Basic flow of the algorithm network public opinion supervision and prediction

图2 关键词提取过程示意图Fig. 2 Process of keyword extraction

首先，确定网络舆情在路由链路层的域间关联特征，可用公式（1）表示［3］：

式中，Ika0、Ika1、Ika2表示舆情序列波特率；Ia、Ib、Ic表示监测频率响应；a 表示舆情监测范围加权数。根据网络舆情在路由链路层的域间关联特征，进行频繁词汇的筛选，可根据设定的不同监测级别，设定不同的频繁词汇的筛选度，实现对关键词的筛选，其逆函数表达式如公式（2）所示［4］：

式中，x 代表频繁词汇的筛选度，根据筛选级别设定，筛选级别越高，筛出关键词越多，反之筛选级别越低，筛出关键词越少，一般筛选度取值范围为［0.4 ～0.8］［5］。

基于频繁词汇筛选出的词语，为关键词的原型词汇，对原型词汇进行网络舆情的综合相对贴近度验算，将验算结果进行傅里叶变换分解，分解出舆情语义特征，使其转化成为关键词。其傅里叶变换分解过程可用公式（3）表示［6］：

式中，Uka表示语义环境；Ika代表分解系数；ζ 语境筛选级别。

基于监测到的网络舆情集合的确定，计算网络舆情在路由链路层的域间关联特征，以及频繁词汇的筛选度，利用傅里叶变换分解计算，实现了网络舆情关键词的提取。

2.2 权值的计算

基于网络舆情关键词的提取，得到需要监管预测的关键词，但此时计算出的关键词为平行关键词，计算次序是按照采集次序实现的，为此进行网络舆情时间序列的构建。

时间序列是监管预测的基础序列，利用时间序列定义计算次序，得出非平行关键词组即热度排名，进行信息检索与数据挖掘计算，其信息检索与数据挖掘计算公式如（4）所示［7］：

式中，IDF 表示逆文本频率指数（Inverse Document Frequency），IDF 越大，说明词的区分度越大，切合主题的特点［8］；d 表示词频，即d 在集合H 中出现的频率，c 表示语料库中的文件总数，即集合文件和，利用信息检索与数据挖掘计算实现权值的计算。

基于网络舆情关键词的提取，依托不同候选关键词的权重计算，构建一个完成的网络舆情时间序列。

3 网络舆情二元语义拟合

基于网络舆情时间序列的构建，完成网络舆情关键词的提取，实现了对网络关键词的加权计算，确定了网络舆情时间与计算次序的对应关系，进行网络舆情二元语义的拟合，以实现基于获取的关键词和网络环境，进行网络舆情预测。

二元语义拟合是由文字语言到计算机语言的拟合，由于文字语言无法直接进行计算机计算，为此二元语义拟合十分必要，通过决策计算，实现对网络舆情相关的综合评价［9］。将获取的关键词转换成计算机语言，首先进行网络舆情序列语义本体模型表达，是计算机获取文字语言转换成计算机语言的常用方法，本文采用借调的方式，利用网络舆情序列语义本体模型表达，将获取的文字语言转换成计算机语言［10］。

将转换好的计算机语言进行决策计算，其目的是为确定网络舆情综合评价映射做数据支持，网络舆情综合评价映射是舆情预测监管的标准，即评价已发生的网络舆情处于何种态势，评判是否触发网络舆情警戒机制，并对网络舆情进行跟踪，直至网络舆情事件结束，其网络舆情综合评价映射可用公式（5）表示为：

式中，Z2∑表示协方差修正参数；Z0∑表示语义主题相关度；Dka表示舆情影响因子。

当ΔS ＞1 时，表示网络舆情态势发展处于超警戒运行状态，监管部门应着力注重，网络舆情监管算法采用跟踪机制，对该舆情进行实时分析研判以提供准确数据；

当ΔS ＝1 时，表示网络舆情态势发展处于临界运行状态，监管部门应着力分析该舆情的发展态势，确定未来监管方向；

当ΔS ＜1 时，表示网络舆情态势发展处于基本可控状态，监管部门根据实时情况进行分析，网络舆情监管算法采用非重点跟踪机制，用于监控舆情的进一步发展。

同时网络舆情的监管预测受突发事件影响，二元语义拟合应受事件关注度的不断增加而加深。

4 网络舆情监管预测的实现

基于网络舆情二元语义拟合，完成协方差修正，确定了舆情影响因子，依托网络舆情的监管预测运行载体，实现网络舆情的监管预测。网络舆情监管预测的运行载体，同时也是关键词提取网络舆情监管预测算法的运行载体。算法运行载体包括算法运算平台和显示平台两部分，其中算法运算平台各参数设置如表1 所示，算法运行显示平台用来显示最终监管预测结果，并根据设计警戒参数，实现超临界提醒。

5 实例分析

为保证本文提出的基于关键词提取的网络舆情监管预测算法的有效性，进行实例分析。分析过程中，采用传统人工舆情监测法、灰度阈值监测法作为实验对比对象，进行算法的态势预测运算验证。

表1 算法运算平台参数Tab. 1 Platform of algorithm operation

5.1 实验准备

实验中利用已发生的网络舆情事件作为实验对象进行仿真实验，分别对该网络舆情发生开始后，势态演变至12.5%、25.0%、37.5%、50.0%、62.5%、75.0%和87.5%这7 个阶段进行舆情发展态势的预测。

仅对一件网络舆情案件进行发展事态分析，存在实验偶然性和不确定性，为此选择由舆情机构统计的2018 年全国舆情热点事件进行分析，主要包括“中美贸易争端”、“改革开放40 周年”、“金庸逝世”、“问题疫苗事件”、“个税改革”、“范冰冰偷逃税事件”、“中概股上市热潮”、“幼儿园虐童事件连续曝光”、“共享单车倒闭潮”、 “殴打公交司机等乘客霸凌行为”、“高铁霸座”等网络舆情事件来验证算法对舆情态势预测准确性。

5.2 实验过程

由于本次实验采用的是根据不同网络舆情方法对已完成的网络舆情事件进行分析，用过去参数验证方法的准确性，为此需构建过去实验环境，让关键词提取监管预测算法、传统人工舆情监测法、灰度阈值监测法都将实际事件的网络舆情结果作为未知数据，通过对过去事件的分析得出结论与事实真实结果进行对比，分析其对网络舆情发展态势预测的准确性。

实验过程中，建立的实验环境应基本符合事实发展，采用时间函数控制事态的发展，例如：将“问题疫苗事件”的时间控制在该事件发生开始时，即记为时间点A，切断所有大于时间点A 的所有信息，载入需要进行实验对比的3 种方法，控制时间函数，时间向后移动至12.5%（事件结束的12.5%），利用3 种网络舆情监管预测方法对A+12.5%时间内所接收到的所有信息，进行网络舆情事件态势的预测，3种方法预测完成后，记录预测值，与该事件真实结果对比，并进行记录。再通过控制时间函数，时间向后移动至25%，利用三种网络舆情监管预测方法进行该事件态势的预测，与真实结果对比并进行记录。如此往复控制时间函数直到事件结束，将记录的数值形成实验结果图表。

5.3 实验结果分析

根据实验过程得出关键词提取监管预测算法、传统人工舆情监测法、灰度阈值监测法，在不同时间段的态势预测情况，根据记录的数据以及真实结果数据形成实验结果数据表，如表2 所示。

表2 实验结果对比表Tab. 2 Comparison of experimental results %

根据实验结果可以得出，人工舆情监测法在舆情发展初期阶段具有较高的灵敏度，但从整体上看，传统人工舆情监测法受网络舆情发展阶段影响较大，随着接收到的信息增多，由于主观因素的存在，易造成判断性失误；灰度阈值监测法具有较高的稳定性，但整体舆情态势预测略低于关键词监测管理算法。

通过对实验数据的统计、计算得出，关键词提取监管预测算法整体态势预测有效性为61.56%，传统人工舆情监测法整体态势预测有效性为55.96%，灰度阈值监测法整体态势预测有效性为45.17%。可见本文提出的关键词提取的网络舆情监管预测算法，较其它两种预测算法具有更高的有效性。

6 结束语

本文提出了基于关键词提取的网络舆情监管预测算法，通过关键流程的确定、舆情时间序列的构建、舆情二元语义拟合和最终舆情预测结论显示等过程，并通过仿真实验及其与其它传统算法的比较，验证了算法的有效性。舆情分析和监管是一项涉及信息学、管理学、社会学以及传播学等多学科跨领域的工作，既需要充分利用智能技术协助决策支持和处理研判，又要重视对其潜在的社会和个体影响因素进行合理分析和有效引导，希望后期通过进一步的研究和实验优化，使其在文本信息挖掘、自动摘要生成、舆情精准研判等方面更具广泛的应用价值。