面向风险监测的网络舆情异常感知与实证研究

2022-03-11 06:55兰月新张丽巍王华伟赵丽娟段海鹏

现代情报 2022年3期

兰月新张丽巍王华伟赵丽娟段海鹏

关键词：网络舆情;风险监测;异常感知;常态模型;风险计算

1现状分析

网络社会，网民通过互联网发表观点形成舆情已成为常态。然而，无论是破坏网络秩序的网络水军和网络推手，还是污染网络环境的信息异化和网络谣言，都严重阻碍民意表达，使得网络舆情风险激增。明者远见于未萌，智者避危于无形，如何在海量舆情数据中快速监测风险隐患，提前开展风险防控，是政府治理舆情的关键问题。

网络舆情作为具有中国特色的研究领域，国内网络舆情风险研究在研究视角上，主要集中于新闻学与传播学、情报学、管理学等学科视角;在研究方法上，主要采用系统动力学、复杂网络、统计建模、自然语言处理等技术方法;在研究主题上，如图1所示，主要集中于以下3个方面。

1）网络舆情风险演化及其挖掘研究（#0，#3）。主要研究风险演化机理，应用数据挖掘、语义识别、文本挖掘、情感分析等方法开展风险挖掘。例如应用系统动力学研究舆情风险形成及干预策略，并开展仿真研究风险演化机理[1];基于风险感知的心理测量学派理论，结合微博舆情数据统计，使用信息传播模型的计算方法，为争议性科技事件建立信息传播模型，并开展实证研究[2];分析融媒体时代网络舆情的特点，探讨网络舆情的潜在风险，并提出基于语义识别构建网络舆情风险挖掘策略[3]。

2）网络舆情风险管理研究（#2，#4，#5）。主要涉及风险评估、预警、防范、治理等內容，其中风险评估或者预警研究大多采用“评估指标+评估方法”的模式展开，AHP、ANP、灰色模糊评价、模糊综合评价、BP神经网络、投影寻踪模型、灰色统计分析、等级全息建模等成为评估或者预警的主要研究方法。例如依据网络舆情演化理论，围绕震灾网络舆情的物理属性和社会属性提出震灾网络舆情风险监测指标体系，并在舆情监测指标构建基础上提出基于加速遗传算法的BP神经网络风险评估方法[4];将4种不同的投影寻踪模型引入突发事件网络舆情风险评价研究中，针对有教师值、无教师值和有单指标评价标准的舆情风险评价问题，分别采用两种投影寻踪模型进行实证研究，拓展了舆情风险评价的新方法[5];将现代风险管理理论与方法融入舆情、舆论理论并进行拓展，将统计方法与定性研究相结合，提出将舆情风险管理着力点前置到引导网民情绪和心理[6]。

3）网络舆情传播风险研究（#1，#6，#7）。主要涉及传播主体、传播平台、传播路径、信息传播异化等蕴含的风险。例如结合实际的社交网络使用行为，在分析社交网络舆情传播模式的基础上，构建了社交网络舆情传播模型，分析影响传播概率的主要因素，建立了以信息风险感知为主的传播概率的数学模型[7];通过对案例微博文本进行分析，探讨风险议题的形成、转向和消解以及情绪在风险议题传播中的作用机制[8];定性分析大数据环境下网络舆情信息异化机理，将网络舆情演化机理模型拓展为信息异化控制模型，并在此基础上通过数值仿真研究政府控制信息异化的分类问题[9]。

网络舆情风险属于小概率问题，已有研究往往通过历史案例中的风险信息或者数据建构风险集开展风险监测，属于“按图索骥”式风险监测方法，适用于解决已标注风险问题，但考虑到目前网络舆情风险呈现突发、频发、并发、多发态势，严重破坏舆论生态环境，未标注的新生风险挖掘研究尚缺乏深度的理论研究和科学准确的分析方法，成为政府治理舆情亟需解决的问题。

2网络舆情风险监测机理

常规的网络舆情监测与网络舆情风险监测差异较大，前者是面向互联网平台的全网监测，而后者则是在全网监测数据的基础上过滤风险，所以网络舆情风险监测方法成为关键。考虑到网络舆情风险属于小概率问题，解决已标注风险问题属于正向监测方法，即以小概率思维应对小概率问题，面对未标注的新生风险，本文探索以大概率思维应对小概率问题，通过历史案例中正常数据构建多维度舆情传播规律模型并据此过滤风险，属于“执常应变”式风险监测方法。该方法既能实现风险过滤，又可开展常态舆情分析，属于一体化研究，故本文主要采用此方法开展网络舆情风险监测。

未知与不确定，是风险的核心特征，也是网络舆情风险监测的难点，解决未知与不确定是网络舆情风险监测的关键，如图2所示。①风险多变，以不变应万变。网络舆情传播的核心要素是网络舆情风险的直接作用点。网络舆情风险虽不确定，但其作用点却是确定的，所以网络舆情风险监测问题可转化为网络舆情传播要素数据监测问题。②风险未萌，必有异常之兆。风险作用于网络舆情，必有异常征兆，可将网络舆情风险监测问题转化为网络舆情数据异常监测问题，变未知为已知。所以，网络舆情风险监测问题可转化为数据驱动的网络舆情传播核心要素的异常数据监测问题。

3面向风险监测的网络舆情异常感知方法

异常者，异于常也，所以按照“通变以知常，执常以应变”的思想，解决网络舆情异常监测问题的步骤为：①确定网络舆情传播核心要素，及时监测网络平台获取数据;②基于历史数据，以网络舆情传播核心要素为变量，构建演化规律模型;③基于核心要素演化规律模型，研究网络舆情传播核心要素异常数据过滤;④基于异常感知结果的风险预警。

3.1网络舆情传播核心要素

整理国内学者对网络舆情的定义[10-15]并绘制词云图，可以得出描述网络舆情的主要关键词为社会、事件、网络、公众、民众、信息、情感、情绪、态度等，本文据此提炼网络舆情传播核心要素为舆情主体、舆情信息和网民情感，构建网络舆情传播核心要素集为：

1）舆情主体（S）。舆情主体包括普通网民和引导主体，其中前者数量较大，但舆情引导能力很小;后者主要包括媒体、政府、网络大V等具有舆情引导能力的网络用户，数量较小，但舆情引导能力极大。

2）舆情信息（x）。舆情信息主要包括发文主体、发布时间、发布内容、转发、评论、点赞、发文网址等信息指标。

3）网民情感（E）。网民情感分类有基于粗粒度分类的二分法（积极和消极）、三分法（正面、中性和负面）和基于细粒度分类的四分法（愤怒、厌恶、高兴、悲伤）、七分法（愤怒、厌恶、恐惧、高兴、喜好、悲伤、惊讶）等。

3.2网络舆情传播核心要素演化规律建模

网络舆情演化遵循信息生命周期理论，经历潜伏期、扩散期、消退期等阶段，因此可以用描述生物萌芽、增长、消亡的生长过程的生态模型来研究网络舆情传播过程，本文选择Logistic模型作为网络舆情常态传播过程中核心要素演化的基础模型。

3.3网络舆情传播核心要素异常数据监测

3.3.1监测思路

网络舆情常态传播过程中，网络舆情传播核心要素对应数据与演化规律符合程度较高，即用网络舆情数据拟合时，实际数据与模型数据吻合程度较高，并且随着动态数据的融入，吻合程度会小幅度降低;当网络舆情传播出现异常情况时，其直接表现是网络舆情传播核心要素出现一系列异常数据，这就导致部分网络舆情传播核心要素数据逐渐偏离演化规律，即用网络舆情数据拟合时，实际数据与模型数据吻合程度会明显降低，并且随着动态数据的融入，吻合程度会大幅度降低。基于此，本文选择网络舆情实际数据与模型数据的吻合程度作为监测网络舆情传播核心要素异常现象的判别指标，建构数据驱动的网络舆情传播核心要素异常数据监测方法，如图4所示，为风险预警提供数据支撑。

3.3.2监测方法

网络舆情异常数据监测思路中主要步骤是数据驱动的演化模型参数确定过程（拟合数据），为保证拟合精度，本文选择差分回归法开展数据拟合，拟合程度系数R2（可决系数）作为判别异常的关键指标，具体思路如图5所示。

3.4异常感知驱动的网络舆情风险预警

构建网络舆情传播核心要素指标集H={S，xi，Ei}，计算指标集中指标权重形成权重集T（H）={T（S），T（xi），T（Ei）}，以第一个异常数据点为时间起点，按照异常数据出现的时间顺序，构建异常指标序列（H1，H2，…，Hn），定义t时刻网络舆情风险概率为：

4实证研究

4.1数据来源

选取2018年重庆公交车坠江事件舆情作为本文实证研究案例，通过爬虫获取该事件微博数据179046条，每条微博属性为发文时间、发文博主、发文内容、转发数、评论数等，监测时段为2018年10月28日10时45分—2018年11月2日19时59分，如图6所示。该事件初始舆情时间为2018年10月28日10时，初期舆情围绕公交车坠江原因以及事故救援等主题展开，2018年11月2日10时，该事件坠江原因曝光，舆情发生反转，出现舆情异常现象，基于此，本文实证研究分为两个阶段：①常态舆情建模阶段：该阶段主要建构常态模型，为异常监测提供模型基础，主要验证常态模型建构合理性;②异常数据建模与风险预警阶段：该阶段基于常态模型开展异常数据过滤并对此开展风险计算，主要验证异常监测敏锐程度。

4.2常态建模

选择2018年10月28日10时—31日7时的数据作为建模数据，获取常态模型建模变量数据发文主体数量、舆情信息发布数量、转发数量、评论数量等，并通过文本分析开展情感分析，获取3类情感信息数量。在此基础上，针对3类常态模型开展数据拟合，确定模型参数。

4.3异常数据建模与风险预警

首先，为方便监测异常数据，本文将可决系数R2的差分作为监测指标，当可决系数绝对差分值R2≥0.02时，判定为数据异常（异常为1，反之为0）;其次，网络舆情传播核心要素指标集包括发文主体、发布信息、中性情感、负面情感、正面情感5个指标且指标权重相等。在常态建模基础上，逐步融入新数据（2018年10月31日8時为起点），通过数据拟合计算各个网络舆情传播核心要素模型对应的可决系数R2的差分数据，监测异常数据并计算风险值，如图7所示。

观察图像发现：2018年10月31日23时之后，仅中性情感指标出现3次异常（t=16;t=24;t=25），导致风险值达到49%;2018年11月2日10时（t=50），5个指标均出现异常，风险值增至83%，此后的11时至13时（t=51;t=52;t=53），5个指标大部分仍处于异常状态，风险值增至99%。对比该案例实际情况，在11月2日10时17分，公交车坠江原因微博发布，舆情出现反转，这与异常监测的时间点吻合，故说明本文提出的异常数据感知思路可以为风险监测提供依据。

5结论

本文在明晰网络舆情风险监测机理的基础上，研究了一类网络舆情异常感知方法，为网络舆情风险监测自动化、智能化提供研究思路，也可为网络舆情风险治理理论提供方法支撑，最后通过实证研究验证方法可行性，得出以下结论：

1）本文基于常态模型监测异常数据，本质是以大概率思维解决问题，可提升舆情数据利用效率，且在兼顾异常监测的同时，可根据常态模型开展舆情传播深度分析，实现“深度分析+异常监测”一体化。但考虑到网络舆情事件具有较强的多样性和不确定性，本文提出的网络舆情传播核心要素指标集和网络舆情演化常态模型库的完整性有待进一步提升。

2）本文提出的网络舆情异常感知方法，在获取舆情监测数据后，需要进行的步骤主要有：情感计算、变量提取、数据拟合和风险计算，将4个步骤涉及的模型转化为算法可为舆情风险自动化计算提供支撑，但情感计算步骤的效能会直接影响异常监测的实时性，所以情感计算宜采用粗粒度划分方法，在节省计算时间的同时保障识别精度。

3）本文针对历史网络舆情事件进行事后分析，主要验证模型和方法的可行性，而在网络舆情实际工作中，即在大样本实时网络舆情数据环境下，需要有明确的监测对象，保障建模数据完整，进而提升建模精度，所以对于突发事件诱发的网络舆情异常监测效果会更加明显，而对网络话题诱发的网络舆情来说，需要溯源数据，保障监测数据完整性。

4）本文探索以大概率思维应对小概率问题，为解决未标注的新生风险提供解决思路，而在网络舆情风险监测实际工作中，需要将多种风险监测方法组合使用，提升监测精度。

3837500338272