基于模糊C均值的舆情等级分类模型研究

2017-07-12 09:10聂方彦

软件导刊 2017年6期

聂方彦

摘要：舆情应对的基本前提是舆情研判，也即将舆情按照轻重缓急程度归类，然后采取不同的应对措施。将舆情划分为4个等级，结合模糊C均值（FCM）算法定义了一个对舆情的自动聚类判别模型，并运用样本舆情对模型进行了验证分析。在舆情应对中，可将模型得出的结果作为应对的辅助手段，提升舆情应对的精准度和实时性，提高各级舆情部门的应对能力。

关键词：网络舆情；舆情等级；模糊C均值；自动聚类

DOIDOI：10.11907/rjdk.171144

中图分类号：TP319

文献标识码：A 文章编号：1672-7800（2017）006-0130-02

0 引言

网络舆情是指在现代通信网络体系中人们对社会现象（问题）展开讨论形成的各种观点、舆论。网络舆情对社会政治、经济、民生等产生的影响是巨大的。舆情一旦产生，就需要适当加以引导，不然其负面影响在网络上的无限放大极有可能对社会各方面产生极大的破坏作用。在互联网这一典型大数据环境下，每時每刻围绕众多网络舆论议题产生的数据都是海量的，海量的舆情数据加重了舆情研判的难度。

传统的舆情应对方式很难在第一时间发现潜在的可能会引起重大舆情的事件，无法对潜在的重大舆情进行响应。现有舆情应对机制都是建立在舆情研判基础之上的，也就是说先对舆情可能会发生什么影响进行评估（分级），然后再采取不同的应对措施。文献[1]、[2]在对舆情进行分级的基础上设计了不同的应对措施。按照网络舆情分级应对原则，越早判别舆情风险等级，就越能采取好的应对措施。然而在现实中，如何对众多网络舆情进行及时分级却是一件较为困难的事，如果采用人工判别模式，极有可能错过舆情应对的最佳时机。

模糊C-均值（Fuzzy C-means，FCM）算法[3]是数据聚类分析中的著名算法，它能较好地处理事件间存在的模糊特性。本文收集网络舆情相关数据并进行数据标准化，应用FCM算法对舆情引发事件进行聚类分析，自动归类舆情事件级别，以提高舆情应对的精准性和及时性。

1 舆情等级划分

目前我国还没有舆情等级划分的国家规范。《中华人民共和国突发事件应对法》第3条规定，按照社会危害程度、影响范围等因素，自然灾害、事故灾难、公共卫生事件分为特别重大、重大、较大和一般4级。以此为依据，很多研究也将舆情划分为类似的等级。例如，曹学艳等[2]基于网络舆情热度，提出一种引发舆情突发事件的动态分类分级方法，舆情事件在舆情演化过程中可动态归类为I级、II级、III级、IV级。张浩[4]依据引发舆情的10个因素，把网络舆情划分为轻度、中度、重度、危险、极度危险5个等级。王娟[1]根据舆情性质、影响程度、涉及范围等因素，将捕捉到的各种舆情信息划归为网络民意、负面舆情、重大舆情3种不同的预警等级，然后分别建立分级响应机制。根据现存舆情等级划分的研究成果，本文在对舆情进行聚类自动分级时，按照舆情规模、影响等因素把舆情归类为4个等级，分别对应一般（1级）、较大（2级）、大（3级）、重大（4级）舆情。

2 FCM聚类

FCM算法是一种基于目标函数的模糊聚类算法，主要用于数据的聚类分析，该算法理论成熟，广泛应用于各种工程领域。FCM通过模糊隶属度函数处理聚类数据的边界模糊特性，使数据有可能隶属于不同类别的属性得到充分体现。理论和实证研究表明FCM算法是一种优秀的聚类方法。

3 舆情数据采集与处理

在应用FCM算法对舆情事件进行自动聚类分级时，首先需要将网络上浩如烟海杂乱无章的非结构化数据进行数字化处理。可能会引发网络舆情的事件发生后，媒体（如报纸、门户网站、论坛、博客，或微媒体如微博、微信等）会发表各种关于事件的讨论和评述，讨论的规模和热度上去后就有可能引发重大舆情。故对事件引发的舆情研判可以通过检索媒体的传播规模研究它的发展趋势。事件发生后，经各种媒体传播和报道，可以形成关于事件的各种议题，对这些议题进行提炼可得如图1所示的事件关键词云。因此，对于整个事件引发的舆情规模可通过类似图1所示的关键词云进行统计挖掘得出。

为获取关于舆情事件的数据，应用数据挖掘工具统计舆情事件议题在各种媒体出现的数量，再按时间频度进行归类，可得到应用于FCM算法的数据。表1给出的数据是舆情事件发生后，舆情相关议题在各种媒体上的统计量，该数据借助新浪微舆情网站[5]舆情统计分析工具得到。由表1可以看出，事件引发的舆情越大，相关议题在各种媒体上出现的统计数据值越大。表1统计的数据并不是舆情事件刚发生时的数据，而且时间跨度也超过10天，因此不能作为舆情精准预测的依据。本研究应用这些舆情数据验证模型的准确性。真正应用本文模型进行舆情等级判别时，数据的采集可以更实时，且时间跨度也可根据舆情预测的精准度要求把时间区间定义得更窄些，例如依据舆情判别的黄金4小时等。表1是采集的原始数据，运用FCM算法进行聚类时，需要对这些数据进行标准化处理，减少数据的量级对聚类效果的影响。

4 舆情等级划分模型

基于FCM算法实现舆情事件的等级划分，其模型如图2所示。在模型中，首先基于关键词云在各媒体挖掘舆情事件的报道量，然后对数据进行标准化处理，再应用FCM算法进行聚类分析，最后输出舆情等级类别，用于指导舆情应对。

5 模型验证与分析

采集历史上发生的若干个舆情样本对模型进行实验验证分析。在运用模型进行聚类分析之前，通过专家将采集到的舆情样本按照定义的舆情级别手工分类，其中各级别舆情事件分别采集4个样本，共16个舆情样本。实验舆情样本既包括重大舆情事件如“魏则西事件”，也包括近年一些频繁发生的舆情事件如“大学毕业生被就业”。表2列出了运用本文模型聚类结果与专家判别结果的比较。

从表2可以看出，对于样本舆情，本文模型的判别结果与专家判别结果存在一定差异，如将专家判定为一般（1级）舆情的一个样本判别为较大（2级）舆情，将一个3级舆情判定为重大舆情。舆情等级的划分本身就有模糊性，FCM算法是一种基于模糊集理论的聚类算法，运用该算法对舆情等级进行聚类分析可以得到较好结果。实际运用中，可在该模型给出结果基础上再经专家判别，就可更精准地实现对舆情的定位，也为舆情判别节约了大量时间。

6 结语

舆情应对贵在精准与及时，传统的舆情判别依靠人工方式既费时又可能挂一漏万。模糊C均值是一种基于模糊集理论的聚类分析方法，它能处理事件本身存在的模糊特性。本文依据FCM思想构建了一个舆情等级自动判别的聚类模型，并应用历史舆情数据对模型进行了验证分析。实验表明该模型可以作为舆情应对的辅助工具，帮助进行舆情分析，以实现实时精准的舆情处理。

参考文献：

[1]王娟.网络舆情的分级响应与处置[J].人民论坛，2012（29）：27-30.

[2]曹学艳，宋彦宁，李仕明.基于网络舆情热度的突发事件动态分类分级研究[J].电子科技大学学报：社科版，2014（2）：24-27.

[3]翟丽丽，张影，王京.基于广度优先搜索的变异加权模糊C-均值聚类算法[J].统计与决策，2016（15）：9-14.

[4]张浩.互联网舆情等级划分机制研究[J].通讯世界，2015（8）：229-230.

[5]新浪微舆情[EB/OL].[2016-12-28].http：//www.wyq.cn/

（责任编辑：杜能钢）