网络舆情分析系统中关键技术研究

2019-03-20 03:06李丽蓉
山西警察学院学报 2019年1期
关键词:舆情聚类分类

□李丽蓉

(山西警察学院,山西 太原 030401)

随着我国网络媒体的快速发展和网民数量的高速增长,论坛、微博、微信群、QQ群等社交平台越来越成为舆论传播的主场,它的全球性、快捷性、开放性和互动性给网络舆情的传播带来了便捷,同时它的隐蔽性和虚拟性又使得舆情传播走向放大化和无序化。公安机关应强化舆情监测、分析和研判能力,准确把握舆情发展规律并对其进行有效管控。在大数据牵引公安工作跨越发展的思想指导下,使用网络舆情分析系统,通过自然语言处理、数据分析与挖掘、机器学习等技术对海量舆情数据进行多种分析,从中发现重点、热点和事件的各种特征、知识及发展趋势,对互联网内容进行治理,有利于维护网络信息交往秩序,促进互联网健康发展,从而营造风清气正的网络空间,保障网络社会的安全。

一、网络舆情的定义与分类

(一)定义

网络舆情是指“个人或某些社会群体以网络为平台,通过新闻、评论、发帖、回复等为载体,对与自身相关或感兴趣的事情发表评论、意愿、意见而表现出来的舆情。”[1]

(二)公安工作中的网络舆情分类

1.警情产生舆情类

指线下突发、重大涉警事件发生后迅速被曝光于网络而产生舆情。

2.舆情引发警情类

指线上网民违法、维权活动,线上内部泄密情况或检举、举报行为引发涉网络安全警情。

3.舆情次生舆情类

指已处理的涉警舆情被网民再次借机炒作或舆情已平息,但处置过程中某些不适当行为又被网民恶意攻击衍生出新一轮舆情。

二、网络舆情分析系统架构

网络舆情分析系统实时监控网页、论坛、博客、微博、微信、视频等互联网信息,对采集的信息进行分类整理,利用智能化的舆情分析技术对网络舆情进行监测和预警,并形成简报、报告、图表等分析结果。舆情分析系统主要包括舆情信息采集、数据预处理、舆情分析研判和舆情报告等四个模块。

(一)舆情信息采集

舆情信息采集是舆情分析系统的基础,通常利用爬虫技术从互联网上采集信息。网络爬虫的工作原理是选择待抓取网页,以这些网页的链接地址作为种子URL,按顺序放入待抓取URL队列,系统通过DNS解析依次将URL转换为网站服务器对应的IP地址。然后将网页下载到本地,按顺序进行存储和标记,避免重复抓取。之后,再继续执行新一轮的抓取,循环往复,直到待抓取URL队列为空。当前主要的爬虫技术有通用型爬虫、主题爬虫和分布式爬虫。由于互联网中的海量信息及数据结构复杂多样,相关部门大多采用分布式、并行计算的爬虫技术,可以高效分割信息采集任务,实时获取网络舆情信息。

(二)数据预处理

数据预处理是对爬取的网页信息进行清洗,抽取有价值的舆情信息文本特征集,如事件的主体、发生时间、事件地点、事件核心词等基本信息,并存储抽取信息。网页信息包括大量的图片、音频、视频、文档等非结构化或半结构化数据,不利于检索、统计和存储等操作,因此,需要通过结构化处理,转换成规范的数据文件存储,便于后面的舆情分析处理。相关部门主要采用网页数据抽取、网页相似性识别和非结构化数据存储等技术。

(三)舆情分析研判

舆情分析研判是网络舆情分析系统的核心部分,包括热点和敏感话题识别、主题跟踪、话题倾向性分析等功能。通过对预处理后的初始舆情文本数据进行分析和挖掘后,运用文本聚类技术形成舆情话题中心,运用分类技术完成话题的跟踪,运用话题检测与跟踪技术分析舆情话题的相关评价、时间等,产生出热点话题,并对话题进行敏感性分析。

(四)舆情报告

舆情报告用可视化的方式呈现舆情信息,是用直观可见的方式展示原始数据间的复杂关系、潜在信息以及发展趋势,包括舆情快报、专题浏览、热点推送、信息汇总统计和舆情预警等。

三、网络舆情数据分析中采用的关键技术

(一)舆情文本聚类技术

文本聚类是按照某种相近程度的度量对没有标签的数据集分成不同的簇,将具有高相似度的数据聚集到相同的簇中,不同簇中的数据差异性尽可能大。它是一种无监督的机器学习算法,不需要使用训练样本学习,可以将数据集进行自动分类,在分类后发现分类标准,常常作为其它算法的预处理算法。网络舆情分析的主要任务是发现舆情话题,通过聚类技术可以将经过预处理后的舆情文本聚成多个簇,即话题。聚类算法主要包括划分聚类算法、层次聚类算法、密度聚类算法、网格聚类算法和模型聚类算法等。

1.划分聚类算法

它的主要思想是:给定一个有N条记录的数据集,按照一定的规则划分成K个簇(K

2.层次聚类算法

它的主要思想是:对给定的数据集按照层次逐级分解,设定一定的簇规模和阈值,当满足这种阈值和规模时聚类完成,若不满足则继续按层次形成一种树结构,最终达到设定的满足条件。根据层次分解的方向不同,把自顶而下的算法称为分裂方法,自底而上的算法称为凝聚方法。典型的层次聚类算法有BIRCH算法、CURE算法、ARHP算法和PDDP算法等。

3.基于密度的聚类算法

它的主要思想是:将簇看成是有一定数据密度的区域,当相邻区域的密度超过某个阈值就继续聚类,直到相对高密度区域被相对低密度区域分割开形成簇,它可以过滤掉与已形成的簇没有相似性的噪声数据。典型的密度聚类算法有DBSCAN算法、OPTICS算法等。

4.基于网格的聚类算法

它的主要思想是:首先采用网格结构把数据空间划分成有限数目的单元集,所有的聚类操作都在单个的单元网格中进行,然后计算该单元的密度,去除掉密度低于阈值的单元,最后将相连的高密度单元生成簇。典型的网格聚类算法有STING算法、OPTIGRID算法等。

5.基于模型的聚类算法

它的主要思想是:假定数据集符合一系列的概率分布,用概率分布模型聚类数据。首先给每个簇设定一个模型,然后寻找能最好满足该模型的数据。这个模型可能是数据点的概率分布模型或是其它,包括统计学方法和神经网络方法。典型的模型聚类算法有COBWEB算法、CLASSIT算法、SOM算法等。

(二)舆情文本分类技术

文本分类是一种有监督的机器学习算法,通过对带标签的训练样本进行学习,建立一个最优模型(函数集合),再利用这个模型对未知数据集进行分类。在舆情分析中可以根据已经发现的话题簇对后续获得的舆情文本按照相似度匹配和归类,从而实现跟踪话题的目标。分类算法主要包括K邻近算法、决策树算法、神经网络算法和支持向量机算法等。

1.K邻近算法

它的主要思想是:如果被分析文本与在特征空间中的K(通常K≤20)个最相似样本中的多数属于同一类别,则被分析文本属于该类别,其中所选择的样本都已经正确分类。首先通过计算测试数据与各训练样本数据之间的距离,按照距离递增排序,然后选取距离最小的K个点,计算K个点所在类别的出现频率,按照最高出现频率对测试数据分类。

2.决策树算法

它的主要思想是:通过对样本数据的学习,选定判断节点,构造出合适的决策树模型,每个非叶子节点是一个判断条件,每个叶子节点是结论。利用决策树模型对测试数据进行分析,从根节点开始依次遍历各判断节点,最后到达叶子节点,经过多次判断得出分类结果。决策树的构建算法主要有ID3、C4.5和CART等。

3.贝叶斯算法

它的主要思想是:以贝叶斯定理为基础,利用概率统计知识进行分类,依据某些特征条件独立假设,计算出相似概率,确定被分析文本是否属于已知的文本类中。首先确定并划分每个特征属性,再由人工对一部分待分类数据进行分类,形成训练样本集。然后进行分类训练,计算每个类在训练样本中出现的频率以及每个特征属性对每个类的条件概率估计,得到分类器。最后使用分类器对测试数据进行分类。

4.神经网络算法

它的主要思想是:是一种基于数学统计学类型,模拟生物神经网络,进行分布式并行信息处理的算法,由大量结构和功能简单的神经元按照一定的规则和模式,相互连接而成的一种复杂而功能强大的网络系统,是一种非线性自适应动态系统。首先设计神经网络,确定网络结构、作用函数和学习算法,对神经网络初始化,然后利用训练数据对网络进行训练,最后使用训练后的网络处理输入信息。

5.支持向量机算法

它的主要思想是:是二类分类模型,以统计学习理论的VC理论和结构风险最小原理为基础,给定训练样本,建立一个最优超平面,尽可能把两类数据正确分开,并且使两类数据距超平面之间的距离最大。

(三)话题检测与跟踪技术

话题检测与跟踪(Topic Detect and Tracking,TDT)是舆情分析的一个重要功能,它可以准确地发现舆情热点话题,并跟踪话题的动态演化过程,从而分析整个舆情事件的起因、发展和消亡的全过程。图1是话题检测与跟踪技术研究体系结构。当前TDT研究方法主要采用基于聚类算法的改进算法和挖掘新的话题特征来提高检测和跟踪效果。话题检测与跟踪技术与聚类算法很相似但不等同,一个热点话题可以包括多个子话题,属于多层次聚类。首先对海量网络数据进行聚类分析,发现热点话题,然后在后续新增加的数据中采用增量聚类算法,对已有的话题追踪分析。话题特征包括话题的时间聚集性、特征词、生命演变特征以及命名实体等,可以利用话题的各种特征来寻找和控制话题阈值,从而改进话题检测效果。

四、构建网络舆情监测指标体系

网络舆情监测指标体系将各种相互关联的统计指标组成一个可测的有机整体,是舆情分析和研判的重要依据,“科学地选择指标维度可以对舆情热度做出综合有效的评判,能够更深刻地认识舆情热度涨落规律,明晰深层影响原因,也为舆情发展阶段划分、控制提供依据。[2]”根据网络舆情发展规律,网络舆情监测指标体系分为传播扩散、发布主体、内容要素和舆情受众等四个维度的指标,基本结构如表1所示。体系中的各项指标,按照其对整个舆情事件的影响程度大小分别赋予不同权重,进行加权分析。

表1 网络舆情监测指标体系

(一)传播扩散

持续时间指对舆情事件关注的时间跨度,即从第一条信息发出到事件结束整个过程所用时间。地理范围指舆情传播影响在现实地理位置的涉及范围,可以通过IP、ID来获取地址,对重点区域进行管控。通过统计微博、论坛、电子邮件、交友网站、即时通讯软件等传播方式在舆情信息总量中的百分比来确定重点监测的媒介。

(二)发布主体

发布主体是发布舆情和推动舆情发展的人员,需要分析他们在舆情事件中的身份、在网络中的影响力、活跃度(一定时间内发帖量和回复量的总和)和对事件所持有的态度。

(三)内容要素

主题内容是指舆情事件属于哪类主题,分为社会热点、政治新闻、个人隐私、宗教政治、涉稳维权、涉警等类别。通过分析搜索量、浏览量、转发量和评论量来判断舆情话题热度,检索给定敏感词来判断舆情事件的敏感度。视听化程度指发布主体在网络中传播的图像、音频和视频等声像资料在其全部信息量中的比例,声像资料能最真实直观地反映事件本身,容易传播,造成更大影响力,可以通过监测它的标题关键词和文件格式来加以管控。内容详略度与事件的真实性密切相关,可以用文本长度、图片连贯性和声像时长来衡量。

(四)舆情受众

舆情受众是舆情事件的接受者,通过分析他们对事件所持的态度以及访问舆情话题的人数与访问量来判断舆情的发展热度和趋势。

五、网络舆情分析系统的设计与实现

本系统基于Hadoop开发,包括舆情信息采集、数据预处理、舆情分析研判和舆情报告四个模块。舆情信息采集模块采用在Hadoop中集成Nutch进行分布式网络爬虫,从新闻、微博、论坛、电子邮件、交友网站、即时通讯等舆情载体上爬取舆情信息。数据预处理模块采用正向最大匹配算法进行分词处理,TFIDF法计算特征词的权值,获取文本的特征向量。采用MongoDB存储Nutch爬取的数据,其它模块采用MySQL来存储和管理数据。舆情分析研判模块采用BIRCH聚类算法对文本信息挖掘,发现网络舆情话题,再通过分析话题的搜索量、浏览量、转发量和评论量等数据,发现热点话题,通过与敏感词库匹配,识别敏感话题。采用“基于超球结构的渐进直推式支持向量机”[3]算法对新采集的舆情信息进行文本分类处理,并保存到数据库中,根据分类结果实现话题跟踪。舆情报告模块中对热点话题及其详情用图型和图表展示,舆情话题跟踪用发展趋势图展示,敏感话题用可视化的舆情预警展示,并提供其详细信息。系统完成部署后,经测试具有较好的可用性和准确性。

猜你喜欢
舆情聚类分类
分类算一算
基于K-means聚类的车-地无线通信场强研究
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
基于高斯混合聚类的阵列干涉SAR三维成像
消费舆情
舆情
舆情
基于Spark平台的K-means聚类算法改进及并行化实现