论数据挖掘在涉警舆情监测中的应用

2019-12-14 05:40曹略耕
森林公安 2019年5期
关键词:海量公安机关舆情

曹略耕

大数据时代,海量涉警舆情数据通过虚拟(网络)等媒介进行传播。虽然涉警舆情数据以超大规模的形式出现,但信息量却与数据量不成比例,出现了“数据海量,信息缺乏”的怪圈。为解决海量涉警舆情数据的监测与处理,就需要能够实时化、智能化、科学化的技术来支撑公安机关监测涉警舆情数据,在这种环境下,数据挖掘也就应运而生。

一、数据挖掘在涉警舆情监测中的应用内涵

(一)数据挖掘的内涵

1.数据挖掘的定义。数据挖掘,也称作基于数据库的知识发现,不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系。数据挖掘是在海量的、有噪声、非结构化的数据中通过数据算法智能、自动地提取出隐含的、潜在的有价值的知识的过程。在涉警舆情监测领域,数据挖掘就是对海量的互联网的数据信息进行“描述”,抽取出涉警舆情数据,运用算法进行实时、智能化预测预警的过程。

2.数据挖掘的任务。数据挖掘的任务分为描述、建模、预测三部分。“描述”是指对大数据进行数据总结,包括内容和结构上的特征总结,并以“支持度”“可信度”“作用度”为标准对总结数据进行初步的关联分析,提高预测的准确度和科学性。“建模”是指根据数据总结选择合适的算法,并建立相应的数据模型,以实现实时智能预测。在“描述”和“建模”任务完成之后,数据挖掘开始实施“预测”任务,这是数据挖掘的最终目的所在。“预测”是指根据数据“描述”的数据内容和结构上的特征,并以数据模型为基础对未知信息进行智能化、实时性、科学性预测。“预测”的主要方法包括决策树、神经网络、遗传算法、最邻近算法、贝叶斯分类技术等。

3.数据挖掘的理论基础。数据挖掘技术的理论基础在于行为学理论和社会学习理论。任何涉警舆情的发生都是符合一定规律的。涉警舆情是个体行为的综合反映,是个体所处的外在因素和内在因素的综合作用之下发生的。外在因素是指社会和自然存在的,不以个体的意志为转移的客观环境;内在因素是个体内在的性格、价值观等个性特征因素。通过警务大数据的分析,外在因素和内在因素的规律都是可以被发现的,是符合社会和个体的行为因素的。因此,涉警舆情事件的发生是可以通过数据挖掘发现其规律的,所以行为学理论涉警舆情的预测与预测的理论之一。

任何涉警舆情的产生都需要个体的学习,不会凭空产生。个体通过网络等媒介向社会学习大量的信息,这包括正面的积极信息,同样也含有负面的反动的数据,个体是容易受到正面的激励,还是负面的反噬,是可以通过社会学习理论来发现其规律的。

(二)涉警舆情的内涵

1.涉警舆情的定义。涉警舆情是指与公安机关相关的舆情信息,这其中包括正向的舆情信息,即弘扬公安机关对党忠诚、服务人民、执法公正、纪律严明等正面舆情信息,同时也包括负向的舆情信息,即抹黑公安执法,捏造事实,扭曲真相,意图引起社会反感的不良信息。

2.大数据时代涉警舆情的特征。大数据时代,超大规模的涉警舆情主要以分布式、非结构化的形式存在于网络等媒介中。由于网络的低门槛、无序性,使得网络舆情的不确定性、交互性和动态性大大加强,加之个体对主流舆情的“疲劳”,使得社会个体极易将涉警舆情负面化,进行扩大解释,将“论断”抢在公安机关发布前传播,引起涉警舆情的扩大化。

二、数据挖掘在涉警舆情监测与预警中的应用

(一)数据挖掘在涉警舆情监测与预警中的应用过程

从我国公安机关性质来看,由于公安机关大多是追求社会效益,功效往往不能在短期内显现,加之社会效益表现力弱等特点,使涉警负面舆情层出不穷,影响力日益加大。因此,加大对涉警舆情监测与预警,及早发现,及时预警,是降低涉警负面信息重要手段之一。

在涉警舆情数据准备阶段,通过大数据采集技术智能化,实时采集涉警舆情数据,传输到公安物联网,储存在相应的警务数据库。在涉警舆情数据清理与集成阶段,通过对涉警舆情数据内容和结构的“描述”,将“描述”后的数据进行“聚类”处理,即将具有较高相似度的数据“聚类”,不同类之间具有较高的相异性。将集成后的数据传输到“数据仓库”中。在涉警舆情数据选择与交换阶段,对数据进行关联分析,选择与涉警负面舆情有关的数据,并转化成适合数据挖掘的数据类型。在数据挖掘阶段,利用建立的数据模型,通过关联分析、级别分析、聚类和倾向性分析,对数据潜在的、有价值的涉警舆情规律进行挖掘,智能分析提取涉警舆情数据模式,为进一步预测预警提供支撑。在评估与表示阶段,一方面,将数据挖掘阶段形成的数据模式进行“表示”形成“知识”,提供预测预警数据;另一方面,对数据模式进行评估处理,将评估结果反馈到清理与集成、选择与交换、数据挖掘阶段,形成“闭环”,保障“知识”的科学性与智能化。涉警舆情的数据应用集成是数据挖掘的最后阶段,也是最终目的,即在于提供预测结果及预警模型,为公安机关掌握涉警舆论主动性提供保障。

数据挖掘并不是一蹴而就,而是一个反复的过程。在评估与表示阶段,会将数据进行反馈,反馈之前的每一个阶段。同时,如果某一个阶段的数据处理没有达到预期模式,就会返回到上一个阶段,进行反复处理,保证数据的鲜活性与科学性。

(二)数据挖掘在涉警舆情监测与预警中的应用方法

数据挖掘在涉警舆情监测与预警中的应用方法主要是关联分析、级别划分、倾向性分析与可视化表示。

1.关联分析。通过“偏差分析”发现异常数据,同时对涉警舆情的异常数据表征参数进行分析处理,发现涉警舆情中潜在的关联规则,并以“支持度”“可信度”“作用度”为参数量化涉警舆情的关联性。

2.级别划分。根据涉警舆情的影响力、性质等指标,以及“聚类”分析的“簇”的类别对涉警舆情事件进行级别划分,针对不同的涉警舆情级别实施相对应的预警方案。

3.倾向性分析与可视化表示。通过序列模式挖掘技术、情感分析、主题分析等数据挖掘技术深度挖掘涉警舆情的内在联系和演变趋势,得出倾向性分析意见,并以可视化界面的形式“表示”在公安机关视域下,为公安机关实时把握涉警舆情发展变化趋势及预警提供支撑。

三、数据挖掘在涉警舆情监测中的应用优势

传统技术就像一艘老旧的航船,无法在大数据的海洋中高效挖掘捕捞有价值的物产,并随时都有倾覆的危险。数据挖掘技术使涉警舆情数据分析处理环节更加智能化、实时化。传统的数据分析往往依托人工输入公安信息网进行比对分析处理,这不仅耗费大量的人力资源,而且也会使数据更新不及时,极大限制了公安机关处理涉警舆情事件的能力。在大数据时代,数据挖掘技术可以支持对海量涉警舆情潜在信息的发现与挖掘,找到涉警舆情信息间存在的关系或规律,根据现有的舆情预测未来的发展趋势,这不仅在纵向上极大地挖掘了数据,而且也缓解警力不足的压力,保证数据的实时性与准确性,实现智能化预测预警。

数据挖掘技术可以在纵向上挖掘“数据”,相较于传统的数据分析技术,更能实现公安机关对涉警舆情的预测预警。大数据时代社会人流、物流、信息流的动态化,新型“网络水军”的产生,以及跨地区、跨国家的远程操控等给公安机关打击违法炒作“涉警舆情”增加难度。公安机关通过大数据采集技术采集海量的涉警舆情数据,利用数据挖掘技术智能预测涉警负面舆情。数据挖掘技术提高了公安机关处理涉警舆情事件的效率,使公安机关处理涉警舆情事件由依靠传统的人海数据分析处理转变为数据挖掘技术引领,实现及时预测预警涉警舆情,提高公安机关实战化水平。相较于传统的OLAP等在线分析处理技术而言,数据挖掘技术具有以下4个优势:

(一)自动搜集信息

传统的数据分析处理技术无法实现对海量数据的实时分析,而数据挖掘技术可以实时、动态搜集信息,通过对数据内容和结构的数据“描述”,发现涉警舆情数据之间的关联关系,从虚拟(网络)上自动收集涉警舆情数据信息,并且随着链接不断向整个虚拟(网络)扩展,不断向更深层次挖掘数据,实现在虚拟(网络)上涉警舆情数据的自动搜集。

(二)数据清理

数据清理又可分为数据的预处理、筛选、有序化和量化处理。

1.数据预处理。数据预处理是对海量的数据进行预先梳理,将数据进行“去噪”处理,滤除“冗余”数据,提升下一环节的数据处理效率。

2.数据筛选。数据筛选是对涉警舆情数据的“再处理”,将“去噪”后的数据进行“偏差分析”,识别数据特征明显不同于其他的数据,初步去除无价值的数据,对有价值信息进行“再选择”。

3.数据的有序化处理。数据的有序化处理是对数据的“聚类”处理,通过数据“描述”,将具有较高相似度的数据归为一类,不同类别之间的数据具有较高的相异度,即将物理或抽象的数据分成不同“簇”的过程。

4.数据的量化处理。数据的量化处理是将不具有量化特征的数据进行量化处理,以便实现“量化”数据的“集体分析处理”,数据量化是数据“可视化”的基础。

(三)舆情分析

舆情分析是数据挖掘技术的关键,分析的结果往往关系到涉警舆情准确度。舆情分析可以关键字、倾向性观点等为类别进行“聚类”处理。基于数据挖掘技术的舆情分析主要有以下3点优势:

1.自动分类和自动聚类。将涉警舆情分为不同的“簇”,将每一个涉警舆情“簇”看作一个舆情类,可以及时发现涉警敏感舆情,并“总结出”主流评论及舆情导向。

2.偏差分析和深度追踪。通过偏差分析,智能化识别数据特征显著不同于其他的数据,并对其进行追根溯源,深度追踪数据链接、关键字等特征数据。

3.倾向性分析和预测。根据现有涉警舆情的发展规律,对未来的发展趋势进行科学化的实时预测,形成“知识表示”。

(四)知识表示

将数据挖掘的成果以可视化的“知识”展现在公安机关视域下,公安机关可以对涉警舆情事件的发展趋势进行实时研判,掌握涉警舆情的发展规律,及时预警,降低负面影响。

四、结语

随着大数据时代的不断推进,涉警舆情数量不断增多。在大数据时代,数据的产生和采集是基础,数据挖掘技术是关键,换句话说,大数据是现象,核心是挖掘数据的潜在价值,数据挖掘在涉警舆情预测中具有描述、清理、评估、知识表示等优势,可以较好地满足公安机关实战化需求,是公安机关及时掌握涉警舆情发展规律,实现智能化、科学性、实时性预测预警的重要手段。

尽管数据挖掘给涉警舆情的预测预警带来了巨大的变革,可以基本满足公安机关的实战化需求,但在具体应用过程中,数据挖掘同样会出现隐私安全、预测误判等风险问题。随着警务大数据和数据挖掘的不断成熟,这些风险问题会不断得到克服,可以预言,数据挖掘在涉警舆情的监测上必将扮演越来越重要的角色。

猜你喜欢
海量公安机关舆情
一种傅里叶域海量数据高速谱聚类方法
海量GNSS数据产品的一站式快速获取方法
海量快递垃圾正在“围城”——“绿色快递”势在必行
公安部印发《公安机关执法公开规定》的通知
数字舆情
数字舆情
消费舆情
对群众挂失申报和丢失招领是怎么收费的?
一个图形所蕴含的“海量”巧题
脑筋转个弯