王媛媛,詹 远,白 涛
(1.乌鲁木齐市公安局 网络安全保卫支队,新疆 乌鲁木齐 830063;2.新疆警察学院 附属保安学校,新疆 乌鲁木齐 830014;3.新疆农业大学 计算机与信息工程学院,新疆 乌鲁木齐 830052)
大数据环境下公安网络情报工作的变革与探索
王媛媛1,詹远2,白涛3
(1.乌鲁木齐市公安局网络安全保卫支队,新疆乌鲁木齐830063;2.新疆警察学院附属保安学校,新疆乌鲁木齐830014;3.新疆农业大学计算机与信息工程学院,新疆乌鲁木齐830052)
大数据时代的来临给公安网络情报工作带来了新的机遇和挑战。立足公安情报工作的实际需求,分析网络情报的大数据特征,从思想观点、体系建设、技术应用和手段整合等方面提出基于大数据的网络情报工作发展思路,并对大数据技术在网络舆情导控、基于社会网络分析的犯罪团伙发现、基于内容分析的有害多媒体信息监控等方面的应用进行了探索。
大数据;网络信息;公安情报;实际应用
随着互联网、物联网、移动互联等现代信息技术的飞速发展和各种智能设备的快速普及,社会各领域数据呈爆炸性增长,人类社会已经全面进入了大数据时代。大数据的应用与发展给社会的各方面带来了深远的影响[1],公安部门的网络情报工作也面临着巨大挑战。在大数据环境下,如何对海量网络信息进行大数据分析,挖掘情报价值,为案件侦破、舆情导控、打击暴恐等提供决策支持已经成为急待解决的问题。因此,深刻认识大数据给公安网络情报工作带来的变革,探索大数据技术在网络情报工作中的应用,意义十分重大。
“大数据”发展到今天,仍然没有一个统一的定义。维基百科定义“大数据指一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集”;国际数据咨询公司(IDC)提出“大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值”。从本质上讲,“大数据”一词不仅是对数据规模的定义,更是表明信息技术已经发展到了一个新的阶段。大数据时代,传统计算技术已无法应对高速增长的海量数据带来的巨大挑战,为此需要研究和寻找新的有效技术手段,以完成大数据的分析处理和价值挖掘。
大数据的特征可以用5个V描述,即体量大(Volume)、多样性(Variety)、速度快(Velocity)、真实性(Veracity)和价值大(Value)。大数据处理的主要难点是体量大和多样性。巨大的数据规模直接对存储、传输和计算都带来了极大的挑战,但随着云计算、分布式系统、并行计算的发展,以及计算机体系结构和处理器技术的进步带来的系统性能的进一步提升,这一问题得到了一定程度的缓解。多样性是指大数据包含多种类型和结构的数据,这导致一个应用往往既要处理结构化数据,同时还要处理文本、视频、语音等非结构化数据,这对现有数据库系统来说难以应付[2],这是大数据分析和挖掘面临的另一个困难。
虽然存在着处理上的困难,但大数据中蕴含着巨大的价值,这早已形成共识,并已表现出极强的行业应用需求的特性。随着近年来大数据处理系统、基础支持平台和并行化的机器学习和数据挖掘算法等大数据处理分析技术的迅速发展,大数据技术已逐渐被广泛应用于不同的行业和领域。
网络情报是指从互联网直接获取或通过分析挖掘间接获得的,针对特定目的能起到借鉴、参考和辅助决策作用的信息。对于公安部门来说,这里的特定目的主要指案件侦破、抓捕犯罪嫌疑人、犯罪团伙分析、群体性事件预防、不良舆情管控等。公安部门网络情报的大数据特征主要体现在以下几个方面:
(一)网络情报隐藏在海量的网络信息中
中国互联网信息中心(CNNIC)发布的最新《中国互联网络发展状况统计报告》[3]显示,截至2015 年12月,我国互联网用户达到6.88亿,其中手机网民达到6.20亿,互联网普及率为50.3%。由于网民人口基数大、增速快,加之网络对人们生活、工作等方面的渗透度日益提高,数据社会化日趋明显,由此而产生的网络信息规模也越来越庞大。高价值的网络情报淹没在海量的网络信息中,相对而言价值密度很低。在这种条件下,“沙里淘金”式的网络情报分析工作模式就成为必然。
(二)网络情报的碎片化趋势明显、时效性强
随着网络环境的日益完善和移动互联网技术的快速发展,各类移动互联应用需求被快速激发,依托QQ、微信等即时通讯工具、在线社交网络和各种手机App,网络信息的产生更加便捷,内容特征愈发稀疏,碎片化趋势明显。同时,信息的时效性也更强,网络传播的速度更快,传播范围更广。例如,暴恐分子常常利用即时通讯工具和在线社交网络进行非法犯罪活动,如宣扬宗教极端思想、煽动民族仇恨、与境外反华势力勾结等,这些活动在网络上留下的线索常常表现为一句评论、一段语音、一张图片或一个URL地址等,这种网络情报零碎分散、单一情报价值相对有限、时效性强,必须力求及时、全面搜集,相互补充和印证,通过关联分析才能做出准确研判。
(三)网络情报多源异构、快速多变
根据国际数据资讯公司(IDC)预测,到2020年全球将拥有35ZB的数据量,并且85%以上的数据以非结构化或半结构化的形式存在[4]。从数据处理的角度看,结构化程度越高,处理越容易,结构化程度越低,处理和分析的困难就越大。网络情报工作面对的大数据环境包括文本、图片、音视频等多种数据类型,信息来源多、结构差异大,并且快速多变。例如,文本信息做成图片格式或以水印方式嵌入图片;对图片、音视频进行转换格式、裁剪和切片;对各类数据信息进行分包压缩加密等,这些方法都会在内容基本不变的情况下,改变信息的形式和结构。这种快速多变的非结构化和半结构化的网络情报对公安部门的情报采集和分析处理都带来了很大的挑战。
公安部门面对的网络情报具有鲜明的大数据特征,这必然会对现有公安情报工作形成冲击,引发公安情报工作的深刻变革。因此,公安部门必须顺应大数据技术的发展潮流,充分利用大数据技术,提升网络情报工作能力,推动网络情报工作迈入大数据时代。
(一)树立大数据、大情报思想
大数据技术的快速发展深刻改变了人们的生活、工作和思维方式,也必然会引发公安情报工作的深刻变革。长期以来,公安业务产生和利用的信息资源主要以结构化信息为主。结构化的特点是准确、价值高、易处理,对这种信息资源利用的技术方法非常成熟,情报工作也已经形成了固有的思维方式和稳定的工作模式。但是,随着大数据时代的来临,以互联网为主要传播渠道的多媒体信息(文本、图片、音视频等)以前所未有的速度席卷而来,非结构化、半结构化信息资源的比重越来越大,而且蕴含着巨大的情报价值,公安机关传统的情报观念和工作模式面临着巨大挑战。为了应对这种挑战,必须更新观念和思维方式,树立大数据、大情报的思想。首先必须深刻认识到大数据时代数据无处不在,网络情报工作的大数据环境是必然的,是常态化的;其次必须意识到大数据中蕴含着巨大的情报价值,但价值密度较低;第三,大数据背景下,网络情报工作面临着海量的多源异构数据;第四,大数据背景下的网络情报工作应更注重关联与整合。观念改变思维,思维指导行动,只有摆脱固有观念和思维方式的禁锢,才能将公安网络情报工作提升到一个新的水平。
(二)建立健全信息采集、数据整合体系
数据资源是网络情报工作的“原料”,数据资源的质和量决定了网络情报工作可能达到的高度。因此,采集、整合足够多的数据资源是基于大数据的网络情报分析利用的基础和保证。以Web2.0为特征的互联网发展具有鲜明的创造、共享、聚合、开放的特点,信息传播方式主要有网站论坛、博客微博、Email、即时通讯工具、社交网站等,依托此产生和传播的数据具有典型的快速、异构、碎片化和价值密度低等特性。针对这些特点,公安部门只有建立健全的信息采集体系,丰富信息获取手段,充分利用第三方数据支持,整合各种数据源,才能获得相对充分和鲜活的数据资源;只有进行整序、浓缩、升华、系统化,使之成为一个有机的整体即信息资源,才能发挥其整体效益、系统效益[5];只有打破警种、职能、业务的条块分割,加强关联分析,信息之间相互印证、相互补充,才能挖掘出有价值的情报信息,有力地支持公安情报工作。
(三)增强大数据技术应用能力
由于大数据的动态、异构、规模大等特点,对大数据的分析和开发利用具有较高的技术难度。从系统的观点看,大数据技术可以划分为物理层(基础设施)、系统层(存储+计算框架)、算法层和应用层,包括计算机科学、信息科学、应用数学等多领域知识。基于大数据的网络情报分析挖掘,从算法层看,涉及到并行化机器学习和数据挖掘算法、Web挖掘检索、自然语言处理、社交网络等;从应用层看,除通用的统计挖掘工具外,还需结合公安网络情报工作实际需求,建立专门的计算模型,研发专业的应用系统。从实践角度看,一是要着力培养和提高自身情报相关部门人员对大数据技术的应用能力;二是要引入科研院所、企业的专业技术力量,充分利用已有成熟技术与产品,建设和学习同步,引入和消化并行;三是充分利用历史数据、成功案例、注重积累,逐步建立适合自身需求的分析计算模型和工作模式。
(四)注重大数据技术与传统手段相结合
大数据是信息技术的新发展,运用于公安部门网络情报分析方面也仅仅是在探索阶段。必须认识到,大数据分析技术不是万能的解决办法,只是给公安部门的情报分析提供了更多的手段和可能性。由于人力无法同时处理时空跨度大的海量数据,关联分析和学习也主要依靠个人素质和经验,因此对情报线索的分析、判断和预测往往是基于不全面的信息资源的。大数据技术弥补了主要依靠人力的传统分析方式的缺陷,但也往往只是对“可能性”不精确的预测和判断,只是提供了可能的答案,这种不精确常常以概率的方式体现。因此公安机关利用大数据技术进行网络情报分析必须与传统分析手段相结合,相互支持,相互印证,才能提高情报的准确性和可靠性。
大数据技术在公安网络情报工作中的应用具有非常广阔的前景,要充分认识大数据的重要性,提高大数据技术的应用能力,从公安网络情报工作的实际需要出发开展应用探索。
(一)网络舆情导控
网络舆情,是个人或社会群体以网络为平台,通过新闻、发帖、回复等方式,对特定事件或热点话题发表的评论、表达的意愿、态度和情绪的总和。从舆情主体与舆情传播两个维度,可以将网络舆情划分为弱型、强型和波动型网络舆情三种类型[6]。由于网络传播具有速度快、范围广、成本低、隐蔽性好等特点,网络舆情对社会稳定的影响力巨大。特别是对谣言等不实信息及具有煽动性的舆情,如果应对不及时,很容易引发大范围社会负面情绪甚至群体性事件。因此,围绕舆情导控应该做好以下几方面工作:一是网络舆情检测,通过数据挖掘、机器学习和情感分析等手段从海量信息中发现热点问题和舆情倾向,特别是影响社会稳定、可能引发群体性事件的舆情。二是建立网络舆情分类指标体系,通过大数据技术进行自动识别和分类,评估危害程度,从而能够对维稳、反恐、涉暴、民分等强类型网络舆情及时发现、及时预警、及时应对。三是通过大数据分析研究网络舆情的形成、传播和演变机理和过程,发现传播关键节点以及实现舆情溯源。
(二)基于社会网络分析的犯罪团伙发现
大数据环境下,网民不是孤立的个体,而是以相同或相似的兴趣度或关注点连接在一起的同质网络[7]。社会网络分析是将社会关系结构视为一种网络,并对网络中的成员关系及属性进行分析的方法[8]。在互联网、移动互联技术快速发展的背景下,这种社会关系往往表现为个体与群体、个体与个体之间的观点交换和交流与互动。在有组织犯罪团伙的侦查过程中,在掌握个别嫌疑人部分网络线索的条件下,可利用大数据技术建立整套的社会网络静态分析方法,通过社团检测、中心性、介数、簇系数、度分布等指标分析,发现犯罪团伙结构特征;通过频繁模式挖掘进行行为分析,识别关键骨干成员;分析犯罪团伙社会网络的动态演化,发现动态特性,对犯罪团伙的演变规律及发展趋势进行分析研判。这对打击团伙类犯罪,特别是暴恐、涉黑等严重危害国家安全和社会稳定的团伙犯罪意义重大。
(三)基于内容分析的有害多媒体信息监控
网络情报工作面对的大数据环境包括结构化、半结构化和非结构化的数据,特别是图片、音视频等类型的数据信息量大、情报价值高,但同时分析和处理难度也很大。例如,目前对暴恐音视频的检测和识别仍然存在一定困难,依靠人工识别工作量大、效率低,通过简单的Hash值比对检测的方式还不能保证很高的识别率。利用大数据技术,通过并行化的机器学习算法、数据挖掘和模式识别,建立有害多媒体信息(暴恐、邪教、淫秽等)的识别模型来实现快速检测鉴定;通过对图片、音视频特征分析识别场景、主题、热点进行归类或聚类,评估有害多媒体信息的内容热点、演变规律和发展趋势;这些都会对打击和管控有害多媒体信息的制作、传播起到重大支持和推动作用。
此外,根据实际需要和已有的工作基础,还可以在突发事件预警、行为模式分析、重点人员识别等其他多个领域开展探索。
大数据是信息技术发展新阶段的必然产物,给社会各个领域都带来了巨大的变革,对公安部门的网络情报工作来说更是新的机遇和挑战。网络大数据中蕴含的巨大情报价值对打击犯罪、维护社会稳定意义重大,公安部门应该深刻认识大数据技术的重要性,建立大数据、大情报思想,推动网络情报工作模式从“业务驱动”向“数据驱动”转变,以大数据等先进信息技术为引领,从平台建设、技术能力、机制体制上全面提升,在关系社会和谐稳定和社会经济发展的重点领域开展积极探索。
[1]夏火松,甄化春.大数据环境下舆情分析与决策支持研究文献综述[J].情报杂志,2015,34(2):1-6.
[2]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908.
[3]CNNIC.第37次中国互联网络发展状况统计报告[R].北京:中国互联网络信息中心,2016:40-41.
[4]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146.
[5]彭知辉.大数据:开启公安情报工作新时代[J].公安研究,2014,(1):76-80.
[6]王国华,冯伟,王雅蕾.基于网络舆情分类的舆情应对研究[J].情报杂志,2013,32(5):1-4.
[7]李艳灵,李刚.大数据环境下突发事件网络舆情分析及应对策略[J].电脑知识与技术,2015,11(15):14-15.
[8]周志涛,鲍灵佳.社会网络分析在团伙诈骗犯罪侦查中的应用[J].江西警察学院学报,2014,(3):39-44.
责任编辑:农学熙
[Abstract]The coming of the big data era has brought both new opportunities and challenges for the public security network intelligence.Based on the practical need of the public security network intelligence and analysis of the large data characteristics of network intelligence,large data network intelligence-based development ideas are proposed in terms of thoughts,system construction,technology application,and means integration.An exploration is also made on the application of the large data technology control in network public opinion,the social network analysis-based dectection of the criminal gang,and content analysis-based harmful multimedia information monitoring.
[Key words]large data;network intelligence;the public security intelligence;practical application
Reforms and Explorations on Public Security Network Intelligence in the Large Data Environment
WANG Yuan-yuan1,ZHAN Yuan2,BAI Tao3
(1.Network Security Team,Urumqi Municipal Public Security Bureau,Urumqi 830063,China;2.Xiujiang Police Academy,Urumqi 830014,China;3.School of Computer and Information Engineering,Xinjiang Agricultural University,Urumqi 830052,China)
D631.2
A
1008-9438(2016)03-0032-04
2016-03-22
网络出版:http://www.cnki.net/kcms/detail/45.1333.D.20160519.1546.014.html
新疆乌鲁木齐市应用开发研究计划项目(Y131320006)
王媛媛(1979-),女,新疆哈密人,新疆乌鲁木齐市公安局网络安全保卫支队科长,工程硕士,主要从事网络反恐与大数据处理研究。
詹远(1982-),男,湖南长沙人,新疆警察学院附属保安学校教师,主要从事讼诉法学研究。白涛(1979-),男,甘肃兰州人,新疆农业大学计算机学院副教授,主要从事社会网络和数据挖掘研究。