公安情报信息挖掘技术研究综述

2014-06-23 16:21张海涛王斌君张洪涛
关键词:公安情报数据挖掘

张海涛,王斌君,张洪涛

(1.中国人民公安大学,北京 100038;2.哈尔滨市公安局,黑龙江哈尔滨 150001)

公安情报信息挖掘技术研究综述

张海涛1,2,王斌君1,张洪涛2

(1.中国人民公安大学,北京 100038;2.哈尔滨市公安局,黑龙江哈尔滨 150001)

随着国家对情报工作的重视程度不断强化及公共安全部门的现实需求,使公安情报工作面临着更高、更严格的要求,公安情报工作的重要性与难度正在不断加大。在此背景下,对国内外公安情报挖掘技术进行梳理,对各技术方法的基本思想、技术特点及应用领域进行系统分析,比较它们的性能差异和各自存在的优缺点,并对现状进行总结,提出了存在的问题与研究的方向,目标是为实现公安情报为国内安全及警务战略服务。

公安情报;数据挖掘;关联规则;知识发现

0 背景

2013年11月中央国安委成立,统筹协调涉及国家安全的重大事项和重要工作,委员会的目的是推进组建负责情报、军队、外交、公安等内容的国家安全,其中一项重要工作是整合国家原先分散的情报搜集与分析能力,彰显了情报信息在国家安全战略中的重要位置。现实中,国际与国内错综复杂环境使得情报愈加成为国家安全的保障,而公安情报是其中的重要组成部分。公安情报在“情报主导警务”警务模式下已经取得了一些进展,发挥了情报先导作用,有力地推动了公安工作的发展。但鉴于我国正处于经济转轨和社会改革转型的特殊时期,社会矛盾复杂尖锐,世情、国情和网情相互交织和影响,使得公安情报收集工作面临严峻复杂的形势,也提出了更迫切的要求。

情报主导警务的新型模式给公安情报工作提出了明确的指导原则,促使公安相关情报部门将信息化建设摆在了重要位置,通过信息化意识与技能的提高,加强了情报部门对情报信息的获取、研判与使用能力;通过积极发挥情报先导的作用,相关部门以国家金盾工程建设为契机,努力创新,投入了大量经费建设情报基础设施,研究开发了一批适于面向侦查实践所需要的情报分析系统,培养了很多素质较高的情报工作人员,改善了公安部门传统低效率的情报工作的落后局面,为国家安全与政治稳定、维护社会公共安全以及预防、制止与惩治犯罪发挥了重大作用。总之公安情报是警务的灵魂,是公安情报部门体现侦查能力的最高标准,是公安机关及其他安全部门发挥职能作用和完善打击能力的关键手段。

1 公安情报范畴

关于公安情报范畴的认识,公安情报学界看法不一[1],这里借用警察法的规定圈定公安情报范畴。警察法规定,人民警察的任务是维护国家安全,维护社会治安秩序,保护公民的人身安全、人身自由和合法财产,保护公共财产,预防、制止和惩治违法犯罪活动。针对性地,公安情报可理解为:公安情报是对公安机关职能范围内涉及国家安全与社会公共安全相关的信息进行分析研判的结果,其内容主要涉及国内安全、社会稳定、社会公共安全及其相关危害因素。区别于商业情报、军事情报等其他情报现象,公安情报信息强调的是针对国内安全、社会维稳和社会公共安全及社会秩序的情报因素挖掘;情报做为一种必需品,其目标是帮助公安及国内其他安全相关部门维护国家安全、社会稳定,维护社会公共安全和治安秩序,对潜在含攻击性、与安全密切相关的,可能危害国家安全与社会稳定的活动提供预警与辅助打击支持。

2 公安情报挖掘技术

公安情报技术是建立在数据源基础上的,并应用于公安情报工作各环节的技术手段。公安情报技术涵盖范围广泛,以下章节着重阐述情报体系中最为核心的情报挖掘技术。公安情报源不仅包括各种公安系统内部业务信息,还包括互联网、物联网等在内的一切社会信息与分析研判后的调查结果等。公安情报技术的研究驱动源自情报主导警务的客观需求,研究人员既有公安情报工作一线实战专家,也有公安及其他科研院校科研人员,技术路线特点是一线实战人员基于具体情报工作经验,更注重追求直接的、现实的、操作性的技术细节,大多采用较成熟的理论与技术;而理论研究者倾向于对情报理论与情报挖掘方法的创新。

2.1 数据挖掘方法

数据挖掘是从包含有大量不完全的、有噪声的应用数据的数据库或数据仓库中发现未知、隐含且有规律性的、可理解的、有利于决策的信息和知识的过程。做为一门综合性的技术,数据挖掘不仅包含各种数据挖掘算法,还与统计学、数据库技术、人工智能、机器学习等多个领域的理论相互交织。公安实战人员可以利用各种分析工具在大量的公安数据中发现模型和数据间的关联性,使用这些模型和关系可以帮助决策部门基于数据间的潜在关联性做出评估、预测与决策。目前,国内外执法部门都在研究和探讨面向相关职能领域中的数据挖掘理论方法和技术。传统的数据挖掘技术如关联分析、分类、聚类、预测分析都可以应用于具有大数据特征的违法犯罪信息领域。其中,关联规则模式及其改进型应用最为广泛,其基本思想是发现频繁性至少和预定义的最小支持度一样的所有频集,然后由频集产生强关联规则,选择那些超过设定支持度和可信度的关联规则为可行性关联规则。如文献[2]通过在传统的关联规则挖掘算法(Apriori)基础上引入敏感参数,生成一种增量关联规则挖掘算法来应用于犯罪行为分析中,有效地挖掘出犯罪行为信息库中的新的增量犯罪行为,为公安机关在打击、预警新的犯罪行为时提供决策依据。文献[3]针对传统Apriori算法低效率问题,提出了一种适合关系数据库中关联规则挖掘的IMM_Apriori算法,通过对基于矩阵的算法进行改进,引入删除压缩技术提高了算法性能,有效地解决了Apriori算法在发现频繁2-项集时的效率瓶颈问题。ADVESE是美国国土安全部提出的一个研究实验方案,做为一个庞大的数据挖掘系统,能够处理海量的数据实体,这些数据来源相当广泛,包括财政记录、电话记录、电子邮件、博客信息、网站索引以及一些电子信息记录,通过关联规则的挖掘,利用这些信息系统可实现对任何一个美国公民进行评估,以判断该公民是否为恐怖分子的可能性。“棱镜”计划背后的数据支撑系统Accumulo在数据库中存储多种来源的数据以进行关联规则的挖掘。

近年来,文本信息挖掘作为数据挖掘领域的新兴的分支得到了迅猛发展,其涵盖多种技术,包括文本分类,信息抽取、自然语言处理和数据挖掘技术。目的是从来源于web或者数据库中的大量的非结构化或者半结构化的文本数据中获得用户感兴趣的模式。目前,文本挖掘在多个领域中得到了应用,包括在信息检索、互联网舆情分析、信息过滤等领域,做为文本挖掘的一个重要内容,文本分类或聚类算法基本思想是按照一种监督或非监督的预定义类别体系,根据集合中文本的内容为每个文档进行类别的自动判别过程。如文献[4]应用文本分类和聚类技术于入境人员的犯罪记录,将入境人员分为高度危险分子,普通危险分子和一般人员等,从而有利于公安部门决定重点审查对象。此外还有文档自动摘要[5]等相关犯罪文本挖掘技术的研究和应用。国外文本挖掘技术也很好地应用于犯罪信息领域,如文献[6]将文本信息挖掘技术用于从案件叙述性文本中自动识别出人名、地名、作案手段、作案工具等。信息抽取一般作为犯罪数据挖掘的基础,信息抽取后可使用其他数据挖掘方法进行犯罪分析[7],Hsinchun chen,wingyan Chung等人在COPLINK项目[8]中应用了文本信息挖掘技术。2006年,Wang G.,Chen H.等人利用字符串比较方法检测以往数据库案件文本记录中相同的诈骗信息,从而实现同一犯罪诈骗的识别[9]。2007年,S.Appavu alias Balamurugan,Ramasamy Rajaram将基于决策树的文本分类方法应用于e-mail分类系统中,在截获的电子邮件中通过文本自动分类发现含有犯罪行为的邮件,从而挖掘出犯罪嫌疑人或者犯罪组织结构[10]。此外,文本挖掘还有文本自动摘要,模式识别[11],文本聚类等技术在犯罪领域中的研究和应用。

时至今日,数据挖掘的研究和开发虽已取得了令人瞩目的进展,但仍有一些亟待解决和完善的课题,如挖掘算法的关键效率和可扩放性,数据的时序性挖掘,缺陷数据的处理,挖掘结果的可理解性等,另外面对处理海量数据时,如何提高算法效率是关联规则挖掘的一个难点,现有的关联规则挖掘方法研究主要集中在效率提高、相关性分析、关联规则的维护及扩展应用等方面,但是大规模应用仍受到很多问题的困扰,仍面临着诸多挑战。文本信息挖掘同样面临众多难点,如海量的数据处理问题、半结构化或无结构化文本特征提取及特征空间的高维性、类别归属的模糊性问题,使得自动文本分类在许多方面的表现难以令人满意,一系列原因导致在实际使用中,大量隐藏的可用性信息无法充分地挖掘出来为实际办案所用。

2.2 知识发现方法

知识发现是交叉性研究领域,概念边界模糊,在某种程度上也可称之为数据挖掘,知识抽取或信息发现等。从技术上讲,知识发现是指从数据集中按照某种方法抽取暗含的新的模式,经过一系列处理之后,得到想要的知识。可以说狭义的数据挖掘是知识发现过程的一个步骤,但是,狭义的知识发现过程却包含在广义的数据挖掘过程中,两种概念相互交错,很难明确区分。目前很多知识发现算法在功能上已经远超过了数据挖掘当初所界定的范围,因此,此处只与狭义的数据挖掘概念相比较,以引出知识发现方法概念,较好地概括知识发现领域中所包含的理论、技术和方法。知识发现从任务类型上可以划分为分类、聚类、相关性分组或依赖时间的预测等任务。知识发现任务在发现目标、层算法及工具体系上各有不同,但通常包含两个子任务,即实体识别与关系抽取。关系抽取任务是由美国国防高级研究计划委员会(Defense Advanced Research Projects Agency)资助的消息理解会议(Message Understanding Conference,MUC)提出,目标是通过推动两种子任务的研究,实现情报挖掘技术的发展。MUC制定了实体关系抽取任务的各种规范及相应评价体系。实体关系抽取研究的重点与难点是语义关系抽取,语义关系抽取是一种从非结构化数据中准确地提取有用信息和知识的新兴数据挖掘技术,抽取的目标是发现数据集中两个不同实体之间的语义关系。语义关系抽取应用领域广泛,包括国防事业,Web行业分析,商业竞争分析,安全情报分析等都富有应用前景,国外基于此技术的突出代表是英国执法部门的I2系统,通过将侦查部门获取的信息进行数据整合,并利用关联、匹配、可视化、语义抽取等技术实现情报信息的自动分析与可视化操作,可有效地从大量数据中挖掘出有价值的信息。另外,文献[12]通过引入实体关系模型,用关系树的方法抽取案情信息中的实体关系,然后提出发现犯罪网络重要人物的算法,算法明显提高了破解具有社会网络特征的犯罪网络的办案水平。文献[13]将语义关联发现应用于国家安全领域,通过乘客与危险分子名单的关联来计算乘客的危险值,指导登机检查,以保证国家安全。

网络数据的模糊性、复杂性特点,需要针对从原始的网络数据中提取出社会网络,从Web数据中抽取社会网络涉及到对复杂语义的理解以确定节点关联的语义。基于社会网络的知识挖掘旨在从网络结构中挖掘出有意义的模式和知识。随着WEB 2.0的发展,社会化网络挖掘逐渐成为当前数据挖掘的新热点。如基于社会网络方法的犯罪组织关系挖掘[14],文章利用社会网络分析方法对犯罪组织关系进行研究,通过计算网络的中心性指标,提出犯罪组织中心人物及相互关系的判定方法。文献[15]研究了如何通过中心度测量来发现恐怖组织社会网络中的重要节点,以及如何通过可视化技术进行网络分析,从而发现网络中隐含的信息。文献[16]利用社会网络分析方法对多个具体案例展开分析,归结出两种基本构型的网络单元(“核心型”和“搭伙型”)来识别跨境毒品犯罪网络,提出在案件侦查经营中要特别注意网络联结性权重大的重要角色。文献[17]基于复杂网络建模的方法建立了具有无标度特征、小世界特征和层次特征的犯罪组织网络,采用社会网络分析中的中心度方法来识别组织中的关键成员,并基于网络密度变化值考察不同犯罪组织结构的运行效率及安全性,为打击犯罪组织的活动制订针对性的策略提出了构建方案。国外也有学者通过对已有犯罪组织数据分析,运用社会网络分析法对各种犯罪组织结构进行研究,如Krebs[18]利用社会网络分析方法识别9·11事件中恐怖组织的核心成员;Jonathan[19]采用动力学分析法研究成员递减性对原组织结构的影响;Carlo[20]对加拿大黑社会犯罪组织和9·11恐怖组织的安全性和组织效率进行了对比研究。知识发现技术对于情报领域的深入研究起到支撑作用,应该进一步拓展知识发现在情报领域的应用,丰富完善情报体系,针对知识发现用于情报挖掘体系的研究,文献[21]提倡将知识发现技术用于情报收集与处理的各个阶段,将统计方法、人工智能技术应用于情报收集、情报管理与情报分析等各个阶段,从不同层面促进情报工作的深入与问题的解决,通过使用主动式专题搜索引擎,深度挖掘敏感信息内容;采用知识发现领域中的结构发现与内容发现技术,提取暗含的组织及其关联关系;用分类、聚类等技术实现对情报信息的自动类别划分;通过统计分析、可视化及预测等技术,对情报进行自动分析与理解。

目前知识发现方法大多基于数据挖掘的思想,技术上与数据挖掘有着千丝万缕的联系,两者仍存在着许多理论上的问题有待解决,如数据的巨量性,动态性,噪声与稀疏性,发现模式的可理解性,复杂数据库处理,数据类型多样性及复杂语义处理等问题。基于类别划分的知识发现,其研究虽已取得了瞩目的成就,并在各个领域得到很好的应用,但仍面临着许多需解决的问题,如针对噪音数据的处理;基于如非均衡数据等的知识发现困难,文本分类、聚类算法效率较低,无法将半结构化的网页或者非结构化的文本数据转化为结构化数据,不能有效处理未登录词,在语义相关度计算方面没有实质突破,导致在处理复杂相关语句时性能欠佳。

2.3 其他方法

文献[22]设计一种基于统计学习方法,从多个层次对文本的态度倾向进行研判分析,基于此角度了解网民发帖的态度,情感倾向等。提出的方法提高了网络监察工作中文本信息提取的针对性和可用性;将这项技术应用到公安情报收集分析工作中,设计了一套能够融合到公安大情报平台中的文本倾向性分类器,通过细化分析及对网络中有价值的文本进行态度标注,提高了公安情报收集工作的效率。然而仅对情感的分析与识别不能满足对于情报挖掘的技术要求,实际上影响倾向性分析的因素很多,如文本处理中的分词技术、词性标注、句法依存分析和语义标注等直接影响到倾向性分析结果,特别是涉及到语义分析技术这一难关时,更是需要相关理论的进一步创新。关于其他情报挖掘技术,世界各国对此都严加保密,美国“多条件反恐信息交换系统”这一著名情报分析系统,可知的资料显示其基于知识库并采用贝叶斯分析推断的一般专家系统模式。

3 进一步研究方向

世界主要国家都对情报技术的研究投入巨大,情报获取能力已上升为一个国家的硬实力的具体表现,公安情报对于我国国内安全与社会稳定至关重要,随着情报主导警务模式的推进,公安实践已愈加依赖情报先行。目前的情报挖掘主要技术基本上建立在数据挖掘与知识发现思想基础之上,具体的技术发展可直接体现为这两个领域的相关理论技术创新,从图1中可以看出,情报挖掘相关理论、技术分属领域边界比较模糊,学科特点是具有明显的交叉性与综合性,未来的理论与技术创新极可能出现学科交错的领域,可能会产生新的学科生长点及获得原创性科学成果来提高情报挖掘能力。未来可进一步发展海量多源数据融合与可视化分析理论与技术,云情报理论、网络深度搜索技术、复杂语义处理技术等。

图1 公安情报挖掘主要技术关系图

4 结论

目前的公安情报信息挖掘技术主要是引入数据仓库、数据挖掘和知识发现等领域理论方法,各种方法思想交错,很难明确区分异同,但主旨都是从海量的数据中挖掘出隐含的,有价值的信息以利于决策分析。大多数方法都是基于数据挖掘思想与知识发现思想,并在实际工程领域取得了大量应用性成果,但归结起来,目前情报挖掘技术所取得的只是“摘取的最低枝头上的果实”,理论上还需要继续展开深入研究,另外,多源数据融合及海量信息的挖掘与情报智能分析技术亟待进一步创新。从实践角度看,情报挖掘难点之一是在信息不完整和模糊情况下如何进行分析、研判的理论与技术,如何克服在人类思维的过程中存在着思维定势和认知偏见,表面上看似无关而实质上却包含关联性的琐碎信息片段中如何挖掘出有价值的重要情报。公安情报部门面临的困境是获得的情报质量低下,一些情报停留在表面活动现象的记录上,没有深层次、高质量的综合分析,造成表层信息多、预警性的信息少;缺乏对数据信息的深度抽取和理解,造成显性信息多,隐性信息少。这里需要指出的是,社会上对网络舆情分析的研究较多,它是情报信息挖掘的一个重要方向,但主要是基于公开信息,针对舆情热点检测,民众态度倾向分析、舆情传播机制及舆情导控方面展开研究,此类研究受资源所限,直接针对公安案情线索与国安政情类信息情报挖掘的研究较少。

[1]谢晓专.公安情报学的研究对象与内容论纲[J].情报科学,2013,31(9):128-131.

[2]杜威,等.增量关联规则挖掘算法在犯罪行为中的应用研究[J].中国人民公安大学学报,2011,2(2):56-58.

[3]常朝稳,代永卫,等.关联规则在公安情报信息系统中的应用[J].计算机工程与应用,2008,44(5):209-212.

[4]夏咏梅.基于文本挖掘的分类与聚类技术[J].情报探索,2005,3(3).

[5]XU J,CHEN H.Criminal network analysis and visualization[J].Communications of the ACM,2005,48(6): 107.

[6]CHAU M,XU J,CHEN H.Extracting meaningful entities from police narrative reports[C]∥Proceedings of the 2002 annual national conference on Digital government research.Digital Gorernment Society of North America,2002:1-5.

[7]LEE W,STOLFO S I,MOK K W.A data mining framework for building intrusion diction models[C]∥Security and Privacy,1999.Proceedings of the 1999 IEEE Symposium on IEEE,1999:120-132.

[8]CHEN H,CHUNG W,QIN Y,et al.Crime data mining:an overview and case studies[C]∥Proceedings of the 2003 annual national conference on Digital government research.Digtal Government Society of North America,2003:1-5.

[9]WANG G A,CHEN H,XU J J,et al.Automatically detecting criminal identity deception:a adaptive detective algorithm[J].System,Man and Cybernetics,Part A: Systems and Humans,IEEE Transactions on,2006,36 (5):988-999.

[10]RAIARAM R,BACAMURUGAN A.Suspicious E-mail detection via decision tree:A data mining approach[J].CIT.Journal of computing and information technology,2007,15(2):161-169.

[11]WU T,POTTNGER W M.A semi-supervised algorithm for pattern discovery in information extraction from textual data[M]∥Adrances in Knowledge Discovery and Data Mining.Springer Berlin Heidelberg,2003:117-123.

[12]周利娟,等.基于实体关系的犯罪网络识别机制[J].计算机应用研究,2011,28(3):998-1002.

[13]SHETH A,ALEMAN-MEZA B,ARPINAR I B,et al.Semantic association identification and knowledge discovery for national security applications[J].Journal of Database Management(JDM),2005,16(1):33-53.

[14]杨莉莉,杨永川.基于社会网络的犯罪组织关系挖掘[J].计算机工程,2009,35(15):91-93.

[15]YANG C C.Knowledge discovery and information visualization for terrorist social networks[M]∥Intelligence and security informatics.Springer Berlin Heidelberg,2008:45-64.

[16]黄慧霞.跨境毒品犯罪组织结构的社会网络分析[J].中国人民公安大学学报,2010(1):29-38.

[17]陈鹏,袁宏永.犯罪组织结构的社会网络分析[J].清华大学学报:自然科学版,2011,51(8):1097-1101.

[18]KREBS V E.Mapping networks of terrorist cells[J].Connections,2002,24(3):43-52.

[19]FARLEY J D.Breaking A1 Qaeda cells:A mathematical analysis of counterterrorism operations(A guide for risk assessment and decision making)[J].Studies in Conflict&Terrorism,2003,26:399-411.

[20]MORSELLI C,GIGUERE C,PETIT K.The efficiency security trade-off in criminal networks[J].Social Networks,2007,29(1):143-153.

[21]谢毓湘,栾悉道,等.知识发现在互联网情报收集与处理中的应用[J].计算机工程与应用,2006(25):9 -11.

[22]武鸿浩,杨永川.文本倾向性分析技术在公安大情报系统中的应用研究[J].技术研究,2011(5):89-90.

(责任编辑 陈小明)

D035.31

中央高校基本科研业务费专项资金和公安理论及软科学研究计划(2013LLYJGADX003)项目资助。

张海涛(1982—),男,黑龙江人,2012级博士研究生,研究方向为信息安全、计算机犯罪侦查。

猜你喜欢
公安情报数据挖掘
情报
博物馆:上海公安史图片展
情报
改进支持向量机在特征数据挖掘中的智能应用
情报
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
Frequent attacks on health workers in China: social changes or historical origins?
公安信息化的同路人——华为构架云计算和大数据开创公安信息化新局面
“10岁当公安”为何能畅通无阻