□白继峰,张蕾华
(1.山西省公安厅,山西 太原 030001;2.山西警察学院,山西 太原 030401)
在大数据时代,信息和数据浩如烟海,怎样从浩瀚的信息中快速有效地检索并从中找出我们所需要的信息,已成为当前各业界迫切需要解决的难题。对于公安情报部门来讲,如何快速处理海量文本信息同样非常重要。为了加强对各类信息的全面整合、综合分析和预警监测,不断提高搜集情报、侦查破案、处置重大警情的能力,公安情报部门必须紧跟时代发展,运用人工智能中的知识图谱、机器学习、语义分析、文本挖掘等理论和技术,通过计算机将所汇聚的纷繁复杂的各类异构数据、海量信息剥茧抽丝,形成有价值的情报,快速、及时、高效地呈现给领导和实战部门,提供最优质的情报分析成果。
当下,公安机关各级、各部门依托先进的信息技术积累汇聚了海量的信息资料,这些信息资料大多是以文本的形式保存,这些文本当中包含有关人员、事件、背景等许多重要的线索和信息。面对这些海量文本信息,公安机关的情报处理能力日渐吃力。目前,公安情报部门虽然有完善的信息管理系统,具备相应的查询、筛选和统计功能,但是单依靠这些传统方法很难挖掘出有价值的情报。在拥有海量信息的大数据时代,为有效维护国家安全和社会稳定,公安机关就必须通过人工智能的技术突破,加强对各类信息的全面整合、综合分析和预警监测,不断提高智能化的情报工作能力。
近些年,为了解决情报来源和情报资源的问题,公安情报部门一直在进行相关建设,并投入大量的资源,但真正进展似乎很小。事实上,情报工作的关键不仅在于搜集而且在于分析;只有进行良好的分析和提供事情原委的能力,才能提供更加有效的预警。因为如果情报的唯一功能是积累“事实”,那么就没有多少必要使用任何类型的分析人员[1]。目前,已有专家学者和情报人员对公安领域的数据分析进行了大量的研究和应用,谈论和实践最多的集中在人工智能发展的一大分支——以深度学习为代表的机器学习方向[2]。一般的方法是先对数据进行统计分析 ,根据统计分析的结果提取对事件、案件分析有效的训练样本供机器学习,然后应用相关算法建立关联规则,最后让机器运用学习到的规则去分析海量数据,对公安事件、案件内部属性之间存在的关系进行挖掘。但是存在一个重要的问题是文本资源只能被人理解,机器无法理解;如何让机器像人一样理解文本,进而分析产出情报,是当前公安情报部门需要解决的重要课题。现有的知识图谱技术对中文支持也不够,笔者认为,我们需要构建一个中文情报知识图谱,以帮助机器理解海量的文本资料。本文拟从人工智能发展的另一大分支——以知识图谱为代表的知识工程建设出发,从情报处理工作的日常实际出发,谈谈自动化、智能化处理文本信息的方法和实践。
知识图谱指利用信息可视化的理论、技术和方法把各种不同类别的信息连接在一起,并能够从信息中抽取出相关要素,且能够反映出各个要素之间关系的映射图。通俗地说,就是使机器能够从“关系”的角度来理解知识中概念之间以及概念中属性与属性之间的关系,并且用可视化的技术展示出来。通过知识图谱,用户可以快速有效地获取相关知识以及知识之间的逻辑关系,并将不易理解的抽象信息以用户能理解的可视化方式展示出来[3]。
建设公安情报知识图谱就是基于情报资料本身,将“信息”搜集上升为“知识”积累,使机器能够学习思考、分析理解、提出对策建议,甚至可以自产情报。
在国外,知识图谱技术已经比较成熟,大规模的知识图谱已经构建好,这些知识图谱包括百万级别的实体以及十亿级别的能表示这些实体之间联系关系图。国内针对知识图谱构建技术的研究主要有百度“知心”、搜狗“知立方”、复旦大学“CN-DBpedia”和“Zhishi.me”等,都还处于起步研究阶段[4],而面向公安情报业务的知识图谱构建几乎无人涉及。一方面是由于语言本身,相对于英文,中文语言本身就比较复杂,无法直接使用国外的技术进行语义分析;另一方面,公安情报业务的专业语料库比较匮乏,也缺乏相关专业人士参与到知识共享;再加上语料知识的不完整性,容易产生语法错误、歧义问题以及专有名词的不一致,无法满足对公安情报知识图谱构建高度准确性的要求。
归纳总结知识图谱构建的一般方案后,可以为公安情报知识图谱的构建提出以下路径:即邀请具有一定知识背景的情报或行业专家人工拟定相关规则,以规则为基础,通过无监督或半监督化的机器学习将海量非结构化文本中蕴藏的情报要素自动挖掘出来,并进行可视化展现。
具体方法就是从公安警务云平台中抽取人口、警情、案件、车辆、物品、场所、指纹、图片、通信等大量的信息资源,将每一条数据进行实体拆分,经清洗后整合成以“人员、物品、事件、地址、机构……”为“情报要素”的一个个逻辑库,通过统一的信息服务总线为警务云检索平台提供大数据支撑服务,再从海量文本中挖掘并建立“本体-关系-实体”三元组关系规则映射[5],最后将各“情报要素”建立关系并通过可视化技术展示。步骤可分为:1.将公安民警采集的“人”、“事”、“地”、“物”、“组织”等信息抽取出来建立“本体”库;2.将“人”、“事”、“地”、“物”、“组织”等本体信息按照“相关属性”和“情报要素”继续切片细分,建立“实体”库;3.将本体与本体、实体与实体、本体与实体之间的关系进行关联、整合并建立“关系”库;4.将本体、实体、关系可视化。
最终的目标是,将知识图谱技术与公安情报业务相结合,将各类数据汇总融合成为人、事、地、物、组织等实体对象,并根据其中的属性联系、时空联系、语义联系、特征联系等建立相互的关系,形成一张包罗万象的公安专属情报知识图谱。
智能化处理情报的终极目标是智能辅助决策,也就是训练计算机成为具有情报知识并且具有逻辑推理和计算能力情报分析员,或是成为能够具体分析问题并能够作出初步决策的“大脑”。要实现这个目标的第一步就是要利用知识图谱技术建设情报资料库,这个情报知识图谱和情报资料库应该成为公安情报部门所有情报分析人员的历史智慧总和。
近年来,公安情报部门一直以服务公安决策为中心、秉持开放共享的系统建设思路,努力打造一个专业、系统的包含战略研判、战役研判、战术研判三个层面的情报百科,而且也已经在情报资源库的基础上建立起来一套存储了海量文本情报的资料库,涉及全球战略大视野、敌情、社情、舆情和社会治安隐患分布等多个业务模块。这个整合汇聚了海量以文档方式、异构数据库方式存储在各个业务系统的中文文本情报信息库,解决了情报分析过程中无法对以往的研判成果进行有效总结的问题,有利于对情报研判的过程和成果进行回顾和展示,有利于情报部门在重要节点前快速开展工作,为直接、快速、高效辅助决策提供了重要支撑,同时也为建设情报知识图谱打下坚实的基础。
情报资料库整合的多方资源为情报知识图谱的构建提供了基础条件。基本的建设思路就是按照情报要素和情报研判标准,组织专家对情报资料进行文本分析,如语义标注、实体及关系抽取、关联分析等,获取关于公安情报研判的所有规范或不规范的概念词汇集合,并根据情报资源内容的差异以及概念、属性之间的关系类型,构建情报知识的“本体-关系-实体”关系,形成汇集全警智慧的情报知识库。具体技术实现路径有以下步骤:
第一步,数据抽取。对文本信息中具有特定意义的实体,包括人名、地名、机构名、专有名词进行标注,建立知识标签体系,再综合专家经验、概念、属性构建实体画像,建立以实体为节点,以属性为关联的实体关系。
第二步,构建关系体系。抽取实体间的关系(比如轨迹、通联、亲戚、族谱、社交等),并进行关系分析与动态维护。
第三步,构建知识图谱。通过采用分类聚类算法,对具有相同、相近描述的实体进行相似度度量,通过将知识聚类,逐步构建知识图谱。
第四步,知识挖掘。通过推理、关联、挖掘,可以发现隐含知识,并且增加图谱的知识覆盖率。
当前,公安情报部门在基础信息化建设方面已经投入非常大的资源,但是在各种辅助单个情报分析人员以更快、更好地进行情报分析研判,或在增强情报分析人员分析研判能力的工具上却相对投入很少,尤其在如何处理海量文本信息方面,而人工智能的一系列理论和技术为情报智能化处理带来了契机。事实上,当前公安情报部门在处理海量文本情报信息的实际工作中最大的、最迫切的需求就是自动化梳理情报信息,其次是文本挖掘,最终的目标是实现智能化处理。
1.自动化梳理。针对文本的分类算法有很多种,但是经过调研,目前公安情报部门的文本数据适合采用“规则学习”(指从训练数据中学习出一组能用于对未见示例进行判别的规则)算法,目标是产生一个能覆盖尽可能多的样例的规则集,以实现对文本情报数据的分类。具体步骤是:(1)建立业务分类体系,比如:刑事犯罪前科人员群体、涉众经济投资受损群体等;(2)通过人工或者机器学习两种方式从海量文本情报中总结或学习规则;(3)当处理新的文本情报信息时,机器就会根据已有的规则(如群体类别)自动进行匹配;(4)将匹配好的信息自动分类到各个逻辑库去。这样,通过机器自动对情报进行分类,就把原来海量的、杂乱无章的文本情报信息按照类别梳理出来,同时也把情报分析人员从简单、繁重的情报梳理工作中解放了出来,可以聚精会神地从战略战术层面或对情报的整体态势等方面进行深层次的关联分析、深度研判。
2.智能化处理。将自动化、智能化情报处理系统与情报资料库、情报线索库直接对接并获取实时数据,进行热词监测、文本聚类、要素提取、语义分析、文本挖掘等智能化活动,并且开发情报摘要、智能推荐、辅助人工研判等智能化功能,基本可以实现并满足情报分析人员智能化处理情报的需求。智能化研判的技术路径有以下步骤:(1)文本分类;(2)情报摘要;(3)关键字提取;(4)基于自然语言处理理论的分词技术;(5)对多篇情报进行智能合成;(6)智能抽取情报中的主要事件和重点群体、人员;(7)智能推荐研判意见;(8)人工校正与多维度分析研判。其流程如下图。
正是得益于情报知识图谱的启发和应用,才有了情报资料库的初步探索。可以肯定地说,只要情报知识图谱能够将现实生活中海量碎片化、异构化数据中的“情报要素”提取出来并与“人”、“事”、“地”、“物”、“组织”等工作对象建立映射关系,并且能够还原对象之间错综复杂的关系,“就能让计算机帮助人类突破人脑信息处理极限,运用超全维度和超高量级的信息量进行高效的思考。”[6]
情报的终极目标是要做到未卜先知、无所不知,而当前公安情报部门的首要目标是实现将大数据和文本情报结合起来的“智能综合预警”,更好地辅助决策。基于公安情报知识图谱和智能化情报处理系统,我们将有望打造一套理想状态下完美的情报预警系统,甚至可以达到“拥有近似等价于真实世界信息量的全量数据,以及媲美最顶尖情报专家大脑的情报理解分析能力”[7],可以让各级公安情报部门在维护国家安全和社会稳定工作方面发挥重要作用。
在情报知识图谱和智能化处理情报的基础上,充分利用大数据优势,可以设计开发“大数据统计分析挖掘模型”。针对公安机关整合共享产生的海量数据优势,尝试从这些海量数据中挖掘、筛选信息,与公安业务挂钩,围绕重点人员、关注群体、车辆等设计大数据统计分析模型,对长期累积的海量数据进行统计、分析得出某一数据的常量值,再对数据进行“每日监测”或“趋势分析”,对于监测或分析到的异常数据,转给情报分析人员结合当前的敌情、社情、舆情进行关联研判,或者对数据进行开发,通过使用数学算法对海量数据进行分析和建模,挖掘出各类数据背后所蕴藏的内在的、必然的因果关系,进而研判出某一事件发生的概率,科学预测其发展趋势,来服务打防管控等现实斗争。
十九大以来习近平总书记关于新时代公安工作的系列重要指示,为我们做好新时代公安工作提供了行动纲领和基本遵循,也为我们重新思考定位新时代公安情报工作提供了前所未有的契机。面对新时代不断变化的新形势和新任务,公安情报部门的定位不能仅停留在“感官”(眼、耳、鼻、舌、身等),还应该勇于成为“公安大脑”。因此,情报部门对于事关国家政治安全、政权安全、社会稳定、地区治安、经济运行、金融安全等各方面的情报信息,不仅仅要敏锐感知,更要综合研判,准确评估当前的态势并预测风险。
传统的情报研判方式正在发生从量到质的转变,经过全量数据编织的情报知识图谱已经蕴含了所有公安工作关注的对象和他们相互之间显性和隐性的关系[8],将现有的结构化数据和非结构化数据(如文本情报)关联打通,相互支持、相互印证,最终实现及时、准确的综合预警势在必行。大数据和文本情报结合的综合预警模式是从大数据统计分析挖掘模型和智能化文本情报处理两条线出发,分别进行各自的情报收集、分析、研判,并在指定的节点上进行比对碰撞,使情况更加全面,使情报不迟不漏。其已经成为新的情报预警工作模式,也必将在辅助决策和服务实战中发挥更加突出的作用。这种系统将由人和计算机组成,而计算机和其中所建立的情报资料库将使情报分析人员变得更加聪明。通过该模式,分析人员可以“在海量数据中发现新情报”[9]。具体流程如下图。
大数据的核心价值在于预测,未来的警务必定是在数据驱动下的智能预测型警务[10]。围绕情报知识图谱建设起来的这套完美的情报系统实质上就是未来公安行业的人工智能,扮演着“公安大脑”的角色。未来每一位民警都将是公安大脑的延伸,或提供信息和反馈输入给大脑,或利用大脑得出分析判断结果采取行动。在这个人机互动的有机体系内,每一位民警都将拥有基于全量数据进行运算的超人思考能力,只要犯罪分子在真实世界留下过丝毫数据的痕迹,民警就可以借助系统轻松掌握其动向,在行动前立于不败之地;对于有预谋的犯罪行为,系统都将提前智能预警,防患于未然,避危于未形。
为了给情报预警工作和情报分析研判提供新的思路和方法,本文提出了基于知识图谱的智能化情报处理工作思路和模式。本文的研究旨在为大数据环境下的情报预警工作更好地发挥作用提供参考和借鉴,可以肯定的是,公安情报知识图谱和智能化处理情报理论与技术是公安信息化改革发展前进道路中的重要基石,是情报研判从“步行时代”迈向“发动机时代”的核心引擎[11],也是目前公安情报系统建设的里程碑式的关键转折点,未来的智慧警务、公安大脑和公安人工智能,都将从这里起步。