邱瑞 朱振华
摘要:通过分析现有的知识图谱技术,结合现有公安业务场景,利用公安海量数据构建基于公安大数据的公安行业知识图谱。通过使用基于图数据库的混合存储技术,从而实现分布式知识图谱混合存储、设计面向公安行业的知识图谱查询语言以及查询方法,实现知识图谱的有效更新和快速查询,最后介绍了知识图谱在公安行业的应用。
关键词:公安大数据;知识图谱;图数据库
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)35-0196-04
Abstract: By analyzing the existing knowledge map technology and combining with the existing public security business scene, the knowledge map of public security Based on the large data of public security is constructed. By using the mixed storage technology Based on graph database, we can realize the mixed storage of distributed knowledge atlas, design the query language and method of knowledge atlas for public security industry, and realize the effective updating and fast query of knowledge atlas. Finally, we introduce the application of knowledge map in public security industry.
Key words: Public Security big data; knowledge map; graph database
1 概述
互联网信息搜索是人们获取信息的重要方式之一。以谷歌为代表的搜索引擎公司利用知识图谱为词语赋予丰富的语义信息,建立与现实世界实体的关系,帮助用户更快找到并理解信息。
随着公共安全案件的复杂性加深,简单的数据检索功能已经无法满足当前的公安业务需求,公安海量数据无法被用户快速解读,且无法被表达为的数字化知识。知识图谱技术的出现为公安大数据环境下的人员分析方法提供了一种有效技术手段。知识图谱可以融合多种数据源丰富数据语义信息,并且可以结合推理得到的隐含信息为用户提供服务。公安大数据的知识图谱在团伙挖掘和案件分析方面结合特定的业务模型将在实战方面有较强的应用优势。
本文将在基于知识图谱的介绍之上,通过对公安行业知识图谱的搭建流程进行了深入的研究,使用基于图数据库的混合存储技术,从而实现分布式知识图谱混合存储、快速查询。最后,介绍了基于知识图谱的公安业务的分析研判应用。
2 知识图谱理论
2.1 知识图谱介绍
知识图谱的最重要的数据来源之一是以维基百科、百度百科为代表的大规模知识库,这些知识库包含了大量结构化的知识,可以高效地转化到知识图谱中。此外,也可以利用互联网的海量知识来构建知识图谱。知识图谱数据来源主要包括:
1) 大规模知识库。大规模知识库以词条作为基本组织单位,词条与现实生活的实体一一对应。维基百科收录超过3300万词条,各大公司和机构还发布了各类大规模知识库,如谷歌收购的Freebase、德国莱比锡大学发起的DBpedia项目、德国马克斯普朗克研究所发起的YAGO项目等均包含超过千万个实体及千亿条关系。此外,还有领域专家整理的领域知识库。
2) 互联网链接数据。国际万维网组织W3C在2007年发起了开放互联数据项目(Linked Open Data,LOD)。LOD以RDF(Resource Description Framework)形式在Web上发布各种开放数据集,RDF利用 (实体1, 关系, 实体2) 的三元组来描述实体间的关系。目前世界各机构已经基于LOD标准发布数千个数据集,包含数千亿RDF三元组。
3) 互联网网页文本数据。研究者致力于从海量的、无结构的互联网抽取结构化信息,如华盛顿大学Oren Etzioni教授提取的“开放信息抽取”(open information extraction,OpenIE)项目,以及卡耐基梅隆大学Tom Mitchell教授主导的“永不停止的语言学习”(never-ending language learning, NELL)项目。
4) 多数据源的知识融合。多维度的数据来源进行知識图谱构建并非孤立进行,同时多来源数据的融合提高抽取知识的可信性。在商用知识图谱构建过程中,需要实现多数据源的知识融合。以谷歌最新发布的Knowledge Vault (Dong, et al. 2014) 技术为例,其知识图谱的数据来源包括了文本、DOM 树、HTML、RDF数据等信息来源。知识融合主要包括实体融合、关系融合和实例融合。现实中的实体往往有多个名称,我们需要将这些不同名称规约到同一个实体下,在这样多对多对应关系中,研究实体融合是非常重要的攻克技术难点。
2.2 知识图谱的主要技术
公安行业的大规模知识图谱的构建与应用需要多种智能信息处理技术的支持,其中主要技术包括。
1) 实体链指(Entity Linking),我们将实体和实体的背景介绍相互关联的这种做法就是建立了链接关系,因而也被称为实体链指。实体链指的主要任务包括实体识别(Entity Recognition)与实体消歧(Entity Disambiguation)。实体识别旨在从文本中发现实体,最常见的是包括人名、地名、机构名等三类实体,实体链接可以在文本、图像、社交媒体等数据与实体之间进行关联。实体消歧是指利用实体名称存在的上下文,分析实体出现在该位置的概率大小。
2) 关系抽取(Relation Extraction),实体关系抽取是构建知识图谱最重要的数据来源方式之一。常见的信息抽取方法采用“自举”思想,通过对“模板生成实例抽取”的流程不断进行迭代直至收敛。我们还可以将所有关系看作分类标签,把关系抽取转换为对实体对的关系分类问题。关系抽取作为知识图谱构建的核心技术,影响着知识图谱的知识数量、质量。关系抽取是知识图谱领域中的热点问题,有很多挑战性问题亟须解决。
3) 知识推理(Knowledge Reasoning),推理能力是人类智能的重要特征,能够从已有知识中发现隐含知识。推理往往需要相关规则的支持,如从“配偶”+“女性”推理出“妻子”。知识推理可以用于发现实体间新的关系。如根据“母亲+母亲=>外祖母”的推理规则,如果两实体间存在“母亲+母亲”的关系模型,判断它们存在类型“外祖母”的关系。
4) 知识表示(Knowledge Representation) ,在计算机中如何对知识图谱进行表示与存储,是知识图谱构建与应用的重要课题。如“知识图谱”字面所表示的含义,人们往往将知识图谱作为复杂网络进行存储,网络的每个节点带有实体标签,而每条边带有关系标签。基于这种网络的表示方案,知识图谱的相关应用任务往往需要借助于图算法来完成。
3 公安知识图谱
公安部门沉淀了海量结构化和非结构化的数据,包括了案件数据、轨迹类数据、基础类、背景类数据以及其他类数据,积累了如110接处警、案件笔录数据等高价值非结构化数据。目前公安部门将“知识图谱技术”纳入公安机关发展规划,已开始尝试引入“知识图谱”解决业务系统预测预警的问题。
公安部门可以利用知识图谱技术,围绕文本挖掘和快速检索、高维可视、数据预测等新需求,打造一个具有数据分析处理、数据挖掘能力的基于知识图谱的人员关系分析服务平台。
3.1 公安知识图谱的搭建流程
对于公安业务数据量持续增大和数据源种类增多的挑战,本文提出了公安业务任务驱动的知识图标识、管理技术。用来支撑公安行业数据的管理和维护,实现公安数据的高效检索、数据挖掘任务,同时,构建属于公安大数据相关的知识图谱库,开展公安行业的多源异构的数据关联,支撑面向图谱的高效匹配和关联检索应用。
公安行业的知识图谱的搭建流程应考虑四点:
第一,公安行业的多源异构数据组织形式。通过数据采集系统,平台可汇集公安多警种、社会信息、政府其他委办局等多源数据,数据平台围绕以“人、地、物、事、组织”中心的基础信息和“吃、住、衣、行、网、像”等为中心的活动轨迹,整合出系統所需的基础信息库、主题信息库、轨迹信息库、人员关系库等各类数据资源库,为公安业务的分析研判提供了数据支撑。
第二,公安业务知识图谱数据关联推断技术。为了解决多源异构公安数据的不一致、不完整等问题,本文通过知识图谱的构建技术,提升多源异构数据知识表示、推理与数据挖掘能力。针对图谱增强的知识化实体理解技术,开展多源辅助信息关联,支持面向公安知识图谱的高效检索、匹配应用技术。
第三,公安业务数据的有效组织技术:主要研究抽象语义的关联、数据源属性分类和识别,实现在公安警务人员紧缺的情况下的公安数据的增量拓展,实现对多源数据的标记、解读、预测预警等预处理。公安业务实体关系主要包括:预测实体对之间的关系,挖掘特定关系的实体对,开放式实体关系抽取。
第四,知识图谱构建技术:知识获取方面。知识图谱构建需从多种信息源获取实体或概念,以及他们之间的关联关系。知识抽取细分为实体、属性、关系、分类等识别与抽取。知识更新主要解决知识的更新问题,用以体现知识的变化对知识图谱中所存储知识的影响。知识融合主要是进行实体识别,即给定不同数据源中的实体,判断其是否指向同一个真实世界实体。知识融合过程中,要准确识别待合并知识与知识库中已有知识相重复或相矛盾的部分,采取适当的措施进行处理,以保证知识库中的知识是一致性。
3.2 图数据库设计原理
相对于关系数据库来说,图形数据库善于处理大量复杂、互连接、低结构化的数据。当数据规模大到一定程度时,如何对其进行高效计算即成为迫切需要解决的问题。对于大规模图数据,如支付宝的好友关系已经形成超过1800亿节点和4400亿边的巨型图,传统的单机处理方式已经无法处理如此庞大的数据量,必须采用由大规模机器集群构成的并行图数据库。
在处理图数据时,其内部存储结构往往采用邻接矩阵或邻接表的方式,在大规模并行图数据库场景下,邻接表的方式更加常用,大部分图数据库和处理框架都采用了这一存储结构。常见的图数据库包括Neo4J、FlockDB、InfoGrid、AllegroGraph等图数据库,这类数据库非常适合用于社交网络。
为了更有效地解决大规模图上的计算问题,需要设计扩展性较好的图数据库。为达到反应实社会关系的,基于公安业务构建的图数据库中的数据规模很可能在千亿、万亿乃至更多记录级别以上,而在这样规模的图数据上进行计算,现有的计算引擎或数据处理架构面临以下难题。
普遍流行的大都是以离线批处理计算框架和内存迭代式计算引擎为代表的大数据计算框架。以MapReduce为主的离线批量计算框架和以Spark为主的内存迭代式技术框架各自有着不同的特点和应用场景。越来越大的数据量给离线批量处理带来了极大的计算资源的消耗,并且消耗了更多的能源成本,而内存迭代式计算引擎需要更高配置的机器,消耗更多的机器内存,极可能导致内存溢出而使得计算任务失败。
原生图存储技术是专为业务系统的性能和扩展性设计搭建的。其优点是在遍历查询时性能优势很大,但查询快的代价是一些非遍历类查询会比较困难,而且还要占用巨大的内存。为了提高对大量数据的计算速度,并减少分析计算时间,在已有计算引擎的基础上,本文结合了图计算、图挖掘、图分析的先进技术,重构并实现了更高效的图数据存储框架。新的数据库框架要能够对计算的中间结果进行保存,只对增量数据进行计算,以便降低资源和能源消耗,加速分析结果的产出。
3.3 基于公安知识库的业务模型
基于公安知识图谱的推理和研判是警务人员在研判业务模型的研究重点。知识图谱中的关系模型的设计是以人的真实活动为依据的。参与活动的主体通过各种社交构成的社交网络关系。大范围、长时空的系列活动、重点区域等都是犯罪活动的几个关键要素,需要在构建模型时重点关注和研究,在实际分析业务模型的构建后,通常采用一些图算法来开展人员关系的关系分析和研判,进而发现潜在的关系。
首先,按照不同业务模型,警务人员把汇集的各类型数据进行数据分类处理,形成基于不同数据类别的业务主题域模型库。随着异构数据的增加及业务研判模型的不断拓展,公安知识库的主题模型也将不断增加。业务系统初期建设过程中,公安知识库形成了以自然人、地域、物品、案事件、重点组织为中心的五大类主题模型。
其次,采用综合图谱模式匹配技术,在违法犯罪行为记录的事件、组织记录的模式检索中,借助基于关联子结构、子模式的匹配技术,可以构建频繁结构索引,以实现突破传统关键词技术的检索模式,支持基于复杂时间、行为轨迹、人员背景的检索任务,支撑多种公安研判业务的开展。在多维度、大范围的公安数据获取、融合、去重等处理后,利用知识图谱技术,优化公安数据的表示,提高公安数据概况、索引设计、数据分发等重要操作的效率,提升知识图谱的语义知识表示能力。
最后,为实现多源异构公安各类数据的动态管理,提升实时响应能力,要采用多维异构数据源的快速关联技术。通过多源异构数据的关联技术,对公安大数据进行扩展延伸、关系抽取、关系重建,进而扩展公安知识图谱。
4 公安知识图谱技术应用
利用知识图谱技术,通过强大的检索引擎技术,围绕人员关系分析、快速检索、多维可视、大数据预测等新需求,打造一个具有数据分析处理、数据挖掘能力的基于知识图谱的人员关系分析服务平台,在以下几个方面,实现公安大数据价值的挖掘与利用,满足用户的自定义业务需求。
4.1 人物关系梳理
公安警务人员通过将危害公共安全事件、案件笔录等文本数据导入程序中,然后利用知识图谱技术对涉案的人物关系进行梳理,快速整理并绘制出直观的人物关系图谱。另一方面,可以对同种类型的案件不同人员的笔录进行串联案件分析,从而获取更加直观的人物关系图谱,辅助发现隐含的人员背景关系。还可以通过自然语言描述的方式录入人物之间直观的人员关系,如“小王的母亲是王大娘,王大娘与张姐是老乡”,在人员关系描述性的文字录入以后,基于公安大数据的知识图谱会生成与之相对应的人物关系图。
4.2 挖掘潜在关系人
通过知识图谱对短信、微信、QQ数据等网络社交数据分析,挖掘出违法犯罪人员的关系人情况,并形成相应的人物关系图,进而发掘潜在的违法犯罪关系人。公安人员通过对公安多维度数据的分析,能够开阔公安案件分析的视角,进而挖掘出危害公共安全的潜在线索,如某部门利用知识图谱技术通过对某网络违法人员分析进行分析,将某网络违法人员的生活关系人纳入监控中,從而挖掘出更为完整的关系人员图谱,甚至发现潜在的违法关系人。
4.3 案件分类及分析
利用知识图谱中的文本大数据分析、语义深度学习技术,通过分析案情文本的特征,系统能够实现根据案件内容自动分类的功能。如将公安案件数据导入程序,程序会自动将案件进行分类。在经过对案件分类细化的基础上,可以实现对案情趋势的监控,短时间提高对案件的掌控能力。同时,利用知识图谱技术对案情描述、笔录记录等文本信息进行分析,提炼多种案件的作案手法、手段等特征,并据此达到对不同类型案件串并分析的能力。
4.4 特定群体发现
在搭建公安知识图谱的基础上,纳入公安多方面多维度的数据资源,消除公安不同部门之间的数据壁垒,打通公安各警种数据交换通道。利用知识图谱推理分析技术,能够从大量的文本数据中分析、推理出特定的关注群体,如聚众上访、乡村留守等群体,分析出更有价值的信息,帮助公安办案提供更有价值的线索。
4.5 人物特性分析
利用知识图谱可以对特定人物进行人员背景分析,首先是针对不明身份人员,通过人员的网络数据分析,获取该人性别、年龄、经济情况等人员背景信息,并逐步缩小确认人员身份的工作范围;再次,针对已知人员,通常公安大数据的知识图谱技术分析该人的网络数据和公安数据,进而分析并预测该人的家庭情况、社交关系、隐藏关系人情况、活动特征等特性。
4.6 热点舆情发现
公安警务人员利用公安知识图谱技术,通过对互联网舆情数据、高访数据分析挖掘,及时获取当前大众舆论信息、群众热点信息,并将预测结果推送至手持警务终端设备,让警务人员对大众热点进行重点监控,排查治安安全隐患,降低违法犯罪事件的发生,保障人民生命和财产的安全。
5 结论
研究表明,基于公安大数据的知识图谱技术能够提升公安业务的处理能力。知识图谱数据库是机器大脑中的知识库、人工智能发展的基础设施,使用基于图数据库的混合存储技术实现大规模知识图谱的数据存储和查询计算系统,能够直观展示数据间的直接、间接关联。知识图谱数据库的多维度图谱存储、多元化检索,更易于上层系统实现复杂的公安业务模型及人员关系的研判推理。
知识图谱技术在公共安全方面的实用价值主要体现在以下三点:
1) 知识图谱重构公安大数据资源,提升了公安大数据价值。通过对公安现有数据的分类结构,按照人物、地点、时间、案件(事件)、物件、机构等几个公安开展业务的核心要素,重构公安大数据资源体系,构建核心要素之间的关联网络,使已有数据的发挥更大价值。
2) 帮助警察破案,提高办事效率,降低时间和人力成本。公安大数据知识图谱技术能够帮助公安业务人员分析案事件信息,提取涉案的相关人物关系,分析并绘制相关人物的关系图谱,帮助公安警务人员理清案件的前因后果,发现案件的关键线索,提高案件侦破的效率。
3) 可以优化警力的配置,降低案发数量。公安大数据知识图谱技术,能够展示警情发生的时间和地理空间的分布规律,利用“热点识别模型”能够快速识别出近几天以来,警情案件突然高发的关键地点和时间区段,指导公安机关优化警力调配,为企业、社区和居民营造良好的周边环境。
参考文献:
[1] 郝久月, 樊志英, 汪宁,等. 基于知识图谱的警用安保机器人大数据分析技术研究[J]. 警察技术, 2018(3):17-19.
[2] 李栋科. 基于大数据的智慧公安系统研究与应用[J].网络与信息安全学报,2016,2(12),:63-68.
[3] 漆桂林,高桓,吴天星. 知识图谱研究进展[J].情报工程,2017,3(1):4-25.
[4] 郭琳,翟社平,高山. 知识图谱中的语义推理算法[J].计算机与现代化,2017(12):71-76.
[通联编辑:唐一东]