朱振华 于晓昀 李超
摘要:针对大量数据表到知识图谱转化时,仅展示有直接关系的数据,无法挖掘关联有间接关系的数据的问题进行研究,基于公安业务场景,阐述了知识图谱搭建的流程,并以知识图谱关系预测的原理为基础,构建了符合公安行业的知识图谱关系信息资源模型,以规则预测+算法预测相结合的方式,提出了关系预测的技术路线,在海量数据中,实现实体的显性关系和隐性关系的深度挖掘和关系拓展。
关键词:知识图谱;公安业务;海量数据;关系预测
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2018)28-0176-03
Research on Prediction Method of Personnel Relationship Based on Knowledge Map
ZHU Zhen-hua, YU Xiao-yun,LI Chao
(The First Research Institute of the Ministry of Public Security of P.R.C, Beijing 100048, China)
Abstract: In view of the problem that a large number of data tables can not be transformed into knowledge map only by displaying directly related data and mining indirectly related data, this paper expounds the process of building knowledge map based on the public security business scenario, and constructs a knowledge map relationship prediction system based on the principle of knowledge map relationship prediction. The relational information resource model of knowledge map is presented. The technical route of relational prediction is put forward by combining rule prediction with algorithm prediction. In large amount of data, the deep mining and relational extension of explicit and implicit relations of entities are realized.
Key words: knowledge map; public security business; massive data; relationship prediction
1 背景
近年随着“人工智能”概念的再度活跃,除了“深度学習”这个炙手可热的名词以外,“知识图谱”无疑也是研究者、工业界心目中的又一颗“银弹”。简单地说,“知识图谱”就是以图形(Graph)的方式来展现“实体”、实体“属性”,以及实体之间的“关系”。知识图谱的主要目标是用来描述真实世界中存在的各种实体和概念,以及它们之间的关联关系。
实体或概念是世界中客观存在的事物,他们之间相互作用、制约,由此形成一定关系。实体或概念可以是名人、城市、球队、电影、地标性建筑、艺术品等;而关系可以是人与人、人与地点、人与物品以及地点与物品之间可能存在关联。例如:实体“《静夜思》”和“李白”之间存在“创作者”关系。利用实体或概念,以及他们之间的关联关系,可以提高搜索精度和优化搜索结果。知识图谱本质上是一种语义网络的演化版本,其结点代表实体(Entity)或者概念(Concept),边代表实体或概念之间的各种语义关系。
目前成为学术界与工业界关注热点的知识图谱的理论基础来自RDF(Resource Description Framework)知识表示模型,但其主要面向大规模实体或概念,及其关联关系的表示和应用问题。2012年5月,Google公司重金收购Metaweb公司,并向外界正式发布其知识图谱(Knowledge Graph)。自此,知识图谱正式走入公众视野。当前的知识图谱表示一般采用图模型,其最基本的表示单元是(主体、谓词、客体)三元组。例如:(达·芬奇、作者、《蒙娜丽莎》)三元组表示达·芬奇是《蒙娜丽莎》的作者。三元组中的主体和客体对应知识图谱中的实体或概念(图中结点),谓词对应关系(图中的边)。除Google之外,微软、百度、搜狗等公司都推出了各自的知识图谱。
2 该文研究内容
该文主要是通过对海量数据的感知、认知,搭建完整的知识体系,在此基础上,阐述知识图谱进行关系预测的基本原理和基本方法,开展基于关系的知识推理和预测分析。以模拟真实世界的人活动关键要素为依据的,构建信息资源模型,将参与的自然人、人通过各种方式社交构成的社交关系及相关联的事件等关键要素,结合相应的算法模型,进行显性关系和隐藏关系的挖掘和预测,并对人员实体关系分析预测进行可视化展示。
3 知识图谱的关系预测方法研究
3.1 知识图谱搭建流程
搭建知识图谱需从多种信息源获取实体或概念,以及他们之间的关联关系。知识图谱构建是否完备关键在于知识抽取引擎的构建,知识抽取细分为实体、属性、关系、事实、事件、分类等识别与抽取。以知识抽取引擎为基础构建知识图谱的流程图如下:
知识图谱的数据源是多源异构的数据体系,包括公安内部数据、其他部委数据、互联网数据等。知识抽取引擎首先需要融合汇聚来自多个来源的异构数据,其中包括数据准备层,实现非结构化数据的结构化标注和数据格式转换,完成多源异构数据的语义融合,汇聚管理异构数据,优化上层访问效率。
在数据平台层,知识抽取引擎主要进行数据采集和数据整合工作。数据采集工作主要内容包括以下几个方面:
1)结构化数据智能抽取:智能化数据抽取是数据深度应用的前提,基于机器学习技术通过大规模自动化智能化对多源数据进行的采集、清洗、归类,并关联所有数据,形成统一数据视图给后续的智能化应用服务。针对RDB、Streaming、Crawler、CSV/Excel/TXT等数据源,支持传统数据转换和机器学习数据转换。
2)非结构化特征提取,使用机器学习等手段提取非结构化数据的特征作为标注;
3)数据格式转换,将不符合预定格式的数据转化为预定格式下的数据。
数据整合工作主要内容包括以下几个方面:
1)模式对应:实现在关系数据库模式层次和非结构化数据在概念层次的匹配对应;
2)实体链接:利用相似性计算、聚类划分等技术,实现在异构数据在实例层次对应;
3)冲突检测:在完成实例对应后,检测是否存在相同实体的相同属性值冲突;
4)冲突消除:利用机器学习、异常点判定、人工干预等手段消除检测到的冲突;
5)数据融汇:汇聚异构数据,优化上层访问效率。
经知识抽取引擎进行数据采集和数据整合工作后,形成数据资源库,包括基础资源库、专题数据库、关联库和全文检索库。为关系预测综合研判提供所需的数据支撑。
在关系抽取层,针对图谱增强的知识化实体理解技术,开展开源辅助信息关联,支撑面向图谱的高效匹配和关联检索应用。实体关系抽取主要关注:实体对之间的关系的预测,实体对特定关系的挖掘,开放式实体关系的抽取。
在知识图谱构建层,包括知识构建、知识更新、知识融合。知识构建主要是基于以上流程将知识收集;知识更新主要解决知识的动态感知和更新问题,用以体现知识的变化对知识图谱中所存储知识的影响;知识融合主要是进行实体识别,即给定不同数据源中的实体,判断其是否指向同一个真实世界实体。知识融合过程中,要准确识别待合并知识与知识库中已有知识相重复或相矛盾的部分,并对冗余知识和矛盾知识采取适当的措施进行处理,以保证知识库中的知识是一致性,无冗余、无矛盾。
3.2 知识图谱关系预测的原理
知识图谱关系预测根据是否和业务相关,主要分为基于规则的预测和基于算法的预测。
1)基于规则的预测: 主要是通过业务本体框架中的相关约束来做相关的推理预测,比如类别预测、属性预测等,通过关系的定义域和值域来推理预测。关系的定义域和值域是固定的,实例具有这种关系,则实例就是定义域或值域规定的类别。
2)基于算法的预测:基于算法的预测可以分为很多种,基于路径的建模、分布式表示学习、基于神经网络、混合推理等,但推理算法获得的结果具有不确定性,不一定等获得完全正确的关系,只是一种预测可能性。比如:通过观察到知识图谱中包含這样的一条路径“梅琳达·盖茨-配偶-比尔·盖茨-主席-微软-总部-西雅图”,推测出梅林达可能居住在西雅图。
知识图谱相关的推理预测算法目前主要分为单步推理(直接关系,没有考虑路径特征)和多步推理(间接关系,考虑路径特征),在单步推理和多步推理中主要包括4个研究方向:基于传统的规则推理、基于分布式表示推理、基于神经网络的推理、基于上述方法的混合推理。
3.3 知识图谱关系信息资源模型设计
基于知识图谱的关系预测的核心是建立符合业务的信息资源模型和算法。信息资源模型的设计是以模拟真实世界的人活动关键要素为依据的。参与的自然人(核心和边缘份子)通过各种社交构成的社交关系,人员个体在相关关键事件(如违法案件、应急突发事件)过程中,在长时空范围的系列活动、重点区域(如案件多发区、重点场所)等都是活动关系构成的几个关键要素,需要在构建模型时重点关注和研究,在业务模型的构建后采用一些图算法来开展关系分析和研判,从而能发现潜在的关系。
首先,在进行研判的过程中,通过对各类数据按照不同业务类别进行数据分析研判,形成不同主题域组织形式的数据模型库。随着研判的不断深入,公安知识库所产生的主题模型也将不断的扩展,在系统建设过程中,实现搭建自然人中心主题模型、社交为中心的主题模型、关键事件为中心的主题模型以及重点区域为中心的主题模型。
第二,基于综合图谱模式的匹配技术:在重要行为记录的事件、组织记录的模式检索中,借助基于关联子结构、子模式的匹配技术,可以构建频繁结构索引,剪枝-确认迭代操作等进行高效的综合匹配检索,以实现突破传统关键字技术的检索模式,支持基于复杂时间,行为轨迹,兴趣聚簇的检索任务,支撑多种上层分析研判应用的开展。
利用综合的多特征场景化实体实现聚簇表示。在多来源和跨时空的公安行业数据获取、感知、融合、去重等处理后,利用知识图谱等辅助信息,优化对数据的表示,提高数据概况、索引设计、数据分发等重要操作的效率,提升知识图谱的语义知识表示能力。
第三,基于分布表示的多源高维数据的快速关联技术:为实现多源异构公安行业数据的动态管理,提升实时响应能力,知识图谱数据层将采用基于分布表示的多源异构数据关联技术。
3.4 关系推理预测的技术路线
基于数据流融合关联和知识图谱关系预测的基本原理,以图结构数据的演化模型为基础,关注以隐含状态转移生成式模型和概率生成图结构推断等为基础的统计建模等技术,分析建模目标的行为规律,甄别周期性和突发异常行为模式。技术路线如图所示:
首先,研究图结构行为演化预测模型:针对公安行业中的行为模式和新场景不断涌现等问题,通过对检查站、旅馆住宿、网吧上网、乘车乘机、出入境等信息的相似性分析、类统计分析、条件过滤分析等,定位工作对象以及疑似工作对象行为轨迹特征,获取与其行为相似的相关人、相关物品等。结合监控数据和多样辅助来源,基于快速哈希映射的序列相似技术,实现对持续追踪任务中的人员行为模式的有效覆盖,进而追踪和识别可疑目标的临近和相似个体。
第二,多目标异常行为预测技术:在初始对象网络图谱结构中,首先基于特定群体影响力最大化模型寻找热点目标源;其次研究已有样本数据对象被感染的情况,假定网络结构不变的情况下,利用连续时间传播模型预测哪些数据对象会在什么时间被感染;最后研究随着时间变化,网络结构发生变化的情况下,有效对网络结构变化进行建模和量化,以实现信息溯源和传播估计的同时,准确描述网络的动态特性和变化趋势,达到抗过拟合特性,解决公安工作中目标稀疏和长期潜伏的挑战。
第三,异常突发行为预测支持技术:构建知识图谱的大数据平台关注实时聚集度是通过对大规模人群、车辆等轨迹趋势的分析实时获取,并对相关事件进行预警。大数据平台留存所有人员的全息电子档案,根据电子档案的多个维度信息挖掘发现其可能涉及公共安全的可能事件及相关的关系人,对可能出现的情况发出预警。大数据平台监控敏感地点活动、关注地点聚集、敏感人群事件等关注事件,依据相关模型对于该事件产生的影响发出预测报警,实时发布预警信息和行动指令。
基于以上技术路线,最终展现给用户的是以图谱可视化的方式进行展示,关系分析预测系统的效果图如下:
图谱可视化展示不仅能够分析人员人之间的关系网络,对人与事件、其他实体之间的分析也可以用户网状结构展示出来,事件和其他实体包括了人员、地址、物品、轨迹、车辆、通讯等各类信息,最终形成一个网状图。针对某一类信息,可以基于特定场景下,通过相应的业务规则和模型,进一步关联分析和关系拓展,通过层层挖掘,最终形成一个包含显性关系和隐藏关系的关系网络图。
4 结束语
該文针对大量数据表到知识图谱转化时,仅展示有直接关系的数据,无法挖掘关联有间接关系的数据的问题进行研究,基于公安业务场景,阐述了知识图谱搭建的流程,并以知识图谱关系预测的原理为基础,构建了符合公安行业的知识图谱关系信息资源模型,以规则预测+算法预测相结合的方式,提出了关系推理预测的技术路线,在海量数据中,实现实体的显性关系和隐性关系的深度挖掘和关系拓展,以可视化的方式展示给用户,便于用户研判分析。下一步,将继续与公安业务相结合,优化关系推理算法模型,引入知识交互,为业务人员提供便捷的应用支持,结合用户的业务经验,提高关系分析预测可视化数据特征分析和交互能力。
参考文献:
[1] 江浏祎. 基于图的关系推理算法研究与实现[D]. 成都: 电子科技大学, 2017.
[2] 刘峤,韩明皓,杨晓慧, 等. 基于表示学习和语义要素感知的关系推理算法[J]. 计算机研究与发展, 2017, 54(8): 1682-1692.
[3] 郭坤铭. 基于异构网络的关系推理及预测方法研究[D]. 太原: 太原理工大学, 2017.
[4] 漆桂林, 高桓, 吴天星. 知识图谱研究进展[J]. 情报工程, 2017, 3(1): 4-25.
[5] 邵蓥侠, 冯是聪. 社交网络分析在公共安全领域的应用[J]. 大数据, 2017, 3(2): 38-44.
[6] 郭琳, 翟社平, 高山. 知识图谱中的语义推理算法[J]. 计算机与现代化, 2017(12): 71-76.
【通联编辑:谢媛媛】