乔钢柱,冯婷婷,张国晨
1(太原科技大学 计算机科学与技术学院,太原 030024)
2(中北大学 大数据学院,太原 030024)
随着各地智慧检务办案辅助系统[1]的研发,部分地区检察机关各业务部门已经实现了网上办公,各类案件的办理效率得到了大幅提升,由此产生的案件信息也由纸质档案变成了数字信息存储在计算机当中.如何借助信息科学与技术对盗窃案件理论和知识体系进行整理和分析,对盗窃案件法律文书中的隐式关系、深层关系进行挖掘、推理,实现智能推荐,帮助检察官更好的办案是值得探索的一个问题.随着互联网时代的到来,大规模开放性应用需要全新的知识表示,谷歌知识图谱诞生此后引入了知识图谱的概念.知识图谱本质上是一个大规模的语义网络,充满丰富的实体,概念及其之间的各种语义关系.在此背景下,引入知识图谱解决盗窃案件法律文书在知识表达、共享和应用方面的问题[2],为检察官办案提供更好的帮助也受到了检察机关的重视.
本文将本体概念引入到盗窃案件法律文书的研究中来,旨在与知识图谱相结合,研究实现基于盗窃案件法律文书本体的知识图谱构建技术,分析已有基于jena 的推理方法,并在此基础上探索盗窃案件法律文书知识图谱在类案推送、深层关系发现中的应用.
本体首先是在哲学上提出来的,简单来说就是一种概念,如动物这个抽象概念集合,它是一种抽象集合用来表达世界上的具体的、实际的物体,而在人工智能领域主要将本体运用在知识表达上,本体是一个格式规范的、域概念的描述[3].本体可以分为领域本体和上层本体,领域本体模拟特定领域,上层本体是指由普通对象组成的模型,这些对象普遍适用于各种领域本体.
知识图谱是一种大规模语义网络,富含实体、概念、属性、关系等信息.知识图谱的诞生标志是2012年Google 收购Metawebg 公司,并正式发布知识图谱.知识图谱由节点-实体、节点概念,节点值和边缘组成[4].概念是存在的基本规范,边则表示关系,侧重实体之间的关系.知识图谱可以分为领域(行业)知识图谱和企业知识图谱,领域知识图谱聚焦于特定领域或者行业的知识图谱,企业知识图谱是贯穿企业各业务部门的知识图谱.
构建基于本体的知识图谱的目的决定了它的应用领域和功能,因此构建的本体需要具备推理功能.知识推理的其中一个目标就是通过给定的知识获取隐性的知识.推理有很多方面的应用,一方面,针对知识库的建立人员,推理用来检测冲突和优化表达;另一方面,作为知识库的使用人员,推理的主要作用是获得知识库中的知识并且运用这些知识解决问题.由惠普实验室研发的jena 提供了用于检索过程推理的基于规则的推理子系统,jena 提供的推理机通过本体的内置属性,可以满足一般的查询需求.例如,查询张三盗窃案相关法律文书信息,推理子系统就会将张三盗窃案件法律文书相关的案件基本信息,犯罪嫌疑人信息,量刑信息等属性实体进行查询显示,具体示例如图1所示.
图1 盗窃案件法律文书一般查询举例图
但是在实际应用中,只有这些内建规则形成的推理是不够的,例如,用户想要通过查询获取与当前案件具有相似量刑情节的案件,通过内建规则是无法实现的,除非人工定义这层推理关系.在推理机中,本体中类之间的相互关系需要明确定义,目前本体的自动构建技术尚不成熟,在人工定义复杂关系时,往往由于疏忽而导致数据不完整.针对这种情况,在盗窃案件法律文书知识图谱[5]的构建中,通过自定义推理机,构造自定义推理规则,从而实现类案推送,将具有相似量刑的案件进行推送,挖掘不同案件量刑之间隐藏的关系.
本文盗窃案件法律文书本体是在检察机关专家的参与指导下,以《刑事法律文书制作指南与范例》、《量刑指导建议书》等为主要知识源[6],并结合盗窃案件法律文书术语标准等,使用OWL 语言作为本体描述语言,使用protege 为本体构建工具,由于盗窃案件法律文书内容侧重案件基本信息,嫌疑人基本情况,相关证据,量刑等方面,因此本体构建主要围绕这几方面内容展开.
该本体以盗窃案件犯罪构成要素为指导,以法律文书内容为中心,包括嫌疑人、时间、案件物品、犯罪行为、空间、证据材料、量刑这七个部分.这七大部分构成一个有机整体,关系密切.其中时间包括作案时间和销赃时间,物品包括侵害物、带离物、犯罪产生物、犯罪使用物、遗留物、销赃物等概念,犯罪行为包括作案手段和作案方式,空间包括作案地点、犯罪预备地、藏匿地点、销赃地点,时间、空间、物品,犯罪行为与嫌疑人有着密切关系,证据材料包括扣押发还物品清单、抓获到案经过、指认现场照片、犯罪嫌疑人供述、现场勘验笔录、痕迹鉴定、盗窃价值、被害人陈述、视听资料、证人证言、辨认笔录,量刑包括数据标准、量刑建议、量刑情节,证据材料与量刑贯穿于盗窃案件审理的整个过程.构建完成的盗窃案件法律文书本体库包括三百多个实体,三十多个盗窃案件法律文书案例.
盗窃案件法律文书理论本体的概念层次关系结构如图2所示,使用protege 中的OWL Viz 工具进行展示.盗窃案件法律文书理论本体的语义关系包括概念
之间通用的语义关系和概念之间自定义语义关系.概念之间的自定义语义关系指的是除了通用语义关系外,自定义的概念之间的语义关系[7],本文抽取的自定义语义 关系如表1所示.
图2 盗窃案件法律文书部分本体层次关系图
表1 自定义语义关系表
本文根据研究以及实际应用的需求,在传统的七步法本体模型构建方法上进行改进,提出了盗窃案件法律文书本体模型的构建方法.根据盗窃案件法律文件领域的信息获取特点,首先收集盗窃案件法律文件的相关信息,然后进行术语提取和本体建模.最后,本体不断迭代演化,直到最终获得相对完美的本体[8].具体实施步骤:1)明确需要构建本体的领域和构建该本体的目的.2)领域信息采集与分析.3)定义盗窃案件法律文书本体概念,定义概念的结构层次.4)定义盗窃案件法律文书概念对象属性和数据属性以及相关属性值的约束.5) 本体编码.6) 本体评估.7) 本体实例化.8)迭代、进化.对应的盗窃案件法律文书本体模型构建过程如图3所示.
3.2.1 本体与知识图谱映射机制
构建基于本体的盗窃案件法律文书知识图谱,首先要明确本体与知识图谱之间的映射匹配原理.本体是关于共享概念的一致惯例.层次结构是最简单的本体形式,可用于详细描述类和它们之间的包含.而知识图谱是由真实世界中存在的各种实体、概念及其关系组成的一张巨大的语义网络图,概念及概念之间的层次结构用树来表示,概念节点可以作为树的节点,把概念、实例之间的继承关系用线连接,实体与实体之间的层次结构用图来表示,实体节点可以作为图的节点,实体与实体之间的语义关系用线连接表示.因此本体与知识图谱的映射原理是树与树的映射、树与图的映射[9,10].盗窃案件法律文书本体与知识图谱的匹配映射原理如图4所示.
图3 盗窃案件法律文书本体构建过程图
图4 盗窃案件法律文书本体与知识图谱映射原理图
3.2.2 盗窃案件法律文书知识图谱构建
根据映射匹配机制,构建盗窃案件法律文书知识图谱,首先应明确数据来源,本文数据来源主要有两方面,一是检察机关提供的《刑事法律文书制作指南与范例》、《量刑指导建议书》,二是结构化数据库中提供的法律文书案例数据.在上一小节盗窃案件法律文书本体模型的构建基础上,设立知识节点,进行知识存储,盗窃案件本体构建完毕后,对采集来的盗窃案件法律文书信息进行了本体实例化操作,实例化完成后的文档的示例和原始本体概念是盗窃案件法律文件知识图谱中的知识节点.使用OWL 本体描述语言对本体相关概念、实例以及相互之间关系进行描述,并将其存储在OWL 本体文件和My SQL 数据库中.然后执行知
识链接,并通过OWL 和URL(统一资源定位符)实现盗窃案例法律文书的知识图谱中的知识链接.OWL 语言具有很强的描述能力,可以描述知识,上下关系和相关关系之间的关系等.知识的位置通过基于OWL 的资源定位器URI 实现,该URI 可以描述知识存储的位置.所有内容都表示为由URI 标识的资源,每个资源都具有属性和相应的属性值.每个资源还能和其它资源有关系[11].因此,利用URI 来充当桥梁作用,将孤立的知识节点关联起来,形成一张巨大的知识网络图.该知识图谱采取自底向上的构建方法,将底层数据库、非结构化数据进行融合、抽取关键信息,从而构建盗窃案件法律文书知识图谱.至此,盗窃案件法律文书知识图谱基本搭建完成,该知识图谱构建过程如图5所示.
图5 知识图谱构建过程图
该盗窃案件法律文书知识图谱是在本体架构上实现的,因此基于本体的知识图谱智能推理是知识图谱的一个关键应用,本文基于本体的知识图谱智能推理是在jena 的基础上实现的,jena 是由惠普实验室开发的知识图谱管理系统,现已由Apache 管理[12].构建盗窃案件法律文书自定义推理规则,研究实现实体查询、相似量刑类案推送以及证据审查等智能推理应用.
基于构建的盗窃案件法律文书知识图谱,在protege平台上借助Onto Graf 工具,利用jena 推理机实现在线查询.在jena 中,本体子系统和推理子系统一起在RDF 的基础上构建出语义检索的基本核心架构.通过本体子系统用户可以读取各种结构存储的数据,并可以对本体的类,属性以及实例等元素进行查询等操作和处理以及一致性检查,是实现语义推理的基础.在线查询中的实体查询可以查询到该实体与其他实体之间的语义关系,图6示例展示了嫌疑人张某某的相关犯罪事实、犯罪证据以及他涉及到的与案件相关的一些基本情况的查询结果.
图6 实体查询举例图
知识图谱除了可以进行一些在线查询如针对实体的查询、针对属性的查询、针对关系的查询等,还可以实现离线分析,如基于图结构的分析,基于规则的推理等.目前,推理引擎广泛用于许多与推理相关的研究中.jena 提供的推理引擎支持本体分析,因此它是本体的推理引擎.因此,本文使用jena 推理机作为推理工具.并充分利用盗窃案件法律文书领域本体丰富的语义关系进行推理,基于构建的知识图谱结合检察官思维在知识检索方面进行智能推理研究.
4.2.1 jena 推理引擎的工作原理
智能推理的核心思想是利用概念及其关联,根据构建的知识地图,从语义层进行相应的推理,面对信息和知识,获得更符合用户需求的搜索结果.本文的推理步骤分为以下几点:首先,根据推理机的原理,构建自定义推理规则;其次,将自定义推理规则添加到自定义规则推理引擎;然后,Model Factory 创建本体模型API,主动查找含有自定义规则的模型对象;最后,对含有自定义规则的Model 对象进行查询操作,实现推理目的.Jena 推理机的工作原理如图7所示.
图7 jena 推理机工作原理图
4.2.2 语义推理自定义规则构造
Jena 提供的内置推理机能够实现基于本体的知识图谱的一些基本推理和一致性的检查,但是在实际应用中,只有这些内置规则实现的推理不能满足用户的实际需求.例如,基于盗窃案件法律文书本体构建的知识图谱中,用户想要知道与当前查询案件有相同量刑情节的案件,经过通用规则推理并不能实现这一功能;或者用户想要知道当前盗窃案件证据审查方面的一些信息,经过内置推理规则也不能实现这一点.因此,我们可以根据需求构造自定义推理规则从而实现用户的查询目的.
用户可以根据需求定制自己的规则,创建特定需求的推理机,以自定义规则作为通用规则的补充和完善,从而满足特定领域实际应用需求.同时为了深度挖掘盗窃案件法律文书信息,编写自定义规则是必要的.基于jena 的规则推理引擎支持前向链,后向链和两种推理模型的混合.也就是说,Jena 提供了两个内部规则引擎:前向链推理RETE 引擎和后向链引擎,它们可以是独立的,或作为后向链引擎的领导者的前向链,合作完成“查询 - 问题 - 答案”[12].
综上所述,根据规则的构造原理,本文自定义规则结构为:一个规则的前提,一个规则的结论,中间加判断条件.本文采用的是前向推理引擎模型,使用的推理机是GenericRuleReasoner.基于盗窃案件法律文书本体的知识图谱的语义自定义查询部分规则如下所示:
Rule1:[同有量刑情节(?a:有量刑情节?c),(?b 有量刑节?c),notEqual(?a,?b)->(?a 同有量刑情节?b)]
Rule2:[时间一致:(?a 时间是?c),(?b 时间是?c),notEqual(?a,?b)->(?a 时间一致?b)]
Rule3:[地点一致:(?a 地点是?c),(?b 地点是?c),notEqual(?a,?b)->(?a 地点一致?b)]
根据自定义推理规则创建对应的推理机过程如下:Resource configuration=model.createResource();
configuration.addProperty(ReasonerVocabulary.PR OPruleMode,"forward");configuration.addProperty(ReasonerVocabulary.PROPruleSet,"../../rules/case.rules");
Reasoner reasoner= GenericRuleReasonerFactory.theInstance().create(configuration);
根据自定义推理引擎创建包含推理关系的数据模型如下所示:
infModel=ModelFactory.createInfModel(reasoner,model);
4.2.3 类案推送实现
自修订后的“刑法”和“刑事诉讼法”实施以来,检察院加大了实施检察机关改革的力度,寻求一种更有利于使检察工作与审判工作密切相关的工作机制,从而进一步加强对检察院的审判监督功能.在这种背景下,公诉量刑建议制度应运而生.而检察机关是否能充分有效的发挥量刑建议权,在庭审方式变革过程中扮演着非常重要的角色.由于检察官办案经验不足,办案过程中对量刑建议给出把握不准确,可能导致办案效率降低.因此,在办案过程中,给办案人员推送具有相似量刑情节的已办案件,供办案人员进行在线参考,无疑会使检察官更快的给出更加公平、准确的量刑建议,提高办案准确率等.本文基于这一特点需求,利用智能推理技术,实现了相似量刑类案推送测试功能.
相似量刑类案推送测试功能是利用上一小节基于知识图谱的自定义推理规则,向用户自动、及时的推送与当前检索案件具有相似量刑情节的案件,并以列表的形式进行展现,点击显示列表项,会跳转到相应的案件详情页.根据检察官思维,在案件检索过程中,希望查看与当前案件具有相似量刑情节的其他案件的量刑结果,通过比较总结量刑建议给出实用经验并得出结论.这一功能的实现,提高了检察官的检索效率[13],根据检察官思维、个性需求,将有用的信息及时挖掘整理推送给检察官,辅助量刑[14].测试案例截图如图8、图9所示.点击类案推送列表中相应案件,在量刑情节部分显示内容有相似量刑情节“自首”属性,验证结论准确.
图8 类案推送测试案例图
图9 类案推送测试案例验证结果截图
本文提出了盗窃案件法律文书的本体构建方法,通过本体与知识图谱映射原理提出了基于盗窃案件法律文书本体的知识图谱构建方法,解决盗窃案件法律文书知识规范化、信息化,并对盗窃案件法律文书知识图谱的智能推理应用进行了探索,基于jena 推理原理在智能推理方面提出了自定义推理规则,实现了盗窃案件法律文书知识图谱在类案推送方面应用的探索,挖掘量刑隐藏数据关系,将具有相似量刑情节的案件准确推送给用户,辅助检察官办案.但是本文使用的本体建模工具不够自动化智能化、并且需要进一步完善和补充盗窃案件法律文书本体库,构建适合检察机关业务需求的知识图谱,由于证据拆解的复杂性,本文对证据方面相关数据深层关系挖掘尚不完备.因此结合最新的人工智能技术,探索自动化构建知识图谱的机制,并且在检察机关相关业务方面,就合理量刑建议的给出、辅助证据审查等方面提供帮助.