赵晋斌, 王 凯, 李 盼
(1. 中国人民解放军61646部队, 北京 100191;2. 中经柏诚科技(北京)有限责任公司, 北京 100000;3. 中国司法大数据研究院有限公司,北京 100043)
新时期,人民群众对法制的认识大大提高,对司法部门要求具有多样性。对知识的全面性、沟通的距离感和互动的时效性提出了新的要求。为公众提供便捷的诉讼服务是“智慧法院”建设的核心,是“公平司法”的逻辑起点,是“司法为民”的重要窗口。因此,推进便民惠民能力智能化,是司法系统智能化、人民检察院司法部门智能化的主要要求。
此外,随着社会发展和法制建设的发展人民法庭审理的案件在缓慢逐增,但是“多案少案”的差异日益突出,传统的案件审理方式早已不能适应当今社会的要求。人工智能技术、互联网大数据等技术应用的发展,使人民法院能够以高纵横比信息化管理的形式,为司法审判、诉讼服务和司法部门提供支持和帮助[1]。现阶段,自然语言理解解决方案[2]、知识图谱[3]等AI人工智能技术[4]应用的发展,为证据链的自动逻辑推理提供了突破口[5]。从各种司法证据来源和证据性质出发[6],形成一个可信的证据链,能够有效地减少司法工作人员的任务量,进一步提高办案效率,同时基于数据分析得出的可信证据链条也避免了司法人员在案件审理过程中的情感色彩和主观偏好。
本文基于规则推理和贝叶斯网络算法的多方证据关联分析方法,可以对司法数据进行高效分类和处理,对其有效信息进行快速提取,不仅可以有效节约法院诉讼服务的人力和空间资源,还可以随时为公众提供简单、安全、智能、高效的诉讼情报服务,从而提供全面的诉讼决策指导,合理分流诉讼准备阶段不必要的诉讼请求,大大提高公众对法院诉讼服务的满意度和法院公信力。
目前,部分研究机构、公司在多方证据分析和诉讼风险分析方面进行了较为深入的研究,并取得了重要技术突破。文本分类的研究始于国外,根据已有的相关历史资料,从20世纪的中期—20世纪的80年代,这一时期正是国外关于文本分类的早期发展阶段,国际商用机器公司的卢恩[7]提出了单词频率统计的概念,并从《ACM》杂志上发表第一篇关于贝叶斯公式的文本分类应用文章Maron[8-9];关于方法向量空间模型[10],Salton提出了经典的文本分类方法,此方法目前被国内外研究学者普遍应用。我国对文本分类的研究发展起步时间较晚,始于20世纪80年代,轰动一时[11]。国内研究学者提出了一个关于文本分类的研究报告,将计算机与文本分类相结合,将国内文本分类的计算机统计分析方法研究逐步推广应用。因此,国内多所高校进而开始研究文本分类的计算机数据应用,如南京大学开发设计的CTDCS系统[12],在英文文本分类的数据预处理中,不需要对分词进行处理,只需对空格进行处理,相比于英文文本分类,中文文本分类中的分词处理复杂,基于此,关于知识学习的非智能化实现有待于进一步开发设计。由于将知识学习的计算机数据处理能力通过相关文本分类算法实现,将消耗大量的人力和物力,因此,许多研发人员将精力放在了基于机器学习的智能文本分类[13-14],该方法不仅省时省力,而且大大提高了分类精度,成为迄今为止最受欢迎的分类模型。经典的机器学习算法包括:支持向量机[15]、k-最近邻[16]、朴素贝叶斯[17]、决策树[18]、最大熵模型[19]、Logistic回归[20]等。其中,k-近邻、决策树、支持向量机和朴素贝叶斯在文本分类领域应用广泛,但这些算法各有优缺点。k-最近邻算法分类法精度高,但对异常值的精确查找有限,以及对各个文本中的训练、测试样本的距离难以控制,易发生维数方面的问题;决策树有助于科研工作者的理解与分析,但对数据的敏感有些高,且对文本中的连续字段预测精度有限;支持向量机算法具有较高的分类精度和灵活性,但对异常值不敏感,计算复杂度较高,执行效率有待提高。综合所述,朴素贝叶斯的算法不仅效率高,而且很简朴,概率表达能力强,同时对于文本分类中相关属性独立性的假设合理且有效,相应的管理预期满足客户对文本的需求[21-23]。将其应用于文本分类对分类管理有很好的期望。本文采用这种方法对司法数据进行制度化、标记化处理,以获取有效的证据信息,提高案件处理速度。
在实际研究过程中,针对海量文本数据对象,首先对数据对象质量置信度进行考核,对文本数据集进行结构化以及类别标签化处理,得到数据对象多要素信息判定链,同时,对数据进行集中的去噪,提取有效信息并进行分类,获得数据元库;然后,通过多因素信息决策链与数据源构建多因素信息网络,在这个网络中,每个节点代表一条信息,边代表信息之间的相关概率,借助贝叶斯网络的先验知识,建立信息之间的关联约束关系,实现基于多因素信息关联条件的概率计算,通过将元素中的信息与规则库中的规则进行匹配,形成多元素信息融合的关联模型,同时,利用遗传算法对数据要素群体进行交叉组合,得到全部可能的信息链组合,实现模型优化和推理过程;最后,根据每一条信息链条的概率值,选择其中概率值最大的信息链作为最有价值的信息链,由此,得到本文基于规则推理和贝叶斯网络算法的多方证据关联分析模型。司法领域多方证据关联模型构建框架,如图1所示。
图1 司法领域多方证据关联分析模型构建框架
基于多要素融合的关联概率分析模型中,要素相关概率计算过程基于最大共现概率以及最大熵原理,自动学习不同要素之间的相关性,计算多要素信息的转移权重,其中,要素A对要素B的转移概率公式可简单表示为P(A→B) =P(B|A),由此,可以得到所有要素间的状态转移概率,并且以状态转移矩阵记录。在模型中,将不同要素在数据中的转移概率看作是贝叶斯网络中连接的权重。
本文以司法领域案件证据链的获得过程来进一步说明基于多要素融合的关联概率分析模型的具体构建过程,在司法领域中,以基于多要素融合的关联概率分析模型中的要素为案件证据,我们将该模型叫做多方证据关联模型。针对司法领大数据:
1)首先基于海量诉讼材料,裁判文书,以及双方质证情况及开庭双方答辩的案件卷宗,对历史案件置信度考核,并对文书进行结构化处理,相关案件的证据分类标签化处理,得到多案由、多类型的事实判定链,同时,对当事人诉讼资料有效信息进行去噪、抽取归类处理,最终获得证据要素库。
2)通过事实判定链和证据来源等各个要素信息构建多方证据网络,在该网络中,每个节点表示一个证据,边表示证据之间的相关概率,通过贝叶斯网络确立证据间的关联约束关系,得到基于多方证据关联条件的概率,对证据要素中的信息与法律知识规则库中的条目进行匹配,形成多方证据融合的关联图。
3)利用遗传网络对证据要素群体进行交叉组合,得到全部可能的证据链组合,最终实现多方证据关联模型优化,并得到最优证据链条。
多方证据关联模型及推理:贝叶斯证据网络主要用于多方多类的弱证据推理,试图从多类、多个互相印证或者互相矛盾的证据中,寻求最可信,最有说服力的证据链条,期望通过多个弱证据组合出可信证据链,发挥有力证据的作用,基于具有多证据和证据转移概率的多证据关联模型,用遗传算法推理多证据关联网络,计算所有可能的证据链组合,根据每个证据链的概率值,选择概率最高的链作为最可信的证据链。原理如图2所示。
图2 证据链推理过程
多方证据关联系统模型算法步骤为:1)构建多方证据关联分析模型;2)构建法律知识规则库;3)将法律、法规、裁判文书、电子文件等进行标准化、格式化后,形成判断证据要素、判断证据整体、判断证据之间关系的事实判断节点;4)将多个节点串联成链,这些判断链的集合构成法律知识规则库,其中,部分开发重点关注法规矢量化和K-MEANS的无监督算法。
Word2Vec包括两个浅层神经网络模型,一个是CBOW模型,另一个是Skip-Gram模型,一般来说,这两种浅层神经网络模型利用上下文来预测当前单词出现的概率与当前单词上下文中其他单词出现的概率,从而获得相应的语义特征,词向量法不仅可以根据用户需求确定限定词向量的维数,还可以获取上下文的语义信息,两个相似或者相近的词之间的余弦相似度将特别小,从而达到理解句意的效果。具体如图3所示。
图3 词向量模型
K-Means无监督聚类模型对法律法规进行聚类处理,K-Means中最重要的一步就是聚类促的选择,即分几个类,在目前阶段的输入主要是两种案由的法律,采用手肘法对样本中的误差及SSE进行计算,确定使用分类的簇,图4为目前对两个案由的电子证据采用手肘法计算获得的结果,SSE的计算方法为
图4 法律法规聚类处理
式中:Ci为第i个簇,即第i个类;mi为Ci的质心。根据上述方法确定簇的个数及可生成一个K-Means模型,将电子证据及案由生成相应的法律知识规则库。
为验证本文所讨论的各个模型在多维证据关联关系分析任务中在测试数据集上的表现,采用精确率P、召回率R与F1值对实验结果进行评价,对应的计算公式为
本文采用司法领域数据,验证基于多要素融合的关联概率分析模型的有效性。试验中所用数据集是通过裁判文书网爬取的真实数据集,以及通过司法机关获取的脱敏司法数据,对其中借贷类、道路交通类和刑事类三类案件各5 000例数据进行实验分析,总计15 000例。首先,由司法业务专家对这三类案件标注诉讼案件的证据链条;然后,通过这些标注的证据数据检测基于多要素融合的关联概率分析模型的实验结果。
在实验过程中,证据元素的提取主要是针对文本数据的识别和信息的提取,通过自然语言提取技术,从获得的数据中快速提取出明文数据信息,去除特殊的控制信息,通过消除语义噪声,利用触发词从文本中过滤出相关句子,提取关键信息并根据匹配模式识别证据元素。在识别和提取证据元素的过程中,首先,手动建立证据元素模板;然后,基于模板,通过程序自动提取证据元素;最后,根据数据中当事人的诉讼材料,形成结构化的证据要素,这些证据实体是多方证据关联模型中的基本元素。具体如图5所示。
图5 结构化证据要素抽取过程
从数据集中人工筛选出借贷类案件用于实验分析。首先,由司法业务专家给每例案件标注3大类维度特征并将其量化;随后,两组专家交叉校验对方标注的证据特征,这些标注的证据特征可以作为真实值来检测多方证据关联模型的效果;最后,利用深度神经网络对标注的证据特征进行学习,得到诉讼风险评估结果,以证实诉讼请求的合理性。实验结果如表1所示。
表1 在借贷类案例中预测诉讼请求合理性的评估结果
表1对11例借贷类案件进行了诉讼请求合理性评估,在这11例案件中,有8例案件的诉讼请求是合理的,并且有两个案件的合理性达到了100%,此外另有三个案件的诉讼请求是不合理的,均未超过60%。
为了验证本文模型的有效性,三种典型案例在本文多方证据关联模型中证据链条实验结果与真实证据链条相似度计算结果,如表2所示。
表2 证据链条相似度比较实验结果
由表2可知,三类案件证据链条的相似度的总体均值为0.644,即本文多方证据关联模型得到的证据链条与真实证据链条总体相似,该模型能够实现对可靠证据链条的有效获取。
本文模型实验结果与真实证据链条的相似度比较,如图6所示。
图6 三类案件相似度值比较结果
在实验过程中,设定不同的阈值,如果真实的证据链条和预测证据链条的相似度大于该阈值,则两个证据链条是匹配的,说明该案例的证据链条预测是准确的;如果真实的证据链条和预测证据链条的相似度小于该阈值,则表示方法推理的证据链条是不可信或不准确的。
不同阈值下的准确率结果如表3所示。
表3 不同阈值准确率实验结果 %
不同阈值下,本文模型的可信证据链条预测准确率变化结果,如图7所示。
图7 不同阈值准确率
由图7可以看出,本文提出的基于多要素融合的关联概率分析模型(多方证据关联模型)在借贷类案件中效果最好。当阈值为0.5时,借贷类准确率达到82.1%,刑事类和道路交通类分别为71.3%、49.6%。分析这三类案件准确率的差别,由于在司法案件中存在强证据和弱证据的区分,因此对于不同类型的案件,其证据链条的长度也不一样,证据链条越长,则证据链条推理的难度越大;反之,难度越小。由于借贷类案件术语强证据可以直接推定案件结论的类型,因此其证据链较短,证据链条的预测效果也是最好,道路交通及刑事类的案件由于证据链较长,本文模型对证据链条的预测效果也相对低于借贷类案件,但在阈值为0.5情况下,三类案件准确率平均达到67.7%。
通过对实验结果的分析,本文提出的基于规则推理和贝叶斯网络算法的多证据关联模型可以实现多元素融合的关联分析。在司法证据链分析中,可以有效地实现对可信证据链的挖掘,从而加快司法数据的处理速度,节省时间和精力,分类准确率大大提高。在未来的工作中,将尝试使用深度学习算法挖掘多方证据的关联关系,减少领域专家的人力成本。