陈志奎,刘 杰,丁 锋,王光泽,林 杰,钟芳明,应志红
(1.大连理工大学 软件学院,辽宁 大连 116620;2.浪潮软件集团有限公司,山东 济南 250110;3.北京华宇信息技术有限公司,北京 100084)
智慧法院建设是在新一轮司法改革背景下提出的一项覆盖全国各级人民法院的创新工程,旨在利用互联网技术和人工智能技术,结合人民法院工作实际,为人民群众提供更好的司法服务[1],实现审判执行能力的现代化,促进司法为民和司法公正[2]。
跨域立案服务是贯彻落实“加快推进跨域立案诉讼服务改革,推动诉讼事项跨区域远程办理、跨层级联动办理”的重要举措[3],能让公民免于为了起诉立案长途奔波,免受舟车劳顿之苦,是一件实实在在的便民举措[4]。然而,在跨域立案具体落实阶段还存在一些问题,如:法院工作人员不足,技术和装备缺乏,制度宣传、释明不到位,法院案多人少矛盾加剧等[5]。尤其是在对当事人的法律释明方面[6],缺乏智能化手段以协助法官提高法律释明效率。因此,基于人工智能的法律释明算法研究具有重要的意义。该文以跨域立案中的法律释明为背景,主要关注对当事人的适用法律条文推荐,研究适用法律的推荐方法。
该文针对跨域立案过程中的法律释明业务需求,以向当事人释明适用案件法律为目标,研究基于案例推理的适用法律推荐方法,并以民间借贷案由为例,对上述方法进行分析和验证。首先,构建案例指标体系,以表示每一个案例,实现案例数据的数值化表示;其次,根据每个指标的重要程度,通过属性值标准化处理、属性值比重计算、属性值的信息熵计算确定指标权重;在此基础上,进行案例相似度计算,实现相似案例的查找,为后续的相似案例适用法律条文推荐提供支持;最后,提出一种排序权重方法对top5相似案例中的法律条文进行加权,计算推荐权值,根据推荐权值和设定的阈值条件,生成一组案件适用法律条文,推荐给跨域立案中的当事人。通过自行收集的民间借贷案由数据验证,结果表明,该文提出的基于案例的推荐方法对于跨域立案中的适用法律条文推荐是有效的,推荐的法律条文具有参考价值。
案例推理运用过往经验和知识解决问题,已成为人工智能领域的一个研究热点,得到广泛应用[7-11]。案例推理系统一般包括4个过程:案例检索、案例重用、案例修改和案例保存[12]。而基于案例的推理是用历史案例的信息或知识进行相似案问题求解的一种推理方法[13]。
推荐算法作为案例推理的关键技术,是依靠智能算法精准、高效推送信息服务或咨询决策的一种技术[14]。推荐算法主要包括基于内容、基于协同、基于关联规则、基于知识和组合推荐等。协同过滤算法通过收集、分析大量的数据来计算数据之间的相似性,进而生成与目标事务最相近的信息予以推荐;基于内容的协同算法是根据历史行为来预测推荐结果[15-17]。如吴朋洋根据数据集的词向量模型构建基于文档相似度的数据模型[15],运用到法律文书推荐系统中;张虎等通过挖掘司法文书事实描述部分的特征,提出了基于多模型融合的法律推荐方法[16]。基于关联规则的推荐算法是将强关联规则过滤和拆分,然后将拆分后的强关联规则集成到相似度矩阵中。而基于混合的推荐则是将以上两者或者更多的推荐结果融合在一起进行综合推荐。
此外,通过调研发现,现阶段法律条文推荐方面的工作未考虑不同的案由对应的指标属性存在的差异,因此该文考虑通过设计特定的指标特征,通过计算指标权重之间的相似度并排序,为排名最高的N个所对应的法律条文设置权重,权重总和最大的N个作为输出推荐给用户。
该文提出的基于案例推理的跨域立案中民间借贷适用法律推荐的整体框架如图1所示。图中左侧实线部分为构建历史案例库的流程,右侧虚线表示对目标案例的验证测试流程。该方法由四个步骤构成:第一步是指标数值化,将案件文本信息提取成向量;第二步是指标权重分析,设置不同的指标权重;第三步是相似案例计算,查找历史案例库中的最相似案例;最后一步是为目标案例推荐一组适用法律。下面将对每一个步骤进行详细介绍。
图1 文中方法总体框架
该文设计一套指标体系来描述案件,作为案件的特征用于相似度计算。指标的选取准则依据能够尽可能地表示该案由,同时能够区分其他的案由。对于民间借贷案件而言,依据《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》、《最高人民法院关于适用〈中华人民共和国合同法〉若干问题的解释(一)》等法律法规,法院可根据借款金额、交付凭证、当事人的交易方式、交易习惯以及当事人的陈述等因素,对借贷事实进行综合研判。因此,该文通过现有的民间借贷案件在审理过程中参考的法律法规进行初步的指标选取。此外,还在收集了裁判文书网上民间借贷案件材料的基础上,对案件的判决情况进行分析,并将案件的实际判决依据与法律法规规定的要素对应上,形成本文描述民间借贷案由的主要指标。下面将详细介绍民间借贷案件主要指标的选取过程与依据:
在民间借贷案件中,当事人的陈述与书证是最常见的证据形式。由于当事人陈述的特殊性,且证据效力客观上弱于其他证据,因此,民间借贷案件更加依赖于书证,民间借贷的书证主要有借据与支付凭证两种形式。《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》中第二条规定,出借人向人民法院起诉时,应当提供借据、收据、欠条等债权凭证以及其他能够证明借贷法律关系存在的证据,借条、承诺书、转账说明、微信记录等均为借贷证据,因此可根据证物的不同设计5种指标X1-X5;《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》第九条规定现金支付、银行转账、票据交付等付款方式,分别设计指标X6-X9表示付款方式;《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》中第十六条规定,原告仅依据借据、收据、欠条等债权凭证提起民间借贷诉讼,被告抗辩已经偿还借款,被告应当对其主张提供证据证明,因此设计指标X10,表示是否偿还借款;以同样的方式设计其他指标,依据《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》第十九条设计指标X11,表示偿还金额;依据第二十五条、第三十条、第三十一条设计指标X12,表示是否有利息;依据第二十六条、第二十八条、第二十九条、第三十条、第三十一条设计指标X13,表示年利率;依据第二十九条设计指标X15,表示违约金及其他费用;依据第三十条、第三十一条设计指标X16,表示是否逾期;依据第三十二条设计指标X17,表示已归还金额;依据第十六条设计指标X18,表示尚欠款金额;依据第十七条设计指标X19,表示是否有流水转账;在借贷过程中,借贷双方约定实现债权的费用的承担方式,根据《诉讼费用交纳办法》第五章第二十九条、《最高人民法院关于适用〈中华人民共和国合同法〉若干问题的解释(一)》第二十六条设计指标X14,表示是否承担诉讼费、保全费、担保费、律师费。其中指标X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X12、X14、X16、X19为是(真)时,指标取值为1;为否(假),则指标取值为0。另外指标X11、X13、X15、X17、X18取值为实际具体的数值。由此便形成了文中用于描述民间借贷案件的指标体系,如表1所示,一共19个指标,即案件的特征描述可定义为一个19维的向量。
表1 民间借贷案件指标设计
该文以民间借贷案由为例展开说明指标的选取方法、适用法律的推荐等,对于跨域立案中的其他案由的案例可采用类似的方法进行指标的选取,从而能够为不同案由的案例推荐适用法律。
在法律案例指标体系中,由于每个指标的重要程度和表达信息不同,因此需要确定法律案例指标体系中各个指标的重要程度。通常采用计算权重的方法来衡量指标重要性,而现有计算权重方法包含主观赋权法、客观赋权法、综合赋权法。该文采用客观赋权法中最常用的熵权法[18]计算指标权重。在该方法中,指标的信息熵值大小表示了指标变化程度的大小,熵值越大,指标权重也就越大。
下面介绍指标权重分析的具体步骤:
(1)属性值标准化处理:
(1)
(2)特征属性值比重计算:
(2)
式中,pij表示第i个案例的第j个指标属性值占案例库中该指标属性值总和的比率。
(3)计算特征属性值的熵值:
(3)
式中,ej表示第j个指标特征属性值的熵值。
(4)特征属性值信息熵计算:
dj=1-ej
(4)
式中,dj表示第j个指标特征属性值的信息熵。
(5)特征属性值权重计算:
(5)
式中,wj表示第j个指标特征属性值的权重。
经过以上权重计算之后,便获得了所设计的指标体系中各个指标的重要程度,以帮助在后续相似度计算中提高计算准确率。
基于案例推理中的重要步骤就是相似度的计算,该文在采用信息熵计算指标权重的基础上,使用余弦相似度来计算各个案例之间的相似度关系。
相似度计算是基于案例推理中的关键一步,经过指标权重计算,衡量了各个指标的重要程度,在此基础上,该文采用余弦相似度度量不同案例的相似度。
假设有n个案例构成案例库A={a1,a2,…,an},每一个案例用向量表示为ai=(x1,x2,…,xm),目标案例是由向量b=(y1,y2,…,ym)表示,wj作为第j个指标特征属性的权重,所以目标案例与案例库中的每个案例之间的相似度计算公式为:
(6)
式中,历史案例ai与目标案例b之间的相似度计算用sim(ai,b)表示;历史案例ai的第j个指标特征属性值为xj;目标案例b的第j个指标特征属性值为yj;wj为公式(5)计算的权重参数。
通过式(6)能够得到目标案例b与案例库A中n个案例的相似度,将相似度按降序排列,得到一个相似度从大到小的排序结果,从而进行下一步的推荐。
根据计算出的案例相似度集合,选取与目标案例相似度最高的top5历史案例。根据经验,最相似的案例应该优先被推荐,因为其中的适用法律更具参考性。然而,仅仅推荐top1案例的法律条文不足以满足要求。例如,某一条法律没有出现在top1案例中,但是在其他top5案例中都出现了,极有可能是目标案例的适用法律。因此,该文提出了一种排序权重方法对top5案例中的法律条文进行加权,计算推荐权值,该法律条文的被推荐权值大于等于某一阈值时,则加入到推荐列表中。此方法能够让排序靠前的案例的法律条文在推荐结果中占比较大,同时兼顾出现次数较多的法律条文。推荐权值的计算方法为:计算该法律条文所出现在的top5案例的权重和。top5案例的权重按照排序计算如公式(7)所示:
(7)
根据以上案例权重排序,则可以计算法律条文的推荐权值。
该文从裁判文书网收集了2 942 280条案由为民间借贷的案例,由于传统的自动提取指标的方法,无法有效适用民间借贷案例,推荐适用法律条文的准确率偏低,因此通过对民间借贷案例的综合分析,设计了一套符合其案例的特征属性,手动提取150条案例,并将其划分为测试数据和案例库数据,其中案例库数据为130条,测试数据20条。经过指标和数值化之后,每个案例表示为19维的向量。为了保证指标特征的提取和法律条文的预测能力,该文考虑仅对单个案由民间借贷的案件进行法律条文的预测推荐。
由于推荐的法律条文结果存在多于、少于适用法律条文结果,或者与适用法律条文不匹配的现象,所以在推荐精准率和召回率的基础上,该文采用METEOR和F1-Score两种评价指标,它们在图像标注领域应用广泛,能够很好地反映推荐性能。METEOR方法基于1元组的精度和召回的调和平均来计算。该方法将1条法律条文当作1个单词,并对其一致性进行衡量。METEOR结果越高,适用法律推荐的性能越好。F1-Score是分类问题的一个衡量指标,F1-Score测量值综合考虑了查全率和查准率的性能评价指标。
推荐法律条文是建立在与目标案例相似度最高的top5的基础上,将相似度top5的案例对应的法律条文进行加权求和,每一条法律条文将得到一个推荐权值,用wr表示;在实验中,设置法律条文被推荐的权值阈值t,当被推荐权值大于等于t,则该条法律被推荐。根据2.4节中的推荐权值计算方式,若一条法律仅出现在top1案例中,则推荐权值为1。因为相似度最高的top1案例中的法律条文最具有参考价值,基于此,该文将阈值t设置为1。如此,top1案例的法律条文全部推荐,同时,在其他top5案例中的法律条文,若推荐权值满足条件也进行推荐。例如,在相似度排名第二的案例中的某一条法律在后续的案例中也出现且次数大于1,则同样会被推荐。
除了该文使用的指标设计及数值化方法之外,还设置了此方法的对比方法——基于TF-IDF(词频逆文档率)对文本进行向量化表示,将每个文本转换成一个60维的向量,用来表示一个案例。
3.4.1 性能评价
通过民间借贷中20个目标案例与130个历史案例的实验,统计每个目标案例的法律条文推荐结果,推荐法律条文的精准度为0.331 6,召回率为0.574 2,所以METEOR、F1-Score两个值分别为0.496 5、0.382 6。实验结果如表2所示。
表2 评价指标结果
通过对比指标提取方法TF-IDF,该文采用法律条文推荐方法的精准度、召回率、METEOR、F1-Score的值均高于IF-IDF方法的对应值(见图2)。实验结果表明,该文采用确定指标的方法更加准确,推荐结果也更加准确。
图2 文中方法与TF-IDF对比结果
3.4.2 案例分析
为了进一步形象化地分析该文提出方法的性能,下面随机选择几个案例作为目标案例,进行实际案例分析。随机选择4个案例,分析之后,获得最相似的5个历史案例。然后,针对每一个案例,从它最相似的5个案例中,抽取出推荐法律条文,结果如图3所示。图中,第一列代表目标案例;第二列为实际法律条文,即目标案例在最终的判决结果中适用的法律条文;第三列为推荐法律条文,即经过法律案例相似度计算模型,选取相似案例,对相似案例的法律条文加权之后的结果。图中*表示推荐正确的法律条文,**表示推荐错误的法律条文,***表示未被推荐到的法律条文。
从案例1中可以发现,待推荐的法律条文与实际适用法律条文数量相同,都为4条,其中有3条推荐结
图3 推荐法律条文与参考法律条文对比示例
果与参考法律条文匹配,准确率为75%,召回率为75%。从案例2的对比结果可以发现,实际适用法律条文有5条,而推荐法律条文为4条,且推荐结果准确率达到75%,但是推荐结果有纰漏,推荐的完成性(召回率)为60%。案例3中参考法律条文有6条,而推荐法律条文7条,5条结果推荐正确,准确率为71%,召回率为83%。以上是三种比较常见的结果。从以上实际案例分析来看,该文提出的方法基本上能够满足跨域立案中对于适用法律的推荐的要求,推荐结果具有参考价值。
针对跨域立案中对于法律释明向当事人推荐适用法律的需求,基于民间借贷案件,该文提出了一种基于案例推理的方法。通过民间借贷案由数据的实验验证,提出的方法在该任务上是有效的。该文在验证模型有效性方面只考虑了民间借贷一个案由,搜集的数据量较少,未来将进一步扩充数据量,增加案由的可选择性。