审判案件事实要素智能抽取探究

2021-07-08 06:22朱福勇
理论月刊 2021年6期
关键词:证据要素司法

□朱福勇,高 帆

(西南政法大学 人工智能法学院,重庆401120)

在人工智能技术迅猛发展的今天,各国司法系统正经历着从专家审判司法体系向智能人工司法体系的转型[1](p33-48)。目前,人工智能技术在我国司法领域主要应用于司法文书处理、庭审智能化、辅助办案三个方面,在案件事实要素的自动抽取场景中,存在着专业术语抽取错误、难以搭建证据规则模型等诸多问题。对此,域外学者尝试将证据之间的相似度计算方法作为研究重点,抽取知识以司法信息、律师信息和当事人信息为主。例如,某一特定法律问题中不同法官所持的态度,律师所持的辩护意见以及特定案由案件中不同当事人在不同法院的胜诉率等。典型应用诸如Premo⁃nition公司和Hodge Jones&Allen公司的审判结果预测系统,重点描述如何在案例表示、检索、改编、重用和案例库维护中使用软计算(一个由模糊逻辑、神经网络理论、进化计算和概率推理组成的联合体),然后简要总结使用软计算技术的六个CBR应用。我国学者或认为利用案例文本组织结构和线索词,运用正则表达式构建抽取规则模板,并将抽取结果经过语义标注,构建案例信息库[2](p23-29);或主张基于相似案例的检索推荐,对知识元、神经网络、案例表示与检索方法、案例推理等进行探究[3](p54);或提出要件事实型民事裁判论与司法人工智能的生成规律具有内生契合性,可作为神经网络深度学习,分词设置,知识图谱设计的基础与前端理论,具体应用路径是依要件事实论不断进行层级解构等[4](p68-82),均难以精准抽取案件事实要素,制约依法裁判作出。随着最高人民法院《人民法院第五个五年改革纲要(2019—2023)》“健全顺应时代进步和科技发展的诉讼制度体系”和“建设现代化智慧法院应用体系”,《人民法院信息化建设五年发展规划(2019—2023)》“要利用商业智能、大数据分析和可视化手段,对司法审判信息资源库中的数据进行挖掘、分析和展现,支持多维分析、关联分析、趋势预测等大数据智能服务”的稳步推进,本文认为,以要素式审判为基础,运用深度学习技术自动识别、抽取、分析当事人或者相关工作人员提供的案卷材料,以司法场景专用大数据与人工智能技术为驱动,集合法律法规库、文书卷宗库、司法信息库等司法知识库,智能生成案件事实,对化解日益凸显的人案矛盾,统一法律适用以及公正裁判诉讼目标的实现意义重大。

一、案件事实要素智能抽取的界定及价值

(一)概念及特征

案件事实要素又称涉法事实要素或者法律事实要素,是引起法律关系发生、变更和消灭的客观事实情况,是案件事实得以成立的必要条件。它是从涉案材料和审判信息库中提取出来,以证据为基石,以法律规则为纽带,构成案件事实的基本元素。案件事实要素智能抽取的核心在于,围绕结构化证据要素搭建出较为完整的案件画像,通常需要结合专业知识对结构化证据要素进行可信度评估,一般由何时、何地、何人、何事、何因、怎样和意义(有本质的含义)七个部分组成。由于案件的性质不同,案件事实要素存在一些差异。总体而言,案件事实要素包括实体法的事实和程序法的事实两个部分。以民事案件为例,前者是能够引起民事实体法律关系发生、变更和消灭的事实,如合同的签订、履行、违约的事实,侵权损害结果发生的事实以及当事人之间因民事权利义务的享有、履行发生争议、解决纷争和诉诸人民法院的事实。后者是当事人主张的诉讼程序事实,可以影响到民事诉讼程序的启动、进行和终止,间接地对审判结果产生影响,主要包括当事人主张的程序法的事实和法院依职权查明的程序法事实。其中,当事人主张的程序法的事实主要有管辖权协议、管辖异议的事实等,法院依职权查明的程序法的事实包括当事人是否适格、法院是否具有管辖权等。值得注意的是,在适用外国法律法规和其他地方性法规、习惯时,这些法律、法规和习惯均可能成为证明对象。为了更好地获取案件事实要素,需要将法律所关注的事实要素形式进行泛化描述,通过司法专家和自然语言处理专家共同梳理及机器半自动标注的方式构建案件事实要素标签体系。

这里以机动车交通事故损害赔偿纠纷案件为例(图1),将中国裁判文书网上500份机动车交通事故损害赔偿案件的人民法院裁判文书事实部分进行梳理,可以归结该类案件的核心事实要素包括当事人信息、肇事车辆信息、交通事故发生时间、交通事故发生地点、交通事故发生经过、责任划分、受伤及治疗情况、伤残等级情况、损失构成、受害方已获得赔偿情况、机动车使用人、机动车所有人、机动车实际控制、肇事车辆驾驶人与赔偿义务主体、各赔偿义务主体之间的关系、机动车交强险承保公司和机动车商业险承保公司等。

案件事实要素作为构成案件事实的基本元素有其固有的特性,正是这些特性为其应用语义智能抽取技术提供了可能。第一,同一案由案件事实要素具有相对确定性。如上文所述的机动车交通事故损害赔偿纠纷,该类案件中的关键事实要素往往是相对固定的,这使得法律专家人工抽取和利用历史案例材料训练深度学习模型成为可能。第二,案件事实要素关联概率具有可计算性。基于海量的历史案件,计算特定案件中事实要素的证据支持度和置信度,将事实要素间的印证关系进行机器语言表达,使得利用人工智能技术搭建案件事实证据链条成为可能。第三,案件事实要素的推理轨迹具有可复现性。法律推理尤其是抗辩式审判中的司法推理,以明确的规则、理性标准、充分的辩论,为人工智能观察、学习审判思维活动的轨迹提供了可以记录和回放的样本[5](p54)。第四,案件事实要素要以证据为基础,且对法律适用构成一定影响。在机动车交通事故损害赔偿纠纷案件中,对交通事故发生的时间需要提供相关的书证等予以证明的同时,对一方当事人提出诉讼时效抗辩时,人民法院还要根据《民法典》第188条和第195条规定进行判别,即向法院请求保护民事权利的诉讼时效期间为三年,自权利人知道或者应当知道权利受到损害以及义务人之日起计算。但自权利受到损害之日起超过二十年的,人民法院不予保护;有特殊情况的,法院可以根据权利人的申请决定延长。有权利人向义务人提出履行请求,义务人同意履行义务,权利人提起诉讼或者申请仲裁或者与提起诉讼或者申请仲裁具有同等效力的其他情形之一的,诉讼时效中断,从中断、有关程序终结时起,诉讼时效期间重新计算。

图1:机动车交通事故损害赔偿纠纷案件核心要素

(二)价值

1.对审判体系的内向价值。一是人案矛盾的缓解。根据最高人民法院近年来工作报告中的数据显示,2013—2017年全国地方各级法院受理案件8896.7万件,同比上升58.6%;2018年全国地方各级法院受理案件2800万件,同比上升8.8%;2019年全国地方各级法院受理案件3156.7万件,同比上升12.7%。在员额法官人数未予增加的情势下,案件数量的激增使法院的诉讼服务压力不断增加,司法资源的稀缺性与民众日益增强的需求之间的矛盾日益凸显,给法官的身心健康带来极大的压力,难以避免导致审判效率低下、质量不高。人工智能技术的引入,及时为审判赋能。通过对审判活动中案件事实要素的智能抽取,构建案件画像并自动生成裁判文书,确保法官从大量重复、烦琐的审判工作中解脱出来。二是审判质效的提升。公正、高效和经济是审判活动的终极目标。可见,成本与收益是审判活动关注的重要因素。在案件事实要素智能化运行的语境下,首先应当重视人工智能与法官的关系问题。有学者认为,人工智能取代法官是未来必定会发生的事,而另一观点则坚持人工智能与法官相互补充,在不同案件中的主、辅作用相互置换,共同构成一种全新的审判模式[6](48-55)。我国理论界与实践界普遍认为,人工智能是法官的重要辅助力量,无法像法官一样对纠纷作出有温情的判定。本文认为,人工智能技术对常规性案件预测有较为精准的裁判结果,并非由机器代替法官进行审判,而是利用法院裁判的大数据分析与人工智能技术生成案件画像,不断整合审判信息资源库中的事实数据,为法官在案件审理阶段提供全面、智能的案件事实要素判定的决策指引,保障法官准确认定案件事实,显著提升审判质效。

2.对法治建设的外向价值。一是便于当事人诉讼。在司法改革进程中,推动便民服务能力现代化是人民法院审判体系与审判能力现代化建设的根本需求,也是落实公正司法与司法为民基本国策的关键所在。法院审判案件事实要素的智能抽取,可以根据诉讼当事人所提供的诉讼材料形成基本的案件事实,对审判结果进行初步预测,方便诉讼当事人及时调整诉讼策略,节约诉讼成本。二是避免恣意裁判。在审判活动中,存在不同法院或者同一个法院的不同法官就相同或相似的事实要素得出不同的判定结果的现象,影响了案件事实的判定和裁判结果的准确作出。运用人工智能技术对案件事实要素进行智能抽取,生成案件画像,在一定程度上能够避免法官对案件事实要素判定的恣意,消解对案件事实认定不一的现象,对统一裁判标准和尺度,提升审判权威和审判公信力意义非凡。

二、案件事实要素智能抽取遭遇的困境

(一)法律层面

1.法律语言的模糊性。要实现案件事实要素的自动抽取,首要问题便是如何克服法律语言的模糊性。法律语言模糊是法律条文在语义表达上的不确定性,包括法的类属边界的不确定性和立法时故意附加模糊词的情形[7(]p1)。这一模糊性是法律语言发展过程中所不可避免的。也正因为法律语言的模糊性,在一定程度上缓解了法律具有滞后性的弊端,赋予了法官自由裁量的空间,使得法律更具普适性。在审判活动中,法官需要综合考量各类涉案司法文书材料,司法文书材料又由法律语言所组成。所以,法律语言的模糊性决定了法官需要根据自己的专业知识和历史经验,对法律语言在法律允许的范围内进行解读。这就导致遵循相对确定规则的机器学习模型在处理模糊法律术语时存在障碍,如“显著轻微”“特别恶劣”等法律表达仅依算法均难以识别。

2.证据可信程度的评估。证据是认定案件事实的基石,它为法官搭建案件画像提供了“砌砖”。证据的证明力直接决定了所搭建的案件事实的可信程度。证据的证明力评估涉及如何围绕证据“三性”对抽取到的证据要素进行甄别,对劣质证据进行驳斥,摒弃薄弱和不确定的证据,最大程度上还原案件真相。运用单一机器学习模型提取证据要素时,往往会在一定程度上弱化对证据的审核力度,难以实现对全案证据的综合分析,从而降低了证据的证明力。证据证明力评估的缺陷,会使得司法工作人员必须承担系统做出瑕疵甚至错误审判决策指引的风险。

(二)技术层面

1.专业词汇的提取。案件事实要素智能抽取需要对司法领域的专业术语进行筛选和识别。语义自动抽取技术主要有基于词典与规则、基于统计以及规则与统计相结合等方法。技术层面的困境在于如何抽取司法领域的专业术语,在统计阶段忽视分词抽取的重要性会给赋值阶段带来难以弥补的漏洞。在分词抽取的过程中,由于不同领域词汇的构成规则及含义不同,专业领域的词汇容易被错误地切割成多个词语碎片,将词语碎片作为分词抽取结果纳入候选词进行统计计算,可能会给词句的整体性和领域性带来损害[8](p6716-6718)。在实践中,运用传统方法对证据材料进行语义抽取,容易导致司法领域的专业术语抽取错误,如“法定代表人”被错误地切分为“法定代表”和“人”两个单词碎片,进而导致法律关系错乱。

2.关键事实要素的甄别。案件事实要素自动抽取的关键在于,将从法院案例数据和案例事实要素中抽取的词语圈定在司法场域内。如前所述,事实要素的自动抽取是以要素式审判为基础,要素式审判的核心就在于围绕关键案件事实展开审理,实际案件中往往包含实体事实、程序事实等多种要素,只有对复现案件事实具有意义的要素,才可能成为事实要素[9](p74-78)。对数据进行清洗圈定关键案件事实要素,既可以大大降低案件事实要素自动抽取过程中存在的噪音,也可以在一定程度上从数据源头减少机器学习模型的算法偏见。但是,涉案诉讼材料中存在大量与案件无关的案件事实要素,在数据挖掘过程中,单一的文本识别技术难以抓取目标数据。

3.推理规则的机器表达。在案件事实要素的智能抽取中,需要将抽取的要素进行法律推理,但由于机器学习模型要按照严格的数理推理模式,如何把法律推理的逻辑过程进行机器语言表达,将证明标准进行量化处理是案件事实要素智能抽取面临的主要问题。目前,主流的法律推理模型主要有基于规则的推理模型、历史判例的推理模型和数据的推理模型三种。但是,无论哪一种单一推理模型,均很难实现准确的案件事实要素抽取。法律推理既不是依循纯粹的规则,也不是完全局限于历史案例,因为它总是需要抽象规则和具体法律适用之间的一种相互作用。将推理过程阶段化,不同阶段采取不同的推理模式,实现多模型层叠是复现法律推理轨迹的解决之道。

三、案件事实要素智能抽取的法理审视

(一)法律现实主义的新诠释

法律形式主义以逻辑推理为基础,严格遵循司法三段论的演绎推理模式,基本思路为“案件事实→法律规则→裁判结果”。将系统化的法律规则作为大前提,将特定案件事实作为小前提,把具体案件带入法律规则中推导出裁判结果。在法律形式主义者看来,法官只需要依照现行法律进行规范的逻辑推理即可得出良好的裁判结果[10](p146-155)。这一传统的法学理论常常因为过于封闭和僵化遭到学者们的诟病,但也因为法律形式主义演绎推理的“机械性”为人工智能技术引入司法领域找到了突破口。技术专家可以预先将系统化的法律规则进行机器语言表达,再将识别到的具体案件信息输入规则模型,推理出审判结果。

案件事实的发现是准确适用证据规则的过程:T→R大前提:具备T的要件,适用R的法律效果;S=T小前提:特定纠纷事实S符合T的要件;A1、A2、A3…=S1、S2、S3(证明事实构成特定的纠纷事实要件);S1、S2、S3…=T1、T2、T3(特定的纠纷事实要件符合证据规则要件);S→R得出结论:S适用R的证据规则适用效果。当然,在对案件事实的建构中,应当满足大前提法律规范T所有要素被穷尽描述,小前提法律事实S被具有T所描述要素刻画,以及保证语言、思想与现实具有相同的逻辑一致性三个条件。大数据技术的出现为法律现实主义的发展带来了新的机遇,使案件事实要素的智能抽取成为可能。如有学者所言,“法律现实主义不得不面临对法官预测能力的质疑,客观上法官的这种预测也必然存在较大的风险,大数据与人工智能可以使后果预测从宏大叙事转为精耕细作,从充满感性转为富有理性,可以最大限度保证预测的准确性”[11](p101-106)。

为了实现案件事实要素的智能抽取,采用层叠注意力机制,对大量的案件事实要素进行相关性计算,模拟法官在面对众多案件事实要素时的考量。人体的视觉器官在获取画面时,对于不同目标的注意力分布不同,以便大脑在读取信息时可以快速捕捉到画面重点区域,从而分配更多注意力资源用于重点目标的分析和理解,从而减少不相干区域给大脑所带来的干扰。根据人体这一特殊的机制,学者提出了注意力机制(Attention Model)[12](p62-74)。随着深度学习技术的不断发展和数据规模的增加,基于循环神经网络(RNN)的注意力机制被广泛运用于机器翻译、自然语言处理和图片识别等众多领域。在Encoder-Decoder框架下引入注意力机制,使输入信息(Source)通过En⁃coder-Decoder框架计算出目标信息(Target)。注意力机制在运算过程中将Source中的输入信息要素构成一系列相关性待计算数列,每次运行时通过给定Target中的一个要素Query,通过Query和各个Key的相关性计算,得到每个Key对应Value的权重分布情况,最后对Value进行加权求和,使用常用的Softmax分类器对整个文本进行分类处理。Attention机制实质上是将Target中的目标要素置于Source中进行相关性计算,得出权重最大的要素。

层叠注意力机制与普通注意力机制的不同在于,其将构建多层神经网络,在实现对词级的分类基础上,再进行句级的分类。层叠注意力机制神经网络把复杂的句式结构切割为多个语句碎片,对每一个语句碎片运行RNN注意力机制计算,将得到的映射向量再次运行RNN注意力机制实现对语句的分类赋值。层叠注意力机制可以明显改善复杂语义信息的提取质量。简言之,在机动车交通事故损害赔偿纠纷中,以输入交通事故责任认定书为例。Source为“A驾驶机动车违反《××××××》第××条之规定,在本次事故中承担全部责任”,Tar⁃get为“A为赔偿义务主体”,注意力机制先将该句式结构分割为“A”“机动车”“《××××》第××条”等语句碎片,再把Target中的“赔偿义务主体”作为Que⁃ry值代入Source中与每一个语句碎片进行对齐(相关性计算),相关性的值通过Softmax函数归一化后,得到对齐概率值,找到权重系数最大的“A”。

(二)复现法律推理的新发展

1970年布坎南和黑德里克发表的《关于人工智能与法律推理的思考》,开启了法律推理机器建模的先河[13](p40)。早期学者们针对法律推理的机器建模主要是基于相对封闭的单调演绎推理,搭建法律专家系统。典型应用如1977年问世的TAX⁃MAN系统[14](p837-893),基于经典的演绎推理模式,针对公司税法问题,将法学知识拆分为一系列的概念和规则,搭建起了一个相对封闭的法律专家系统。这些早期的法律推理模型因理论和技术的限制,如国家社科“七五”研究课题《量刑综合平衡与电脑辅助量刑专家系统研究》,难以在法律知识库的基础上取得更多的成果。

随着理论认识的不断深入,学者们逐渐认识到,法律推理和论证过程具有开放性和可废止性。可废止性是指法律推理具有被击败的倾向,它发生在新的信息被发现或加入之前推导的前提集中,但之后的推导并没有撤销之前较弱推导的任何前提[15](p139-150)。与演绎推理相比,可废止推理的前提条件中并不包括得出结论的所有因素,其得出的推理结果会根据新因素的介入而处于一个动态的变化过程中,使法律规范和其形式化之间保持结构上的相似性成为可能。由于法规之间可能存在冲突,若用经典演绎系统来表示,很容易得出相互矛盾的结论而导致系统崩溃[16](p99-104)。

为了使推理事实更加接近案件事实真相,可借助贝叶斯网络在抽取到的相互印证或相互矛盾的众多证据中,寻找证据之间印证关系最强、最具说服力的证据链。在无新事实要素介入的情况下,生成暂定案件事实,避免因为之后增加的新事实要素的介入导致系统崩溃。贝叶斯网络是一种将目标变量之间的概率关系进行编码的图形模型。当贝叶斯网络与统计技术结合使用时,此种图形模型在数据分析方面具有强大的推理和知识表达能力。首先,由于模型对所有变量之间的关联关系进行计算,因此它很容易处理某些数据项丢失或不完整的情况;其次,贝叶斯网络可以用来学习因果关系[17](p49-52),因此可以用来获得对问题域的理解和预测干预的结果;再次,由于该模型同时具有因果语义和概率语义,因此它是结合先验知识和数据的理想表示;最后,统计学方法与贝叶斯网络相结合,为避免数据的过度拟合提供了一种有效的、有原则的方法。在数据挖掘过程中,通过历史案例构建训练数据集来训练机器学习模型,再使用循环训练后的模型对目标数据进行预测。但是,训练数据集中包含抽样误差,不可能涵盖所有的样例,机器学习模型可能处于过拟合状态,即对训练数据来说过于完美而偏离了真实的曲线,从而导致预测结果失真。本文利用先验知识构造贝叶斯网络的方法,计算涉案证据之间的关联概率,以求对案件事实进行推理和表达。

贝叶斯网络与其他数据挖掘方法相比,贝叶斯网络因其不确定性知识表达形式和便于计算任意随机变量组合的联合条件概率分布的优势,将先验信息和样本信息综合起来,一方面,可以修正单一先验信息带来的主观偏见,减少采集的样本信息中的数据噪音;另一方面,在贝叶斯网络中,将事件的出现概率分为先验概率(根据现有数据材料或主观经验知识判定的概率)、后验概率(导入样本信息对先验概率进行优化后获取更加可信的概率),并将两者联系起来计算联合概率(交叉概率)。基于贝叶斯网络搭建证据关联概率模型,需要将特定案由案件中证据要素转移率当作随机变量,根据专家知识搭建的司法知识库对证据的转移概率进行推定,确定先验分布。利用海量历史司法文书,利用OCR等识别技术,从不同案由案件中提取涉案证据要素,计算不同证据要素之间的相关性,得到后验分布密度,对案件事实做出推断。

以简化的机动车交通事故损害赔偿纠纷为例(图2),一方面,利用机动车交通事故赔偿纠纷历史案例数据结合专家知识,计算证据之间的证据相关性,构建贝叶斯证据关联概率网络;另一方面,对当事人提交的起诉状、原被告有效证件、事故证明、治疗证明、误工证明、支付凭证等涉案材料,通过分句、分词、句法分析和实体识别对证据要素以及证据属性进行抽取。同时,结合层递注意力机制,筛选数据源,定义、寻找案件关键要素。将识别到的司法要素圈定在机动车交通事故损害赔偿纠纷内,获取用于构建案件画像的案件事实要素。此外,利用贝叶斯证据关联概率网络,选定证据之间印证关系最强、最具说服力的证据链条,生成案件画像。

图2:获取证据链条流程

图3:事实要素自动抽取模型流程

四、案件事实要素智能抽取的完善

案件事实要素自动抽取与归纳赋值的难点在于,对特定案由案件关键证据要素的提取以及使用机器语言表达各类涉案证据之间的印证关系。事实要素自动抽取模型(图3)将基于注意力机制深度学习模型、基于贝叶斯网络的证据关联概率模型两大关键技术进行系统集成,将自动抽取出的词语圈定在司法领域内部,搭建案件事实证据链,能够有效地减少案件事实要素自动抽取过程中存在的噪音。

(一)构建事实要素标签体系

为了应对法律语言的模糊性,提高案件事实要素抽取的准确性,避免分词抽取错误,需要通过司法专家和自然语言处理专家共同梳理及机器半自动标注的方式,构建案件事实要素标签体系。构建案件事实要素标签体系是法律本体研究的一种实践尝试[18](p53-66),需要以要素式审判为基础。在具体操作过程中,并不是案件所有的事实要素均能够成为要素式审判的关注对象,只有案件双方争议的关键要素才能成为审判过程中需要重点考虑的要素。构建案件要素集合需要法律专家预先根据不同案由案件,收集相关案件法律法规、诉讼材料、案件卷宗、裁判文书等作为研究及机器学习训练数据。对法律法规、案件卷宗、裁判文书进行无监督机器学习,自动对案件事实要素进行标签及归类,形成法律知识规则库。基于海量法律法规、诉讼材料、裁判文书、双方质证情况及开庭中双方答辩的案件卷宗对涉案文书进行结构化处理,并对相关案件事实要素的证据进行分类标签化处理,确定不同案由案件中需要重点考虑的案件事实要素。

图4:案件实体特征识别流程

图5:案件事实要素归纳赋值流程

(二)事实要素实体特征识别

通过OCR等技术识别,对涉案诉讼材料中的案件实体特征信息进行识别,将涉案诉讼材料转化为电子证据集,针对电子证据集中的有效信息进行去噪。为了进一步提高证据的可信程度,需要人工专家对识别到的结构化证据要素进行校验标注。

如图4所示,将具体案件的电子卷宗、诉讼材料等涉案文书,通过OCR自然语言识别技术将涉案文书从PDF或者TXT格式中,识别案情中法律关系、时间、地点、人物、事件、行为等关键要素,快速提取出纯文本数据信息,对提取到的纯文本数据信息进行数据降噪,完成关键信息的抽取和案件要素的识别。对于不适用OCR识别技术的案件材料,由涉案人员进行证据输入。最后由涉案人员及司法工作人员对抽取到的案件事实进行甄别,特别是对证据的真实性和合法性做出预先判定后,形成结构化案件事实要素。

(三)事实要素归纳赋值

为了构建案件画像,将法律推理规则进行逻辑表达,必须对识别到的案件事实要素的实体特征进行归纳赋值,以事实要素标签体系为基础,根据事实证据链条,将多方证据进行关联形成证据网络,对证明标准进行量化处理。案件事实要素的归纳赋值是将司法领域提取到的结构化证据要素,利用基于层叠注意力机制,生成特定案由的案件关键要素,并确定多方证据之间的证据相关性和证据转移概率,得到目标的证据链条,构建案件事实画像。具言之,案件事实要素的归纳赋值可分为两个阶段(图5):

第一阶段:提取证据要素。利用基于注意力机制的深度学习模型和Word2vec网络模型,对识别到的结构化证据要素进行抽取、归类处理和相关性计算,将识别到的案件事实要素圈定在目标范围内,获取用于构建案件画像的关键要素。从司法源数据中获取案件事实要素进行实体识别和关系识别,根据证据规则,构建各事实要素之间的关系,形成训练数据集,用于搭建和训练基于注意力机制的深度学习模型,并进行循环学习。将新的司法数据导入搭建好的注意力机制模型,进行各要素之间的相关性计算,最后生成特定案由的案件事实的关键要素,以抽取到符合要求的目标要素。

第二阶段:构建案件画像。将甄别后的结构化证据要素与法律知识规则库中的司法规则相结合,将结构化证据要素中的信息与法律知识规则库中的条目进行匹配。通过贝叶斯网络搭建,基于证据关联概率模型生成案件画像。构建案件事实证据链条是对构建案件基本画像的必要支持。构建事实证据链条是对构建案件基本画像的必要支持。证据链条是指由两个或者两个以上不同的证据链节(或证据)所组成的,通过链头的相互联结形成的联结点,以及链头与链体的客观联系,使内容得到相互印证并体现或者提高证据的证明力,用以证明案件事实的证据集合体[19](p128-136)。证据链条包括一系列的链节和联结点,前者为我国诉讼法中规定的适格证据,后者为证据与证据之间相互印证的交叉关系[20](p65-68)。证据链条中链节为抽取到的结构化证据要素,为了获取联结点需要结合专家知识预先从历史案件文书中进行证据支持度和置信度计算。支持度说明了A和B两个证据事实之间的关联关系,即在特定案由的案件中A和B两个证据事实同时出现的概率。置信度用于揭示在特定案由案件中A证据事实出现时,B证据事实是否会出现以及出现概率大小的问题。基于海量的历史案件,计算特定案由案件中各类证据的支持度和置信度,以获取事实证据链条中的联结点,插入结构化证据要素,构建事实证据链条,并采用法律专家参与的方式提高事实证据链的准确性,最大限度发挥专家知识在信息抽取过程中的作用。换言之,在语义信息的智能抽取过程中,专家知识与多模型相结合的方式,能够大幅度地提高目标信息抽取的准确性。搭建好事实证据链条后,根据涉案诉讼材料选定与之相对应的案件事实证据链条,利用多条事实要素证据链条,基于贝叶斯网络搭建多方证据关联模型生成案件画像。

五、结语

理论认识的不断深入和人工智能技术的渐进发展,为人工智能技术与审判活动的契合提供了更多的可能。人民法院应当顺势而为,积极拥抱大数据和人工智能新时代,不断创造更高水平的社会主义司法文明[21]。客观地说,案件事实要素智能抽取是以基于注意力机制的深度学习模型为抽取工具,辅以基于贝叶斯网络的证据关联概率模型推理引擎,旨在提高案件事实要素智能抽取的准确性,对证据要素进行归纳赋值,进而生成案件画像,奠定了司法裁判的基础,为审判权依法有序地推进带来难以估量的正向影响,如缓解人案矛盾,提升审判质效,实现裁判尺度统一等,同时也拓展了人工智能科学的研究范围,对发现和推动认知科学及人工智能等理论研究意义深远。然而,由于审判过程中涉案诉讼材料的多源性和多样性,在一定程度上抑制了案件事实要素的自动抽取的准确率。就案件事实要素智能抽取的研究和现实运行而言,仍处于一个初步的、低水平阶段。在未来的研究工作中,将基于案件事实要素的智能抽取技术,对当事人围绕案件事实提交的证据通过关联分析,自动提取案件事实特征要素,通过规则推理和随机森林算法预测裁判结果,利用神经网络模型定位相关法条,构建候选法条缓存,从法条数据中自动推荐与案情匹配的法条,实现输出更为准确可靠的法条推荐结果,同时获得法律适用判别的依据。随着人工智能技术的不断发展,如何有效通过法律大数据、机器深度学习模型,为当事人及法官提供涉案证据材料识别、分类、判定并自动生成案件事实画像,并结合纠纷情况,为当事人乃至司法工作人员提供诉讼风险告知及诉讼决策指引,仍需理论与实务界吸纳域外人工智能发展的先进技术和理念。

猜你喜欢
证据要素司法
少捕慎诉慎押刑事司法政策下侦羁关系的反思
服务大局司法为民忠实履职
制定法解释中的司法自由裁量权
掌握这6点要素,让肥水更高效
奏好人大内务司法监督“三步曲”
手上的证据
家庭暴力证据搜集指南
也谈做人的要素
手上的证据
2015年8月债券发行要素一览表