类案识别“图谱化”的困境、原因及优化方案

2022-09-06 13:15
武汉交通职业学院学报 2022年3期
关键词:事理图谱检索

丁 钰 张 翔

(西南政法大学,重庆 401120)

一、引言

在智慧法院建设实践中,最高人民法院要求法官“基于案件事实、争议焦点、法律适用类脑智能推理,满足办案人员对法律、案例、专业知识的精准化需求,促进法官类案同判和量刑规范化”①。然而,人工智能尚处于以模型学习驱动的数据智能阶段,而类脑智能则属于较高技术水平的认知仿生驱动[1],有限的技术能力与迫切的司法需求之间形成巨大张力。即便以数据智能为基础搭建“类案推送系统”并辅之以“类案强制检索”制度,但类案检索结果“不精准”已然成为当下类案检索机制遭遇的最大困境。这背后固然有数据输入端案例数量不足、案例质量不佳等原因掣肘,但数据加工过程本身扮演着承上启下的重要角色,特别是以“图谱化”为核心的类案识别,既是数据输入端案例结构化的重要标准,反向制约了案例数据的筛选,又是数据输出端类案检索报告所要阐释的检索方法的基本构成,关乎检索结论的可靠性。因此,类案识别“图谱化”在理论依据、规范基础以及语义识别方式等方面暴露出的问题,均是影响类案检索结果精准度的结构性因素。

本文秉持“技术—制度协同演化”[2]的基本立场,沿循“提出问题—分析问题—解决问题”进路展开论述。首先,阐明类案识别“图谱化”拟解决的问题是“类案检索不精确”并分析其成因;在确定问题面向后,揭示智慧司法实践中类案识别“图谱化”所遭遇的三重困境。其次,从“图谱化”的结构要素(语词及语义)、生成路径(图谱本身)以及类型关系(图谱之间)三个维度剖析类案识别“图谱化”推进困难的原因。最后,针对类案识别“图谱化”的实践难题,分别从知识图谱的构建前提(理论依据)、过程(深度学习)和未来方向(事理图谱及抽象语义框架)三个层次提出破解类案识别“图谱化”难题的可能方案。

二、类案识别“图谱化”的问题面向及实践难题

类案检索不精准是当下类案检索制度实践效果不佳的主要表现,而类案识别既是方法论意义上类案检索的前提,也是类案检索系统的核心技术支撑。类案识别“图谱化”正是为了消解类案检索不精确之弊,但其自身在语义识别等方面也存在不少问题,亟待反思并阐明痛点。

(一)类案检索不精准及其成因

类案检索不精准主要表现为检索不到类案的“隐性缺失”(事实上有类案)和检索到表面关联案件的“显性缺位”(貌合神离)。也即,现阶段只是筛选了形式上法条援引相同、实质上事实不同的案件进行比对,以至于形式上关联案件数量庞大而实质上多为高频词汇简单重叠[3]。从现行类案检索系统的运行原理(如图1所示)看,输入端往往采用关键词检索确定目标语义,处理端则通常依据案由对案例数据类型化后,再拆解该类裁判文书语词并进行数据标注,通过目标语义与案例数据库比对,依据关键词重合度及复现频次高低筛选类案。

图1 现行类案检索系统的运行原理

事实上,案由是立案、分案等审判管理工作的标准,其内在逻辑与法官依据争议焦点提炼的法律关系并不完全一致,加上数据处理只是语词之间机械性的字符串匹配,虽然比对结果具有概率论意义上的高度相关性,但却与目标语义下潜藏的法律关系的结构性关联相距甚远。譬如,当前中国裁判文书网中民事案件数量总计8000余万件,在种类最丰富的473个三级民事案由中,平均每个案由下就有裁判文书17.3万篇②,但实践中相同案由的案情错综复杂,以此种检索方式试图在17.3万篇相同案由的案例中精准定位与待决案件高度相似的类案,无异于大海捞针。

究其原因,人工数据标注无法穷尽各类语境中语词的真实语义,而数据结构化也并非建立在知识图谱基础上,使得当下的数据标注只能实现低层次的数据结构化,搜索技术因知识图谱缺失也必然会减损语词之间可能的深层语义关联。

(二)类案识别“图谱化”的困境

为了提升类案检索的精准度,必须将类案识别建立在知识图谱的基础上,以法律知识图谱为线索建构语词之间深层次的语义关联。知识图谱是由节点和连接节点组成的一种知识性的结构化图解,反馈由实体表示的现实世界中存在的有关事物或抽象概念[4]。以刑法适用领域构建类案识别的法律知识图谱为例。首先,从判决书中提取刑事案件基本信息;其次,对案情介绍、犯罪行为、判决主文等进行数据标注;接着,实施法律规则匹配。若匹配成功,则将标注信息列为案例标签信息;若匹配失败,则重新开始匹配直至识别成功[5]。

类案识别“图谱化”面临的第一重困境是“非结构化文本的语义难识别”。法律知识图谱构建所需要的裁判文书包括类结构化的案件基本信息和非结构化文本[6]。类案识别所依赖的法律知识图谱构建难点在于,基本案情中非结构化文本如何进行技术处理。譬如,当事人陈述的自然语言特征千差万别,法院认定事实的叙事方式不尽统一,释法说理方式更是风格迥异。这些非结构化文本都增加了语义识别的难度。

类案识别“图谱化”面临的第二重困境是“语义识别的理论依据难选择”。刑法适用领域当下类案识别的法律知识图谱构建主要从技术原理出发[7],重点关注了刑事案件的表面相似信息,没有穿透语词并深入规范语义探寻语词之间的实质关联[8]。刑法领域存在“四要件”“阶层论”等构成要件理论,学说分歧亦是刑法不同价值取向的折射,且不论依据何种刑法理论才能有效适配知识图谱构建,仅数据标注这一前提程序而言,就会率先面临上述构成要件的选择难题。

类案识别“图谱化”面临的第三重困境是“规范之间的体系关系难协调”。例如,刑法条文中罪状描述相似但定罪结论不同的情况较多,一个犯罪行为牵涉多个法条适用的情形也不在少数[9]。事实上,基于刑法的法律知识图谱构建仅局限于从某一个罪名展开,再去关联此罪与彼罪、此案与彼案[5]。这种为了技术实施便利而割裂罪名或案件之间内在联系的不当操作,导致复杂案件的类案识别实质上只是相似罪名重合度高低的判断,而不是罪数关系差异所映射的案件情节不同,因而流于形式化且识别精准度不高。

三、类案识别“图谱化”推进困难的原因分析

类案识别“图谱化”的三重困境根源于技术与制度协同演化不顺畅。其中,语义识别层面表现为“算法框架不协调”;在图谱生成层面没有区分简繁案件,致使复杂案件的图谱构建模式不适配;在图谱关系层面,单一法律部门或特定法律关系的预设,使得不同类型图谱之间难有交集。

(一)语义算法架构不协调

在构建语义识别的算法模型时,一方面,实体类型和关系类型都由算法设计者进行选择和解释,其中难免掺杂非专业性的主观判断和带有偏好的语词选择;另一方面,当前技术水平下无法搭建出具有“全适应性”的模型,技术人员最多只能就某一类型案件或者特定事件进行模型构建,而这些模型之间存在较大的技术壁垒,不仅难以互通,也无法进行通用性扩展。譬如,陈彦光等人采取的是CNN句子分类模型[5],乔钢柱等人采用OWL进行语言本体描述[10]。合并基于不同底层逻辑构建的语义知识图谱,需要在不同机器语言之间进行算法转译。然而,语义匹配绝大多数情况下不是元素间一对一的匹配,元素间隐含关联的语义关系需要相似匹配,而相似性的确立又依赖于匹配的不断学习,这就要求语义匹配还需进一步挖掘框架间、词元间及框架元素间的语义联系[11]。

(二)图谱的生成路径颠倒

从技术迭代规律看,数据标注的算法设计“由简到繁”无可厚非,但从类案检索的制度预期反思,各类部门法交叉案件才是法律知识图谱建构时应当关注的重点,简单案件的检索需求并不迫切且对类案同判意义不大。司法实践中出现图谱构建的“避重就轻”现象,根源在于,没有认识到简单案件的图谱构建路径应侧重于“从数据到图谱”的自下而上方式,而复杂案件的图谱构建路径应侧重于“从图谱到数据”的自上而下方式。也即,简单案件的类案识别容易“图谱化”而疑难案件的类案识别不容易“图谱化”。这就意味着,技术理性引发路径依赖,类案识别“图谱化”的主要对象已然偏离了类案检索的制度初衷。由此造成复杂案件图谱设计的技术难题非但迟迟未能攻破,巨大的制度运行成本和类案检索质量不高的现实困境,早已阻碍了智慧法院建设继续向深入推进。

(三)关系图谱之间有壁垒

在智能司法实践中,不同类型的司法案件,其类案识别“图谱化”的构建方式多元异构。类案识别“图谱化”的标准大致可以从形式和内容两个维度进行区分。就形式标准而言,裁判文书必须依照法定程序生成,其格式也有相关规范予以限定③;就内容标准而言,图谱构建受制于规范化的法律语言、客观化的事实描述。然而,不同法律部门对客观事实的“转译”并不统一,许多法律概念只是名称相同但在不同部门法之下其内涵和外延差异较大。这就迫使当前类案识别大多选择单一法律关系的案例为样板,建构专用“知识图谱”进行建模。这些图谱的设定标准及模型实验参数不仅受限于不同的算法逻辑,而且各部门法内部再进一步以具体案件类型为标准构建专门的实验基准。因此,无论是刑事法律适用中“数罪并罚”还是民事法律适用中“让与担保”,诸如此类多重法律关系叠加的案件,都难以在规则层面找到图谱设计的交集,遑论超越部门法界限的刑民交叉、刑行交叉、民行交叉等复杂案件。

四、破解类案识别“图谱化”难题的可能方案

破解类案识别“图谱化”的难题,特别是化解语义识别困境,需要首先从法学原理出发优化规范体系并通过“抽象规范定型化”填充语义间隙;在该定型化过程中,可以利用深度学习实现法律知识图谱的逻辑架构不断具化;当然,知识图谱并非类案识别技术优化的终点,发挥事理图谱和抽象语义框架在语义关系判定方面的优势是未来技术迭代的突破口。

(一)优化知识图谱构建的理论依据

我国已形成案例指导制度,指导性案例的裁判要点、叙事结构及其适用方法,成为案例类型化的重要理据[12]。法律知识图谱构建,不仅需要从文意出发,还应当如指导性案例一般,对法律行为进行抽象并且定型化处理,形成图谱搭建的基本要素。当然,也要兼顾各类案件对不同图谱的差异化需求。

其一,在刑法领域,图谱构建不应直接以“一类行为”或“一类罪名”出发,而是需要首先构建刑法总则的概念模型,再以分则中各罪名、构成要件以及量刑情节为充盈。其二,在民法领域推进类案识别,更要重视“应然理论”与“实然案例”之间联动,先类型化民事案件,后搭建类案识别模型。有学者提出,以“请求权基础”为底层逻辑,同时辅以“要件审判九步法”作为核查程序,实现人工智能在民法图谱构建中嵌入[13]。其三,在行政法领域,需要强化规范本身的体系性,由法律专家将行政法类案关联和识别标准先行抽象,然后再介入模型构建,着重判断模型本身的合法性、合理性和可行性。其四,交叉类案件的图谱构建依赖于不同部门法的图谱设计,但这并不意味着该类案件只是各种图谱的简单叠加,而应当发挥事理图谱的技术优势,减少不同部门法各自知识图谱对事实筛选的过度限制,回归交叉案件本身的内在事实关联。

在此基础上,进一步发挥深度学习的优势,逐步实现从知识图谱到事理图谱演化,再向抽象语义框架迈进。

(二)以深度学习优化法律知识图谱

首先,需要利用无监督学习进行类案事实提取,充盈类案同判规则数据库;其次,依据法律规范构成要件要素将待决案件拆分后,整体置入类案同判规则数据库;最后,通过基于深度学习的知识图谱进行事实关系匹配,将无维度标签的数据进行聚类整合[14],以实现类别归纳[15]。

较之于关键词检索遍历结点固定顺序的“盲目搜索”策略[16],基于深度学习构建知识图谱后,可以通过非线性检索方式,避免案由具化检索有限性带来的检索结果隐性缺失,还可以在案例之间建构“去中心化”的深度关联从而避免检索结果的显性错位。

减少了对外部工具和人工特征选择的依赖,可以有效完成端到端的实体识别、关系抽取和关系补全等任务,实现知识图谱的自动构建与内外协调,进而使类案得以精准呈现。

(三)推动知识图谱向事理图谱演进

事理图谱强化了在数据密集情况下对类案信息本身的处理,偏向于逻辑描述与演绎推理,是基于事理逻辑的知识推导。较之于知识图谱,事理图谱可以弥补知识图谱在案件关联、逻辑推演、举证说理等方面的不足。

首先,利用结构化数据搭建知识图谱的效率较高,但类案识别所依附的数据还包括半结构化数据和类结构化数据,事理图谱在应对这两者时,较之于知识图谱更有利于类案相似点与不同点的呈现[17]。譬如,周京艳等人将事理图谱应用于情报研究,情报与类案识别的相同之处在于,信息文字对于两者而言均至关重要,两者都涉及信息判读[18]。

其次,情报存在有效情报信号与情报噪音的区别,类案识别过程也需要在案例之间判断相似性及差异性,同时在相似性要素与差异性要素的比重之间进行衡量,最终做出是否属于类案的决断,而这一判断过程与“情报区分”原理相近。

再次,情报事理图谱依据事件的内在逻辑来消除“情报噪音”,其运行的关键机理是事件间的顺承、因果等逻辑关系在识别分析时的辅证,这一方法对于优化案例数据识别机制、提高案例识别精准,在类案判定层面可以借鉴[18]。

(四)基于抽象语义框架的有益尝试

知识图谱和事理图谱均侧重于法律规则形式化的表示方法,着重提炼概念之间的符号逻辑关联,导致这些专用概念在表意上或多或少脱离了语言本意。基于“望文生义”所建构的类案识别模型,造成类案检索结果“貌合神离”也在所难免。因此,从知识图谱演进至事理图谱,并未成为类案识别模型优化的终点,有学者进一步提出“抽象语义框架”的可能进路[19]。该种方法是“抽象—抽象”的表示逻辑,在生成相关内容时,句法和语义呈现不仅取决于概念本身,还取决于其上下文[20]。

事实上,法律语言较之于自然语言,不仅在内涵上更具有抽象性,而且大量存在的专有名词、特殊的解释学方法以及与“符号主义”渐趋分离的诸如“可辩驳推理”这类新型推理模式出现,抽象语义框架较之于知识图谱和事理图谱而言,更契合类案识别的基本原理。不容忽视的是,因“抽象语义框架”重点关注真实语义的最终输出,需要克服专有名词、解释方法、可辩驳推理层面的理论局限后,才能实现最终输出语义的贴合性,这显然加大了其嵌入类案识别模型的难度。

实践中,日本学者首先从日本民法典的英文版本中提取出构建抽象语义框架的数据集JCivil-Code;然后,增补越南民法典英文版的内容以扩充模型体量,创建了对应的抽象语义框架。目前,虽然该模型与“人标人注”的情形相去甚远,但是在框架层搭建方面取得了初步进展,实现了抽象语义框架应用于法律文件的可能性证成[21]。

五、结论与展望

类案识别“图谱化”是法律人工智能建模的关键原理性支撑,关乎技术理性与制度理性能否有效兼容、二者之间怎样搭建高质量沟通对话的桥梁,因而成为“类脑智能推理”模型建构的“牛鼻子”。然而,在类案识别“图谱化”构建的司法实践中,非结构化文本存在语义识别困难,没有穿透语词并深入规范语义探寻语词之间的实质关联,也即在语义识别的理论依据和规范体系尚存争议时,智能司法实践向技术理性不当“妥协”,因语义算法框架不协调、简繁案件的图谱生成路径颠倒以及关系图谱之间存在壁垒,这些因素叠加使得类案识别“图谱化”并未有效解决类案检索不精准的难题。为了解决上述问题,在“技术—制度协同演化”理念指导下,提出制度优化应当着眼于定型化的案例模型抽象,技术优化可以通过深度学习提升图谱的适配性,而事理图谱和抽象语义框架则是类案识别“图谱化”的迭代方向。当然,打通技术原理、思维模式和制度逻辑三者之间的隔阂并非易事,本文侧重于原理端进行了破除壁垒的初步尝试,在技术端,特别是在模型搭建上,仍然需要继续深化。

注释:

① 《最高人民法院关于加快建设智慧法院的意见》(法发〔2017〕12号)第5条“运用大数据和人工智能技术,按需提供精准智能服务”第(十四)项:“支持办案人员最大限度减轻非审判性事务负担……深挖法律知识资源潜力,提高海量案件案情理解深度学习能力,基于案件事实、争议焦点、法律适用类脑智能推理,满足办案人员对法律、案例、专业知识的精准化需求,促进法官类案同判和量刑规范化。”

② 根据2022年6月23日14时53分访问“中国裁判文书网”所显示的民事案件数量86704896件估算得出,https://wenshu.court.gov.cn/ 。

③ 参见《最高人民法院关于深化人民法院司法体制综合配套改革的意见——人民法院第五个五年改革纲要(2019—2023)》(法发〔2019〕8号)。

猜你喜欢
事理图谱检索
基于图对比注意力网络的知识图谱补全
绘一张成长图谱
语 丝
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
图表
阅读教学中的人文事理解读
主动对接你思维的知识图谱
一语中的