法律自然语言处理技术的当前发展*

2019-12-14 06:00章华娟汪承昊
法制博览 2019年36期
关键词:语料文书检索

章华娟 汪承昊

1.广东省人民检察院,广东 广州 510623;2.北京大学,北京 100871

一、基础:自然语言处理技术在智慧司法中的地位

(一)自然语言技术的基础性角色

通俗来讲,自然语言技术(NLP)完成的是这样一个任务,即构建人机联系的桥梁。更加学术规范的表达,则为“研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。①”这些方法具体包括中文分词。词性标注、词汇语义、句法解析等等,目标是能够将人的半结构化语言转化为机器能够处理的结构化信息。

法律领域作为人工智能应用的细分领域,离不开自然语言处理技术的基础性作用,即当前国内产业界很流行的一句话“让机器习得法律人的习惯”,在此基础上自动阅卷、智能检索,甚至炒作更为火热的“机器裁判”等才可能有进一步的发展。

实际上,自然语言技术的起源要早于人工智能的兴盛,在计算机诞生时就面临如何解析人类语言的问题。当前解析的方法分支主要有两个,称之为规则派和统计派。规则派的基础是语言学理论,采用的是规则形式描述或解释歧义行为或歧义特征,它通过语言必须遵守的一系列原则来描述语言。此种方法下必须事先对大量的语言现象进行研究,归纳出一系列的语言规则。然后再形成一套复杂的规则集。而另一种方式则是以统计学为基础,输入的是一段文本和事先有的分类,通过有监督或无监督的分类器,给出文本归属于哪一类的概率,并在此基础上可生成代表该类的一些特征词。在人工智能领域,前一种更倾向于规则驱动,后一种更倾向于数据驱动。

这两种方式,在当前的法律领域都有所适用,但适用的普遍性、受认可程度不尽相同,并且存在较多误区,这些都是本文试图加以厘清的问题。

(二)智慧司法的建设目标

近年来,各司法机关都意识到技术革新给工作带来的意义,开始加强了信息化的投入,试图通过办案的信息化武装,来提高工作效率、缓解案多人少的压力。比如最高人民检察院《“十三五”时期科技强检规划纲要》(下称《规划纲要》),就明确了将来一段时期内检察技术科技强检的目标、任务,提出了构建智慧检务、实现从数字化向智慧化跃升,强化司法办案智能信息服务等重点任务②。再比如法院的信息化建设,在最新的“五五纲要”(第五个五年改革纲要)中,也以单独一章篇幅论述了“智慧法院”的建设任务(这在前几次改革纲要中,都是没有过的重视程度),其中提到推进智慧法院基础设施建设、科技创新手段深度运用、电子诉讼覆盖范围、电子卷宗生成和归档机制、司法大数据管理和应用机制等五大方面发力,整体的任务就是要牢牢把握新一轮科技革命历史机遇,充分运用大数据、云计算、人工智能等现代科技手段破解改革难题、提升司法效能,推动人民法院司法改革与智能化、信息化建设两翼发力,为促进审判体系和审判能力现代化提供有力科技支撑③。

从技术发展和智慧司法所提出的目标两相比较来看,建设任务和差距仍然是不小的。从技术角度来看,其中面临几大矛盾点,首先是面临通用技术如何向法律领域特别技术发展,量身定做一套适合法律领域的技术系统;其次是当前的政府预算、购买者的应用场景能否与当前的技术发展匹配。

自然语言处理,作为智能化中必不可少的一环,同样面临上述困惑。典型比如自然语言技术,主要发源于西方国家,主要针对的是英语,移植到处理汉语就需要开发汉语的分词、标注等词库、规则,这方面国内近年来有所发展,但仍然相对不足。其次,法律领域又因为追求表述的严谨性,有一套严密的法律概念体系,这些法言法语明显地不同于日常用语,针对后者开发的自然语言技术在直接套用于前者时,效果难以保证。如此看,自然语言处理技术,就智慧司法的适用而言,主要是一个如何量身定做一套适合法律表述特点的技术解决方案。

二、分析:实践的适用场景及障碍

(一)司法领域的特殊性

法言法语本身有其特殊性。首先表现为文书本身要求一定的体例格式,不论是基于规则的还是基于概率的方式,能够准确定位所需要采集的信息在文本中精确的位置都是有利因素。两种理解文本的方法有不同,前者是采取一行或一段式遍历的方法提取满足规则的信息,后者则是以分段、分词,对文本加以理解。缩小遍历或分词的范围,能够显著提升语言处理的效率和理解的精度。其次表现为法律语言多数实词都是法律领域特有的词汇和概念,典型比如民事上的“承诺”、“要约”,刑事中的各种罪名,这些都是有特定含义且在日常会话中使用频率比较低的用词,而且其中有些概念甚至是晦涩的、不能望文生义的。特有法律概念的存在,给自然语言处理制造了障碍,非有一定法律专业背景的标注员(主要指有监督学习下,机器学习需要)、没有完整的法律词汇库,都会对最终的语言理解能力造成负面影响。

(二)主要的适用领域

智能检索、类似推送是人工智能落地的主要细分领域。智能检索和类案推送基于一定相似的场景,即根据客户输入的特定需求或者在办案件的场景,推送用户最需要的、和场景最贴近、最相似的案例。从技术上来看,和自然语言相关的主要三个步骤,分别是解析用户请求的、查询数据库中的文本包括哪些,以及用户请求同文本间的匹配④。首先是对已有的语料(如果是案例推送,就主要是以案例为单元的文本)要预处理,拆解成各功能部分(component),并对各文本标注各种为满足检索需求用的标签。其次是对检索需求(类似推送和智能检索只是主动、被动的区别,本质上都可以理解为是一种检索)进行解析,同样也需要拆解为段落、句子和词语,并根据语义分析得出可能检索意图;最后是检索意图和数据库标签进行匹配⑤。两个理解的匹配,都离不开自然语言的先期处理和即时处理的技术支撑,下面以一些案例说明自然语言处理的两大方法,是如何融合期间发挥作用的。

任务一:法规的适时推送和检索。任务的构造遵循上述的一般原理,即首先要对规则进行预处理,对功能、话题进行分类,国外的科研项目中比如把意大利的消费者权益保护法分为十二个等级,义务、禁止、权利和定义等四大功能⑥。在此期间,机器学习和NLP各有分工,前者主要是获得了法规的功能性分类,后者则主要是提取了法规的特征词(这些特征词,可以作为发起的检索,用于匹配标签)。用户在检索法条时,多数情况下是模糊检索,是基于案件事实的法条匹配需要产生的检索,因此输入的并不完全是具体哪部法律的哪一条(这其实也是某个文本的特征,不过这只是基本特征),该任务已经在初级版本的法条检索系统中实现了该功能。当前主要是如何理解模糊检索背后,用户的真正意图方面缺乏有效办法。司法领域用户的特殊之处还在于,法律规定具有时效性,新旧法律之间存在变化,需要进行及时更新,避免推送陈旧信息。

任务二:裁判结果预测。这是人工智能在法律领域应用一直以来的热点,也是学术、社会关注的重点方向。就预测的实现路径来看,当前主要有两种思路,一种是基于逻辑、规则的推理,一种则是基于统计的模型建构。从发展趋势来看,更趋近于机器学习的后者更加受到开发者的青睐,市面上将此类产品称为“量刑辅助产品”,主要就是通过测试,寻找出影响量刑的主要因素,并通过模型调试将因素和最终的量刑结果的输出间构建起模型上的联系。这一过程中同样离不开自然语言处理的支持,国内的项目中自然语言处理的过程主要在研发阶段完成,比如通过裁判文书的信息提取,就是人类语言向机器语言转变的过程。但在用户层面,呈现的直接是结构化数据的输入界面。在国外的产品中,已经能够实现一定程度的用户层面即时的自然语言处理,smile+IBP系统就是其中的典型,用户可以输入一段文本来描述一个问题,smile系统将其拆解并表示为一组特征,并作分类,将分类结果传至IBP系统中,由IBP系统实现预测输出。该套系统实际上是两个模型的嵌套,smile系统的任务是对自然语言解析,完成分类,并将分类的结果传给IBP系统,由其完成系统的主任务(这是第二个分类器)。上述两套系统的根本区别在于用户输入的是结构化的数据还是自然语言。

此外,还有一些自然语言技术的简单应用,包括文书生成、文书屏蔽、文书校对等等,需要人工整理大量的文本规则,并且带来一定的智能化体验。在具体的业务场景中,自然语言技术的不同组合,能够形成更好的支撑能力,比如综合性的办案平台,集成知识检索、统计、文书编写、结果预测等等为一体,是司法信息化的发展方向。

自然语言技术的非结构化信息抽取能力,还带来了新的智能化发展机会,能否采用文书数据,来分析特定犯罪案件犯罪嫌疑人的羁押风险?这是一个较为前沿的题目。

三、探索:羁押必要评估系统的尝试

为借鉴自然语言处理技术国外的成熟经验,并在法律领域作一定探索,研究中结合了工作的实际需要、当前的改革热点,尝试开发一套实际应用系统,并在其中尝试改进自然语言处理的能力。

2.2两组患者产后情况比较:产妇产后2小时血量、月经恢复情况、乳胀及泌乳、胎盘胎膜残留结果显示,两组间差距较大,观察组各项指标数据更优,两组对比差异具备统计学意义,P<0.05。详见表2。

本研究主要分析了刑事案件的庭前强制措施决定问题,学界和实务中都对该问题十分关注,尤其是对逮捕率太高、程序缺乏平等对抗、审查主体缺乏中立等问题诟病不少。审查机关对于是否逮捕也十分犯难,主要对犯罪嫌疑人的非羁押时人身危险性缺乏足够证据,担心无法保障追诉、产生社会危险是审查机关作出逮捕的重要原因之一。

本系统研发即在于挖掘影响是否逮捕的主要因素,并将其纳入输入指标中,在输出中给出是否逮捕的建议,并提示不逮捕时的风险提示。基于本文主要讨论自然语言处理的问题,重点阐释其中的自然语言处理的问题。

(一)系统开发中主要的自然语言处理问题

在系统开发过程中,自然语言处理的主要任务是把自然语言句子这样的非结构数据转换为结构数据,然后再利用强大的查询功能,如SQL实现最终匹配。上述过程称之为信息提取⑦。

1.文书格式不统一,影响提取质量。本次系统开发主要采用的语料是已经公开的裁判文书,因此面临自然语言处理的诸多问题。首先是文本的格式体例不统一,影响了提取的效率;其次是文书数据项的不直接呈现,有数据的二次处理需要;最后是文本中部分数据项的缺失,导致缺省值的出现,需要对此单独处理。

2.数据项有不同特点,增加了自然语言处理的难度。在我们的输入指标中,有类型数据、日期数据、连续数据,对不同数据的处理,适合不同的处理方式。

3.模型中的数据输出,也存在不同的处理方式。采用不同的数据呈现方式,取决于客户的需要。就本系统而言,就是要兼顾逮捕的预计取保风险、降低低风险案件的逮捕率两大目标看,我们优化了输出数据的输出方式。

(二)主要的做法

1.循环改进规则。因为语料的结构不一致,表述多样,我们采取了反复循环提炼规则,提高匹配效果。该部分我们吸纳了大量具有法律学位背景的工程师参与工作,将各数据项在文书中的表现形式进行归纳。

2.将适合机器学习的类型,我们采用有监督学习的方式,多次尝试文本分类的任务。有些任务适合机器学习的方式提取,典型的是一种语义型的、表述方式多元的分类任务,可以采取机器学习的方式,我们的任务中就有部分的数据指标,采取了此种方式。

3.对自然语言处理经验的积累。积累的方法有两种,一种是通过机器学习模型的方式固定,即通过规则提取的精确部分,可以作为有监督学习的人工标签语料,用于训练概率的模型;第二种是通过构建词典的方式,将数据指标的文书表达用词构建了字典,进行分类保存。在研发过程及后续升级中,该词库的形成将起到关键作用,可以提高自然语言分词、识别的能力。

4.数据的输入和输出设计。从机器学习的思路看,输入的指标都是反映案件信息的特征,原则上讲数据指标越体系、全面,越能够反映案件情况,所得出的输出结果页能够更准确。但这也有一个悖论,这给输入体系造成了负担。基于准确性的考虑,本研究开发的系统主要以输入结构化数据为主,过多的输入项将给用户造成负担。因此输入端的核心问题是如何对输入指标做取舍,这部分体现了我们开发该系统的核心能力。输出端的问题在于给出的建议倾向性程度如何把握,众所周知机器学习的结果给出的只是概率,并由人调整阈值。因此,如何设计阈值,背后有系统研发者的刑事政策考虑,也有基于当前的逮捕现状、目标的考虑,这部分离不开资深法律人的介入,也充分说明机器系统本身是为人所服务,由人所把控的辅助理念。

四、结语:依靠制度完善实现能力提升

在法律领域开展人工智能的开发应用,自然语言处理技术是关键点。原因主要是法律活动围绕文书展开,以文本为载体的语料主要是书面的自然语言,这明显有别于金融领域(围绕价格,大量的结构化数据),也不同于医疗领域(图像是其重要的语料类型)。因此,法律领域适用人工智能的相关前沿技术,首要前提即是自然语言处理的任务。从当前看,有以下困难,造成进一步发展出现了不少的障碍:一是语料的范围有限,且缺乏交叉验证;法律人工智能之所以近年来在国内有所发展,得益于司法公开,尤其是裁判文书的公开。但在后续,其他一些司法文书公开并未有实质跟进,即使是在政法机关内部各家,公开程度也不一致;这造成了可以依据的主要是公开的裁判文书。但作为案件的事实信息而言,裁判文书能够反映的十分有限,仍以羁押必要性的系统开发为例,是否具有人身危险性、逮捕必要性,需要结合案件、嫌疑人的全面信息综合判断,裁判文书中的案件信息多于个人信息,信息的缺失、缺少其他语料来源的交叉验证,都使得系统的预测准确性大打折扣。二是语料的质量不高,仍然缺乏对裁判文书的统一格式要求,目前能够统一的主要文书一级结构,但在具体的日期、金额等关键信息表述方式上,仍由法官各自发挥。这对于自然语言处理而言,人为制造了不小麻烦,比如金额中首先需要对于金额的含义、金额间的关系,类型过多都是导致计算机分类准确度降低的因素。三是语料的公开程度与结构仍然处于黑箱状态,即公开的比例、选择性等都处于不可知状态,导致根据公开部分的文书所得出的模型也可能并不符合实际情况。四是文书的部分概念的字面含义,和办案场景中的分类并不相同,比如取保候审中的“在逃”的表述,并不代表实际案件中的嫌疑人即是故意违反取保规定,有可能只是短暂的失去联系。上述问题,部分是技术问题,部分则是业务中对词语的尺度把握问题,但都给了自然语言处理及构建模型造成了很大困扰。

因此,突破法律自然语言处理的瓶颈障碍,离不开技术的进一步提升,更重要的是相关部门的制度配合。与之相关的制度包括,统一文书格式的强制要求、案件的各类文书的精准关联和公开使用,办案人在用词上的标准基本一致的要求等。这些都将有助于提高语料的质量和内容提取的精准性。而从当前的现实来看,我们既要保持对法律人工智能足够的信心,又应当对通过裁判文书得出的模型使用场合有理性认识,现阶段主要将其定位为一种辅助工具、减少人工查找的负担等方面,基于当前的语料状况下是有希望实现的。

[ 注 释 ]

①郑捷.NLP汉语自然语言处理处理原理与实践[M].电子工业出版社,2018,5:1.

②最高人民检察院.《多措并举促进基层院信息化建设》[EB/OL].http: // www.s pp. gov. cn/ ztk/ dfld/ 2017dfld/ dfld98_4843/ywtt/ 201705/ t20170525_191464.shtml.

③最高人民法院.关于深化人民法院司法体制综合配套改革的意见——人民法院第五个五年改革纲要(2019—2023).

④Charniak,Eugene.1991.Bayesian networks without tears[J].AI Magazine,12(4):50-63.

⑤Turtle,Howard.1995.Text retrieval in the legal world[J].Artificial Intelligence and Law,3(1-2):5-54.

⑥Biagioli,Carlo,Francesconi,Enrico,Passerini,Andrea,Montemagni,Simonetta,and Soria,Claudia.2005.Automatic semantics extraction in law documents.In:ICAIL ’05:7th International Conference on AI and Law.New York,NY:ACM.;Francesconi,Enrico and Passerini,Andrea.2007.Automatic classification of provisions in legislative texts[Z].Artificial Intelligence and Law,15,1-17.

⑦具体流程图,可参见Steven bird,ewan klein:《python 自然语言处理》[M].人民邮电出版社,2018:282.

猜你喜欢
语料文书检索
太行山文书精品选(17)
监狱执法文书规范探讨
2019年第4-6期便捷检索目录
黑水城出土《宋西北边境军政文书》中“砲”类文书再讨论
基于语料调查的“连……都(也)……”出现的语义背景分析
专利检索中“语义”的表现
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
关于回鹘文书中几个词的探讨