杨佳乐 王俊豪 钱卫宁 罗轶凤
摘要: 提出了一种企业破产事件抽取框架, 该框架可以从法律裁定书等卷宗资料中检测出相应的法律事件, 并抽取出与事件相关的结构化要素信息. 该框架结合从法院所获得的裁定书等卷宗信息, 运用远程监督技术来构建模型训练数据; 再通过命名实体识别技术对句级别的文书进行序列标注; 最后结合自定义的事件触发词表与事件字典, 运用事件抽取技术对法律文书进行事件识别, 并给出对应事件的结构化信息.实验结果表明本框架能够取得较高的事件识别精度, 是一种有效的企业破产事件抽取框架.
关键词: 企业破产; 命名实体识别; 事件抽取
中图分类号: TP399 文献标志码: A DOI: 10.3969/j.issn.1000-5641.201921015
0 引言
近年来, 我国“僵尸企业”破产案件每年的立案数量较往年同期均有大幅增长, 这给各级法院与破产庭带来了较大的案件审判压力. “僵尸企业”是经济转型过程中的产物, 也是市场经济“劣淘汰”的必然. 中央经济工作会议指出, 加快处置“僵尸企业”, 旨在优化资源配置, 规范经济秩序, 促进产业优化重组, 对于助力深化供给侧结构性改革、提升国有企业核心竞争力、推动经济高质量发展具有积极意义. 针对“僵尸企业”破产案件的辅助审判问题, 我们开展了“面向‘僵尸企业破产案件的企业识别认定和统一裁定技术研究”这一课题的研究工作, 以提升法官对破产案件的审判效率, 缓解“僵尸企业”破产案件数量激增带来的压力. 从破产申请受理材料中抽取出与企业破产相关的事件信息是一项辅助破产案件审判的重要工作, 既可以提升法官的判案效率, 又可以有效改善类案推荐效果.
事件抽取需要對文本进行处理和理解, 从各类受理文本材料中抽取出与企业破产相关事件的各个要素, 并实现信息的自动抽取工作. 通过与上海某法院的合作, 获取了部分破产案件的卷宗信息, 卷宗内包含的裁定文书与各种正卷资料是重要而宝贵的研究素材. 但是, 各种裁定书都属于无结构文本的范畴, 同一个卷宗下各个阶段的裁定书又相互关联, 如何对裁定文书进行系统地梳理, 从而得到结构化的信息, 进而训练模型来对破产类目下的各种卷宗进行自动的要素识别, 这是一个非常有意义同时又亟待解决的研究课题.
从技术角度来看, 企业破产事件信息的抽取问题涵盖两方面的技术: ①实体抽取(Entity Extraction),也即命名实体识别(Named Entity Recognition, NER), 在信息抽取中扮演重要的角色, 主要抽取文本中的原子信息元素, 如人名、组织/机构名、地理位置、日期、时间和金融类数字等; ②事件抽取(Event Extraction), 相当于一种多元关系的集合, 与关系抽取(Relation Extraction) 即通常说的(实体, 关系, 实体) 三元对相比, 事件抽取同样需要从文本中抽取候选词与对应的元素, 但与关系抽取不同的是, 关系抽取的问题是二元的, 而且两个元素通常都会出现在同一个句子中, 而事件抽取的难点在于, 有多个元素与候选词, 且可能会分布在多个句子中. 因此依据案件卷宗资料进行信息抽取是一项具有较大难度的任务.
在法律领域内, 已有的一些研究主要是关注文本分类、情感分析、文本相似性与文本向量的表征等研究方向, 有极少数的工作对法律背景下的文本(判决书、裁定书等) 进行信息抽取. 去除领域概念,国内外均有大量信息抽取相关的工作已经开展, 有关的具体技术会在下一章相关工作中介绍. 本文针对破产案件较常出现的“劳务纠纷”和“借贷纠纷”事件开展研究, 实现对法律裁定书中相关事件信息的抽取. 需要说明的是, 破产案件包含的要素不止有“劳务纠纷”与“借贷纠纷”, 本文的研究方法适用于但不局限于“劳务纠纷”与“借贷纠纷”二类事件信息的抽取.
1 相关工作
要素识别的主要任务是从非结构化的法律裁定书提取结构化的信息, 从而对破产申请受理材料进行破产相关要素的识别, 进而实现信息的自动抽取. 要素识别主要涉及命名实体识别与事件抽取两方面技术, 本文也就从这两个方面来对目前的研究工作进展进行概述.
1.1 命名实体识别
命名实体识别主要是为了识别出文本中的时间、地点、人物、公司名称等关键信息, 为后续的下游任务, 如信息抽取、指代消解、实体链接、问答等任务提供关键信息. 通常将命名实体识别问题定义成一个序列标注问题, 即将分词后的短语序列标注成其对应的类别. 在法律裁定文书的命名实体识别标注中, 将要预测的标签有: 时间、地点、人名、组织名称. 在面向法律的命名实体识别, 主要面临着以下问题: ①法律裁定书通常具有较为复杂的语义结构, 通用的命名实体模型在该数据集上, 不能达到较好的预测精度. ②国内基于法律裁定书的命名实体识别研究较少, 导致了相关标注数据集的匮乏.由于缺少高质量的法律领域数据集, 无法训练知识相关的特定模型.
命名实体领域的实现方法主要有三种. 基于知识库或词典的方法极度依赖知识库的构建, 并需要极强的语言学知识, 耗费大量人力物力, 代价过大. 基于传统机器学习的命名实体识别方法主要包括隐马尔科夫模型(Hidden Markov Mode, HMM)、最大熵马尔可夫模型(Maximum Entropy MarkovModel, MEMM)[1] 和条件随机场模型(Conditional Random Field, CRF)[2] 等方法. 由于序列标注问题中预测标签之间存在相互依赖的关系, 而CRF 模型同时考虑预测标签自身概率和预测标签之间的转移概率, 是传统机器学习方法中效果最好且最常用的模型. 使用这类模型不像早期方法一样, 需要耗费大量人力物力进行知识库的构建以及需要极强的语言学知识, 只需要人工标注一批数据进行训练,就可得到较好的结果. 但是这种方法极度依赖特征工程, 特征向量的好坏直接决定了模型的结果, 这也就导致了需要花费大量时间分析数据提取对任务有用的特征. 基于深度学习的方法与传统机器学习方法不同, 不需要复杂的人工特征抽取, 仅需要搭建一个可以自动学习特征的网络模型就能获得很好的效果. 循环神经网络(Recurrent Neural Network, RNN) 由于其考虑上下文的序列信息, 在序列标注中具有较好的效果. Collobert[3] 在目标函数中借鉴CRF 模型, 添加状态转移得分(后被称为CRF 层), 使得命名实体识别效果显著提高. 在后来的研究中, 一系列RNN 结合CRF 层的模型的出现, 使得命名实体识别的效果达到甚至超过了特征工程丰富的CRF 模型. 然而深度学习方法需要大量的标注语料进行训练学习, 才能让模型更好地拟合任务.
针对缺乏公开的法律裁判文书数据集的问题, 首先通过搭建一个简单的数据标注辅助网站来减缓标注任务的工作量, 紧接着人工标注出一批高质量的法律裁判文书数据用于模型的训练. 针对通用模型在专业领域上效果不佳的问题, 选取了双向长短时记忆网络(Bidirectional Long Short-TermMemory, Bi-LSTM) 加条件随机场层(CRF) 的模型[4] 来进行命名实体识别任务. 相较于普通的RNN模型, 长短时记忆网络(Long Short-Term Memory, LSTM) 解决了长序依赖问题, 而Bi-LSTM 模型同时将上下文两个方向的信息添加到特征中, 再加上CRF 层对于标签之间的转移的约束, 从而得到一个较为优秀的预测效果.
1.2 事件抽取
在自然语言处理(Nature Language Processing, NLP) 领域, 事件抽取是一个极具挑战的任务. 目的是从文本中发现事件提及(Event Mention) 并且抽取出包含事件触发词(Event Trigger) 与事件元素(Event Argument) 的事件. 事件提及是包含一个或多个事件触发词与事件元素的句子. 然而, 在法律领域, 还没有有效的事件抽取系统, 尤其是中文的事件抽取系统, 虽然在KMCNN[5] 中尝试用构建有效子树的方式来抽取多对实体关系. 但是在涉及大量关系时, 树结构会变得异常庞大、冗杂. 本文主要面临以下两个方面的挑战.
(1) 数据缺失大多数的事件抽取方法往往采用监督學习的模式, 这意味着需要一个高质量的大规模数据集, 同时这也意味着大量的人力与时间成本. 但是在法律背景下, 还没有各地区高院公开的关于破产案例的人工标注数据集.
(2) 裁定书数据结构复杂首先, 裁定书是一种非结构化数据, 这给事件抽取带来了挑战; 其次, 同一个破产案件会由一系列的裁定书及卷宗的其他组成部分(如法院决定、法院通知、法院公告等) 构成, 多个裁定书中会涉及破产案件中不同的事件要素, 同时一个事件也可能会在多个裁定书中循环发展, 比如破产程序可以具体分为三类(破产清算、破产重整与破产和解), 而破产清算均可与破产重整和破产和解相互转换. 一个破产的案例, 往往包含数年的时间线, 在这段时间线内, 不同事件要素错综复杂的发展顺序同样也给我们对破产事件的抽取带来了挑战.
事件抽取主要有以下研究方法.
(1) 监督学习 监督学习主要包括两大类, 基于特征向量[6] 的学习方法和基于核函数[7] 的学习方法.这种方法将抽取任务看作一个分类的问题, 但是要想获取好的效果, 首要前提就是需要人工标注的大规模高质量的训练语料库, 然后在已经标注好的语料库基础上再进行特征抽取和选择工作, 从而进行实体等关键信息的抽取工作. 但是正如前面提及的数据集缺失带来的挑战, 这种方法有明显的缺点,大规模高质量的标注训练集需要大量的人力与财力, 同时又具有只适合特定研究领域的局限性, 不适合本文的事件抽取任务.
(2) 半监督学习 半监督学习又称弱监督的学习方法, 主要是基于种子的bootstrap[8] 方法, 这种方法首先需要预定义相应的抽取模式, 然后人工构造对应的抽取实例作为种子去迭代地抽取相应的事件. 但是这种抽取模型也具有明显的缺点, 初始种子集和模式的精度与准确率会对后续的迭代抽取的效果产生决定性影响. 这种模式产生的结果往往会导致低准确率和语义漂移问题, 也不适合本文的事件抽取任务.
(3) 无监督学习 无监督学习[9] 是一种自底向上的信息抽取策略, 它基于如下假设, 具有相同抽取关系的实体它们的上下文也应该是相似的. 可以通过上下文信息对实体对进行聚类, 但是这种方法产生的聚类结果一般会十分宽泛, 并且很难将对应的事件映射到合适的事件类别上去. 因为没有标准的评测语料, 也无法对产生的结果进行质量评测. 虽然无监督学习可以给事件抽取任务快速产生大量的数据集, 但是由于无法保证数据集的质量, 还可能引入大量杂项, 从而不适合本文的事件抽取任务.
(4) 远程监督学习 远程监督[10] 学习兼具上述方法的优点, 既能够快速地为要素抽取任务打标签,达到扩充数据集的目的, 同时又能加入一定的专家知识在数据集扩充过程中起到监督效果. 因此, 我们采用了远程监督的模式, 远程监督由Mintz[11] 提出, 基于下述著名假设: 如果一个句子中含有一个关系涉及的实体对, 那么这个句子就可以表征这种关系. 他将这种不依赖人工标注的抽取模式用到了抽取模型上, 虽然这种模式可能会带来噪声和错误标签的问题, 但是通过将指定真实关系的句子作为真实事件, 将实际上不表征对应关系的句子作为NA, 其他的句子作为反例, 这样就为构建数据集提供了可能.
为了解决前文提及的两个主要挑战, 本文采用远程监督的方式为事件抽取自动生成大规模带标签的数据, 用序列标注模型去自动抽取句级别的事件, 最后用事件监测模型来处理裁定书等篇章级别法律文档, 从而实现在法律领域的关于破产案件的要素抽取工作.
2 框架系统详解
本文提出的破产案件要素抽取整体框架图如图1 所示, 该框架将要素抽取分为数据生成、命名实体识别和事件抽取三大步骤.
2.1 数据生成
图2 描述了基于远程监督模式的数据生成方式. 我们的数据有两个主要来源: 由法院法官和司法大数据项目技术专员从法律卷宗等文献来源总结出的破产案件的结构化事件要素, 以及司法数据库中的非结构化案件裁定书. 由于总结结构化事件要素需要翻阅大量卷宗, 由具有法律背景知识的专业人员抽象出事件的要素成分, 所以这是一个长期更新的过程. 现阶段, 我们已有关于破产案件下劳务纠纷与借贷纠纷的结构化标注数据. 对应的数据结构主要包含组织(ORG)、时间(TIME)、人名(PER)、地点(LOC); 同时还维护对应事件的触发词表(TRI) 以及对应事件的事件字典(DIC). 非结构化的数据主要来源于项目合作的法院卷宗库, 由于案件裁定书所包含的信息更为符合项目需求, 因此对于卷宗的文书部分, 主要从非结构化的裁定书中去提取结构化的事件要素.
数据的生成方式: 通过由专业人员对卷宗等法律文件进行总结, 我们维护了一个预定义的事件触发词表. 数据的生成主要基于下述3 个假设: ①对于一篇法律裁定书, 如果它包含相应的事件触发词,那么认为该裁定书有大概率是对应的事件; ②根据在法律事件知识库中存放的结构化事件要素, 我们认为如果在该裁定书中, 一个句子中包含一个或多个相应的事件要素, 那么该句子有大概率是一个事件提及; ③如果一个事件提及中包含事件触发词和事件元素, 那么这个事件提及就会被自动标注为正例, 其他的句子如果在下一階段命名实体识别中依然未识别出事件元素, 那么就会被自动标记为负例.
[ 参 考 文 献]
[ 1 ]MCCALLUM A, FREITAG D, PEREIRA F. Maximum entropy markov models for information extraction and segmentation[C]//ICML, 2000, 17: 591-598.
[ 2 ]LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional random fields: Probabilistic models for segmenting and labeling sequencedata [C]//Proc 18th International Conf on Machine Learning, New York: ACM, 2001: 282-289.
[ 3 ]COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch [J]. Journal of Machine LearningResearch, 2011(12): 2493-2537.
[ 4 ] HUANG Z, XU W, YU K. Bidirectional LSTM-CRF Models for sequence tagging [J]. Computer Science, 2015: 1508. 01991v1.
[ 5 ]高丹, 彭敦陆, 刘丛. 海量法律文书中基于CNN的实体关系抽取技术 [J]. 小型微型计算机系统, 2018, 39(5): 1021-1026. DOI: 10.3969/j.issn.1000-1220.2018.05.028.
[ 6 ]KOTSIANTIS S B, ZAHARAKIS I, PINTELAS P. Supervised machine learning: A review of classification techniques [J]. EmergingArtificial Intelligence Applications in Computer Engineering, 2007, 160: 3-24.
[ 7 ]BELAVAGI M C, MUNIYAL B. Performance evaluation of supervised machine learning algorithms for intrusion detection [J].Procedia Computer Science, 2016, 89: 117-123. DOI: 10.1016/j.procs.2016.06.016.
[ 8 ]CARLSON A, BETTERIDGE J, WANG R C, et al. Coupled semi-supervised learning for information extraction [C]//Proceedings ofthe Third ACM International Conference on Web Search and Data Mining. New York: ACM, 2010: 101-110.
[ 9 ]HAN J, NGAN K N, LI M, et al. Unsupervised extraction of visual attention objects in color images [J]. IEEE Transactions onCircuits and Systems for Video Technology, 2005, 16(1): 141-145.
[10]ZENG D, LIU K, CHEN Y, et al. Distant supervision for relation extraction via piecewise convolutional neural networks[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. New York: ACM, 2015: 1753-1762.
[11]MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data [C]//Proceedings of the JointConference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of theAFNLP: Volume 2. Association for Computational Linguistics, 2009: 1003-1011.
[12] 王礼敏. 面向法律文书的中文命名实体识别方法研究 [D]. 江苏 苏州: 苏州大学, 2018.
(责任编辑: 张 晶)