基于小样本采集环境下的合同智能化应用研究

2021-05-07 10:44张兰兰

数字技术与应用 2021年3期

张兰兰

(中海油信息科技有限公司,天津 300452)

作为企业业务经营的重要依据,合同的管理已经越来越被企业所关注,随着国家对于法治央企建设的相关政策性要求与文件的出台,集团公司对于合同管理的合法性、合规性、抗风险能力的要求也越来越高,从而对于法律共享中心的法务工作人员合同审核的专业程度、及时响应及准确程度均提出了更高的要求。

因此需要在合同审核阶段的业务处理过程中引入智能化应用以辅助业务的办理,将法务工作人员从大量的重复性、常识性、规律性的工作中解放出来,从而提升集团法律共享中心的法务工作人员的工作效率、服务质量以及审查的准确性。

1 关键技术说明

1.1 自然语言处理(NLP)

自然语言处理(Natural Language Processing,NLP)是语言信息处理的一个重要分支,是实现人机交互的重要沟通方式,在我国就是中文信息处理的意思[1]。

1.2 机器学习技术

机器学习就是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,重新组织已有的知识结构,不断改善自身的性能,实现自我完善。

在机器学习的主要方式为三种,分别为类监督学习、无监督学习以及半监督学习[2]。

2 智能化技术在合同审核中的应用

为了提升合同管理的信息化水平、提高合同管理业务处理效率,2014年集团开始了合同管理的数字化管理进程,合同管理始建于2015年,并同期开始提供全集团的内部服务,覆盖了合同业务管理的签订前、签订中、履行中、履行后及统计分析的全生命周期。

人工智能通用技术研究有助于深入理解技术前景及其局限。当前人工智能领域以“AI+行业”的方式展开,人脸识别、人脸支付、语音识别、智能医疗、智能家居、智能零售等应用快速步入社会经济。在这些新兴应用领域的背后,是机器学习、知识图谱、自然语言处理、人机交互、计算机视觉、生物特征识别、虚拟现实等通用技术的支撑。新技术在带来热潮和繁荣的同时也有其局限性。通过对人工智能通用技术的研究,能够了解当前技术发展状况,充分认识技术的更多可能以及其局限性。

2.1 人工智能技术在合同智能审核中的应用

人工智能技术在法律事务及合同管理领域的应用,国内外同类软件提供的主要应用包括合同关键信息结构化、合同预筛选、合同审查、风险状况统计、风险分析报告以及自助式训练等,其中合同审查功能是所有软件的核心应用。研发这些软件涉及到的人工智能关键技术,包括机器学习算法、文本分析、自然语言处理、知识图谱等技术。

2.2 项目总体技术架构

总体技术架构通过以下几层展开(图1):

(1)系统层是系统的支撑,是整个技术架构的基础。

(2)数据层描述的是系统涉及到的不同方面的数据的存储。

图1 项目技术架构图Fig.1 Project technical architecture diagram

图2 语义分析处理过程Fig.2 Semantic analysis processing process

(3)数据访问层负责与数据库存储设备打交道,为业务层提供数据服务。

(4)算法层负责数据对象的运算和操作,为业务层提供符合业务场景的数据运算服务。

(5)业务层确定业务的逻辑结构和工作流程,以各种协议及中间件为依托,为整个系统提供专门的服务能力。

(6)负载分配层为服务提供高可用,可扩展,高负载的服务能力提供有效保障。

(7)系统中各个子系统及服务通过RESTful API的方式进行统一的权限与认证及配置体系,通过统一的消息系统进行系统间消息的传递与接收,通过统一的日志处理进行日志的记录与查看,从而形成一整套完整的技术体系架构。

2.3 小语料、多范本数据模型研究

众所周知,如果想要得到一个性能良好的模型,需要大量的数据标注工作,同时也需要大量的用于标注的数据。对于通用模型,我们可以从互联网获取很多免费的可供标注的数据资源,同时也有大量的提供标注服务的公司。但是对于合同这个领域,一方面合同数量极其有限,另一方面合同中包含大量敏感信息,不便外泄。所以就需要一个能在小语料的场景下能够提供更多泛化能力的模型来进行自然语言处理的工作。

本项目通过对近200份包含三类(分别是IT类硬件设备采购合同-中心2017修订模板,IT类系统维护与技术支持服务合同-中心2017修订模板,IT类实施服务合同-中心2017修订模板)合同进行标注,如图2。

图3 智能化应用管理平台处理机制Fig.3 Processing mechanism of intelligent application management platform

模型训练除了必不可少的语料之外,还加入了实体词库。前者来自人工标注的数据,经过加工形成语料,后者一部分来自人工标注的数据,一部分来自表达式匹配抽取的数据,后续还可以通过结合已有系统的数据来充实实体词库。这样就为模型训练提供了更多的特征数据,相当于间接地扩充了语料。

在进行合同要素提取的时候,通过对模型预测的结果进行二次优化,也是提升精确率的一个关键步骤,通过总结提炼合同每个要素信息的特点,完善优化算法,对模型预测结果进行必要的纠错及补充,最终达到合同文本内关键要素提取的较高的准确率。

3 研究成果说明

由于企业经营合同信息属于商业机密要件,在无法为智能化应用场景中的机器训练提供足够的样本,作为训练的数据依据,只能在应用智能化应用场景中采用小样本、小语料环境下采用半监督模式进行学习与训练。因此在本次项目中采用了机器学习与人工干预相结合的方式增加信息抽取与标定的精度。经过研究与验证,本次项目构建的智能化应用管理平台的处理机制为,如图3所示。

同时满足了合同审核业务中的如下业务要求:

(1) 统一后台管理,提供模型数据的全过程处理能力。

(2)提供模型的版本管理能力,可实现在线的版本切换、回退。

(3)提供机器学习算法的扩展接口,便于改进升级新的算法。

(4)提供模型评估能力,便于跟踪模型训练效果。

基于合同智能应用平台,技术开发人员和合同管理业务人员可以共同进行合同审查相关数据模型、审查规则的不断优化完善。