许健 耿海波 陈生 杨璇
习近平总书记在党的十八届三中全会第二次全体会议上提出:“推进国家治理体系和治理能力现代化,就是要适应时代变化,既改革不适应实践发展要求的体制机制、法律法规,又不断构建新的体制机制、法律法规,使各方面制度更加科学、更加完善,实现党、国家、社会各项事务治理制度化、规范化、程序化。”
近年来,制度建设和制度执行力的提升已成为国家和各行业高度关注的焦点。特别是随着人工智能领域的快速发展,自然语言处理(Natural Language Processing,NLP)技术取得了突破性进展,大规模预训练模型将NLP技术能力带上了新的高度。数字化转型背景下,银行制度作为一种典型且重要的文本数据,亟须通过NLP新兴技术对其进行智能化分析及应用。本文立足金融机构和监管机构视角,创新运用一系列NLP新兴技术解决银行制度管理的实際需求,以期为数字化转型视角下的银行制度管理提供新思路。
NLP领域技术发展趋势
作为人工智能的一个核心技术,NLP通过训练让计算机了解如何运用人类处理方式解读问题并给出恰当反馈。当前的人工智能产业结构已经日趋成熟,主要包括三个层面:一是涵盖软硬件设施和数据服务的基础层;二是囊括了基础框架、算法模型以及通用技术的技术层;三是覆盖各个行业中的产品、服务及解决方案的应用层。NLP定位于技术层,是从感知智能向认知智能应用升级的核心技术。NLP技术的实用价值在于海量非结构化文本数据处理,并将数据挖掘和机器学习在结构化数据上的智能化能力带入非结构化文本数据领域,从而创造更高的社会实用价值。典型的NLP技术包括分词、关键词识别、词性识别、相似词识别、短语识别、主题提取、摘要提取、文本聚类、文本分类等。
自2001年至今,NLP技术经历了从神经语言模型到神经网络,再到大规模预训练模型的过程。2001年,图灵奖获得者Yoshua Bengio等人提出了第一个神经语言模型,即前馈神经网络。语言建模的主要任务是给出文本中前部分词语去预测下一个词语,可用于智能输入法、电子邮件响应建议、拼写自动更正等多个场景。2008年,NLP神经网络训练中首次引入多任务学习方法,即在多个任务上训练的模型之间共享参数。该方法对于模型训练数据有限的情况实用性较高。2014年前后,NLP技术开始广泛引入循环、卷积和递归等神经网络模型。2018年至今,NLP主要应用基于深度学习的大规模预训练模型。
目前,NLP技术已逐步在助力银行数字化转型升级、医疗行业智能化发展等领域发挥出关键作用。作为重要的大数据处理技术,NLP技术应用场景广泛,主要聚焦于文本分析、人机对话、舆论监控等方面,可有效提高企业运营效率并替代规律性人力工作。特别是在银行制度文本数据识别、抽取、匹配与处理相关的海量结构化和非结构化数据应用场景中,NLP技术具备人工处理无法达到的效率。
银行制度管理现状及改进方向
银行制度管理业务痛点
银行相关从业人员在学习制度、编发文件的过程中,可能经常会面对制度文件繁多、关联关系不清等问题,导致学习工作质效不高,甚至因为制度内容存在语义层面的冲突而影响制度建设的严肃性。因此,银行迫切需要依托新兴数字化技术搭建学习和工作平台,对各项制度进行全面、智能化的梳理,形成科学、规范的制度分类,分析制度的贯彻落实情况,辅助银行查漏补缺完善制度体系、融会贯通厘清制度关系、科学统筹提升制度协调性,支撑银行践行治理体系和治理能力现代化理念,并落实强化金融标准供给、狠抓金融标准实施的工作要求。
当前,以NLP技术应用为代表的合规科技能够有效助力银行降低合规成本、满足相关制度合规要求。本文提出的合规科技技术方案以数字化形式实现对制度数据和信息的及时、准确处理,并支持对新的制度初稿与现行监管规制是否存在语义冲突进行识别,以提高制度编写效率及合规性。
银行制度管理的NLP应用
NLP技术在银行制度管理场景展现出了广阔的应用前景。本文创新提出“SIGMA”应用框架,通过将NLP及相关知识图谱、OCR(光学符号识别)等技术应用于制度文件智能化分析系统,基于录入的监管制度、金融标准化等文本信息,为银行在相关业务场景进行制度管理的数字化转型和智能化升级提供支持。
一是文件内容标准化(Standardization of documents),统一标准,提高银行管理能力。通过构建多级文档分类模型和信息抽取模型,将电子版制度文件系统地进行分类整理,利用信息抽取模型自动提取文档的重要信息,并按照便于查阅的方式,将文档内容进行标准化管理,从而形成一套完整的、可供实时查询的制度内容库。通过OCR系统对图片和PDF格式的文件进行文字识别,将原文件转换为文字版本,以供信息抽取模型做进一步处理。
二是文件分类智能化(Intelligent classification),查漏补缺,完善银行制度建设体系。依托中文Roberta-base模型,对导入系统的海量制度和文件进行智能分类,帮助使用人员从制度组成和制度内容两方面健全制度体系。这样一方面快速建立起了制度体系,能面向使用人员提供可视化展示,直观反映当前制度体系的结构组成,帮助使用人员从制度结构组成上进行查漏补缺;另一方面通过提供对制度文件的语义分析,为每个制度形成摘要信息,可帮助使用人员快速掌握制度核心内容,从制度内容上进行查漏补缺。
三是文件关系图谱化(Graphically presentation),融会贯通,厘清银行制度关系。通过运用TF-IDF、Word2Vec、SBert三种基于关键词和语义的内容匹配算法,构建智能搜索引擎。智能搜索引擎不仅能够实现快速检索、相关度排序等经典功能,还能够通过构建语义冲突文本案例的文本特征,提供内容冲突性分析、内容语义理解、智能信息化过滤等新兴功能,并通过文件关系图谱化技术予以可视化展现。
四是考核依据多面化(Measurement diversity),综合评价,督导银行制度执行。面向制度执行单位开展考核工作时,考核材料的真实性辨别存在盲区。为帮助基层单位掌握各项制度和文件的落实情况,系统提供制度执行评价功能,运用语义分析技术,对制度执行单位的工作报告、新闻动态等多种类型的文字材料进行综合分析,降低材料造假的可行性,从而识别出执行单位对制度的贯彻落实情况,为相关评价工作提供参考。
五是语义冲突识别精准化(Accurate detection),科学统筹,提升银行制度协调性。通过NLP技术,对指定的制度条文进行关键词谱、文本词云图、文本摘要、网络关系图等方面的分析,尽可能全面、简洁地展示制度条文的全部内容。同时提供语义冲突分析功能,既可以对存量制度的矛盾点进行精确定位,也可以将本地文件上传到系统中进行智能分析,筛查是否与存量制度存在冲突,为编撰新制度提供参考,从而提升制度之间的协调性和一致性,提高制度编撰的质量和效率。
基于NLP技术的银行制度管理系统
基于NLP技术的银行制度管理系统由前端、算法和后端三大模块组成(见图1)。
前端模块包括客户端(PC浏览器展示)和服务应用层(涵盖内容分析、摘要生成、情感分析、关联性分析、图谱可视化和相似性分析)两部分。前端基于Vue2+Axios+Element+Vuex +Vue-router的技术架构,集成ECharts可视化框架,集成OCR技术,支持多种类型的文件识别。
算法模块包括引擎层和算法技术层两部分。引擎层包括NLP引擎和OCR引擎。算法技术层涉及实体识别、关系抽取、知识融合、实体消歧和实体链指。算法模块使用BERT、mDeBERTa-v3、RoBERTa、LSTM、TF-IDF等多种自然语言模型,可实现数据的自动标签、自动分片、自动特征,结合快速排序算法可实现语义级别相关内容匹配、外部法规和内部制度条目级别自动关联。
后端模块包括数据加工层、数据库和数据底座三部分。数据加工层涉及非结构化数据、结构化数据和半结构化数据的加工。非结构化数据加工部分配置有图标解析引擎、OCR解析引擎、文本解析器和表格解析器,从而能实现实体识别、相似度识别、关键词和事件抽取。结构化与半结构化数据加工部分,在ETL基础上,通过规则引擎对规则进行配置和执行。数据库主要涉及MySQL和MongoDB。数据底座由海量规章制度和金融标准等非结构化数据组成。后端模块基于Python+Flask+MySQL+MongoDB的技术架构,通过uWSGI服务,将后端计算结果反向发送到前端服务,再由前端服务处理后显示到客户端。
结语
银行数字化转型背景下,蓬勃发展的NLP技术为银行制度管理的科学化提升提供了全新的解决方案。通过完善的文件检索、待发制度语义冲突分析、关键条文图谱化等功能,以NLP为代表的人工智能技术能够全面革新银行制度学习、标准宣贯、文件管理的工作模式,显著提升银行对业务条线专用文件的学习与检索效率,大幅降低海量文本数据存储与管理成本,为银行系统践行治理体系和治理能力现代化等理念提供坚实的技术支撑。
(龙盈智达〔北京〕科技有限公司金雨、关宇航、王彦博对本文亦有贡献)
(作者单位:中国人民银行乌鲁木齐中心支行, 龙盈智达〔北京〕科技有限公司)
責任编辑:孙 爽