杨兆群 蔡润柱 郭嘉玲
[摘要]商业银行非结构化数据的增多,给审计工作带来诸多挑战,面对审计风险的提高,内部审计需要重新审视传统的审计工作模式与方法技术,了解审计发展的困局与出路,掌握非结构化数据分析的发展现状,探索一条可行的非结构化数据审计工作模式,从而提高审计质量与效率,降低审计风险,逐步实现审计信息化。
[关键词]商业银行 内部审计 非结构化 文本数据
互联网金融、移动支付快速发展的带动下,
国内银行业不断创新业务种类与业务流程,扩展业务空间并逐渐向数字化银行转变。同时,在强监管及内部控制的态势下,各项业务档案、指标与报告文档种类繁多,超过80%为非结构化数据,包含大量有价值的信息,而挖掘这些信息又不同于结构化数据的处理,由此给内部审计带来前所未有的挑战,急需一种新的方法予以应对。
一、非结构化数据应用现状
(一)非结构化数据类型
开展银行内部审计工作时,需要调阅审计对象各类型的非结构化管理文档,文档类型有文本、表格、PDF文件、音频文件等,这些文档数据主要包括全面风险报告、人员变动、内部检查报告、考核管理、公文管理等16类,如表1所示。处理如此多的数据,现有审计模式很难不失质效。
(二)非结构化数据特点
随着业务类型及交易控制手段的更新,银行内部产生大量、多类型、价值密度低的非结构化数据,这些数据包括行内系统数据、行内文档数据,同时也包括购买行外的征信、处罚、拍卖等数据。因此,除数据量大、种类繁多、存储空间大等特点外,非结构化数据还具有数据结构随机,无法用现有的软件工具提取、存储、搜索、共享、分析和处理,数据结构复杂,分析使用难度高,大量数据处理及不同数据之间耦合关联,在海量数据中不易找寻风险线索,数据价值密度低等特点。
(三)非结构化数据应用方法
一是银行系统产生的应用日志或系统日志以XML格式保存在数据库表中,日常应用中多以数据库语言LIKE或正则表达式函数模糊查询。二是对于WORD、PDF、EXCEL、TXT、图片等非结构化电子数据,主要由审计对象提供,数据检查以手工翻阅、人脑分析判断各线索之间的关联为主。三是对于培训签到表、机房巡检表、机房进出登记簿、信贷档案等非结构化纸质数据,现场审计只能通过人力排查。四是对于报告、发文、审批授权等存放于系统中的非结构化文件数据,主要采用抽样及观察方式开展检查。上述方法低效、低质,无法快速获得有价值的信息,反而增加了审计工作的风险。
二、非结构化数据应用面临的问题
现行审计的基本模式为“非现场+现场”,首先通过非现场结构化的数据分析确定工作方向和范围,然后通过现场检查确认问题属性,在文档与音频等资料数量少的情形下这样做是可行的,但在银行业信息技术加快应用、风控体系管理日益完善、非结构化数据已成主流数据的形势下,已有的非现场技术仅能对部分结构化数据建模分析,而对大量有价值的數据则无法有效利用,致使审计风险不断加大。
第一,审计方法与工具不足。由于非结构化数据具有量大、类型多、结构不固定等特点,传统的数据建模、抽样统计、数据透视等方法已不再适用,现行广泛使用的数据处理工具SYSBASE、ORACLE、SQL等很难兼容非结构化数据。而随着传统银行向数字化银行转型,非结构化数据的日益增多也使内部审计现有的方法、工具无法应对。
第二,无法实现连续审计。结构化数据可以通过数据建模、脚本监控的方式实现日常风险的监督,较好地保证数据的有效性与风险发现的及时性,实现持续审计监督的职能。但非结构化数据,审计人员只能定期或在特定项目中通过人工翻阅,且数据大多是历史性的,时效性差,即便发现风险也存在滞后性,无法实现连续审计。
第三,审计资料利用率低。审计工作从结构化数据中发现问题的几率在逐渐减少,大部分有价值的数据潜藏在各种非结构化数据中,而审计项目周期基本在30-90日,因通过人工翻阅大量的非结构化数据无法保证完全覆盖,故一般只按比例抽取一定的数据进行检查,资料利用率低,发现问题缺乏代表性,更难揭露整体风险。
三、非结构化数据分析对于审计工作的意义
银行内部非结构化数据的增多,使审计面临的风险随之增加,充分开展非结构化数据分析对于审计工作发挥职能、提质增效意义重大。
(一)化繁为简
审计工作需要检查各种类型的非结构化文本数据,不同类型文档采用的检查手段大相径庭,检查流程千差万别,对审计人员的能力及经验有较高要求,比如,检查信贷客户,既要翻阅堆积如山的纸质信贷档案,又要登录系统查询授信审批流程日志,审计过程繁琐而又机械,关注的风险点又大不相同。通过引入非结构化数据分析技术,将多种形式的文本数据规范为一种,利用关键词算法技术快速提取可疑风险点,达到化繁为简的目的。
(二)提升价值
传统审计工作中仅利用结构化数据及少部分非结构化数据,描述的风险不够全面系统,数据价值未能有效展示。运用非结构化技术后,一是可以充分挖掘数据,提取有价值的数据,弥补单纯结构化数据分析的不足;二是充分整合数据,尤其是数据之间的关联性,形成对审计对象的整体画像,降低因数据量不足而引起的理解偏差,实现数据价值的提升。
(三)提速增效
在非结构化数据量加速增加的时代,审计人员仅靠手工翻阅及肉眼排查,必然会导致审计周期被拖长,审计范围被限制,最终影响审计效率与效益。非结构化数据分析技术的运用,可快速识别和分析资料文档,形成审计场景的风险因子,从而加快审计工作开展,提升审计工作质量。
(四)降低风险
审计风险作为审计工作的系统性风险,不能通过风险组合或者替代等手段将其杜绝。随着非结构化数据的增多,审计工作难以有效地把握审计对象的整体风险情况,深度与广度受到数据复杂度及数据量的影响,导致风险累积效应增大。而借助非结构化数据分析手段,全面分析和利用数据,形成整体的风险图谱,可有效减少审计过程的风险累积。通过最大程度地分析数据,可发现具有普遍性、全局性的风险因素,实现审计风险有效可控。
四、非结构化数据分析应用原理与场景
(一)非结构化数据分析应用原理
非结构化数据分析的原理是通过将非结构化数据转换为文本数据,然后对文本数据进行加工处理,逐步转为半结构化或结构化数据,如图1所示。
1. 非结构化数据转换。为便于统一分析,简化分析方法,首先将非结构化数据转换为文本数据,其中OFFICE文档与TXT文件转换为文本数据较为容易,自身就是可编辑的文本;PDF文件可借助文本编辑工具如OFFICE、WPS等转换为WORD或TXT文件;图片文件转换主要使用OCR技术识别图片数据,但转换的准确率会受图片质量的影响,目前OCR技术识别图片数据仍需要人工校验,并逐步优化识别脚本;音频文件转换为文本数据,需要借助外部工具,如讯飞、百度语音等应用工具,转换准确率较高。
2. 文本数据处理。非结构化数据转换为文本数据时处于半结构化状态,需用已有的NLP、SNA算法进行处理。常用的文本处理算法包括TF-IDF、TextRank、Word2vec及Doc2vec等,每种算法都有相应的应用场景与特点,如表2所示。
3. 数据分析。从文本数据中提取的关键词、关键句、词向量等数据,可根据应用场景的不同采取不同的数据分析方法,常用的分析方法有SNA分析、聚焦分析、经营分析、员工违规分析等。数据分析不能一蹴而就、一劳永逸,还需对其结果的准确率及适应性进行检查,逐步完善算法学习。银行内部常用的非结构化数据提取关键词词库如表3所示。
4. 审计作业。数据分析的结果要与审计作业相结合,服务于审计工作。同时,审计工作要提供数据分析场景及反馈数据分析的验证结果,促进数据分析模型的迭代优化。审计作业在整个非结构化分析过程中同样重要,验证的全面性与适应性决定了数据分析模型的质量。
(二)非结构化数据分析在银行审计中的应用场景
1. 授信报告情感分析。信贷业务的全流程包括贷前、贷中、贷后三个阶段,审计工作需要对每个阶段的客户调查报告进行人工翻阅和判断,这个过程要耗费大量的人力成本与时间成本并存在一定的操作风险。运用情感分析文本挖掘技术,可以将文本数据向量化,利用模型学习来分析文本内容,从而减少审计项目成本投入,实现对授信客户风险的准确判断。
2. 报告相似度分析。在银行工作中,有很多报告或报表需要定期编写,如信贷客户调查报告、系统上线后评价报告等,通过报告相似度分析,可以判断员工的履职情况,有效降低内控合规风险。另外,报告相似度分析也可以应用到客户提交材料的分析,如财务报告、资产负债表等,分析客户提交材料的真实性,及时发现业务风险。
3. 客户画像。全面了解客户是一项困难的工作,特别是在单纯依赖结构化数据的情况下,客户信息的不完整影响对客户整体风险的判断,易造成风险事件。利用非结构化数据,大多时候会包含一些外部数据,如判决信息、商业信息、习惯信息等,提取这些客户关键信息,通过对客户贴信息标签,将客户的特征信息提取再汇总,形成对客户的整体画像,更加全面了解客户,从而为客户打造更好的服务。
五、非结构化数据分析应用案例
根据非结构化数据分析原理及场景,利用Python(V3.7)分析工具,针对情感分析及相似度分析应用案例展开说明。
(一)授信报告情感分析应用
在银行信贷业务申请过程中,银行需要对申请人开展一系列审核,主要是评价申请人的各种经营情况、还款意愿的真实性。通常情况下,银行对贷款申请人的工作背景、经济实力等因素展开分析,但是仅凭这些要素不足以判断借款人的真实风险。在很多情况下,坏账的发生是因为借款人的主观因素所引起,這些因素包括申请贷款的动机、还款的能力、财务状况等,因此需要将情感因素纳入到贷款的风险评估当中。通过在贷款审批意见过程中加入情感分析模块,分析银行授信整个流程中贷款的审批意见情感因子,能够有效解决上述问题。审批意见的情感分析应用是对授信流程中所有文档的情感分析,通过授信流程中所有的文档表现出来的语义和情感倾向,判断是否存在风险隐患。授信审批意见表现出来的情感倾向随着风险的变化有微妙的变化,不同授信环节的人由于与项目利益相关性不同,情感上存在差异,如客户经理与审查员的风险关注点不同,贷款审查委员之间对于项目的认知也具有明显倾向性,风险经理与业务客户经理的风险把握不尽相同。因此,必须将授信流程中的重要文档(授信分析报告、审查意见、贷审会记录、风险核查报告、监控报告、贷后检查报告等)都作为处理对象,一方面可以得出不同环节的文本情感得分差异,另一方面可以综合评分判断风险。如图2所示。
基于贷款审批意见的文本情感分析,主要目标是通过对贷款流程报告中的所有审批意见进行情感分析,查找负面倾向明显的客户,如表4所示。
通过风险模型的方式可以锁定部分风险客户。另外,外部黑名单数据通过和行内客户关联也可以锁定部分黑名单客户,通过情感分析也可以得出疑似可能发生风险的客户。从这三个维度,就可以对行内的客户进行抽样,从而更精准地找出疑似风险客户。
(二)调查报告相似度分析
场景一:分支机构会定期提交月报或者季报,通过文本相似度分析对提交的报告进行检查,目的是核查相关人员是否认真编写报告。相似度的计算结果在0-1之间,如果相似度达到一定阈值,则可判断两份报告的相似度较高。
场景二:部分银行客户与资金中介进行合作,贷款前的调查报告由资金中介完成,因而导致同一个中介下很多客户的贷前调查报告非常相似。
场景三:银行在发放贷款后,会定期进行贷后调查并出具贷后调查报告。分析各个季度或者月度贷后调查报告相似的情况。在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域。文本相似度计算目前的主流方法是采用语义结合词频的方式。在进行文本分析的过程中,词语首先要转换为词向量,向量空间模型将字词转为连续值的向量表达,并且意思相近的词将被映射到向量空间中相近的位置。转换后的词汇都是空间中的点,如图3 所示。
通过计算向量空间词语的相似度,可以最终计算两个句子的相似度, 如表5所示。
总之,随着信息技术的发展,大数据应用已成为数据分析常态,非结构化数据分析作为大数据应用的一部分,在商业银行内部审计工作中的重要性显著提高。内部审计在处理非结构化数据时还不能像处理结构化数据那样游刃有余,面对审计项目的增多,审计资料的多样化与复杂化,单靠人力无法实现审计工作质的飞跃与量的提升,势必要开展非结构化数据的分析与应用,提升数据分析模型的质量,做好技术分析与审计实施的结合,逐步提升审计工作持续性与全面性,加快内部审计工作信息化建设。
(作者单位:东莞银行股份有限公司,邮政编码:523000,电子邮箱:yazhaqu@163.com)
主要参考文献
陈伟,勾东升,徐发亮.基于文本数据分析的大数据审计方法研究[J].中国注册会计师, 2018(11):80-84
吕劲松,王志成,王秦辉,徐权.大数据环境下商业银行审计非结构化数据研究[J].管理理论与方法, 2017(205):141-144
徐宗本,张讲社.基于认知的非结构化信息处理:现状与趋势[J].中国基础科学, 2007(6):4-8
赵辉,范志城,许永池,陈波,徐秀星.基于关键字检索的方法在非结构化审计数据分析中的运用[J].中国内部审计, 2010(10):58-61