王彦博 施京华 张军
随着计算机信息科技的迅猛发展,大量的银行业务数据以电子信息形式存储于银行的数据库系统中,为大数据技术在商业银行审计业务中的应用提供了丰富的素材。然而,商业银行业务领域具有客户数众多、数据量庞大、产品服务个性化、操作处理批量化、未来业务发展不确定性高等特点,如何从浩瀚的审计对象中有效地发现实质性违规与风险是商业银行审计工作必须攻克的难题。在现有审计人力资源有限的情况下,完全依靠现场审计不现实,银行需要运用先进的信息科技手段推进非现场审计,以达到业务“全方位、全覆盖”检查的审计目标,为此“大数据审计”应运而生。发展大数据审计因此成为了商业银行审计工作的必然趋势。
商业银行大数据审计是银行合规内控的重要技术手段,其主要目标是依托银行内部数据仓库、数据集市等大数据综合平台,在大量错综复杂的银行业务数据中抽丝剥茧、追根溯源,穿透式地发现隐藏在海量数据背后的业务违规与风险状况。其核心思想是通过构建一个用以衡量审计对象在审计期内业务数据是否存在异常的标准,从而支持对非现场审计任务的状态进行标记,必要时触发预警,为现场审计人员后续有的放矢的深入查找问题所在提供依据。
然而,在商业银行具体内部审计工作中,审计任务门类众多,审计应用数量庞大,如何构建一套大数据审计应用模式体系,支持对各项审计任务进行有效管理,已经成为了对当下银行内部审计核心课题之一。本文着重从“衡量标准”入手,探索提出商业银行大数据审计的“5S”应用模式框架体系,并以国内某商业银行为例进行大数据审计案例研究,展现在“5S”框架下商业银行大数据审计应用实践效果。
商业银行大数据审计应用模式体系
在大数据审计工作中,审计人员对存储于计算机信息系统中以电子数据形式所反映的企业经济业务进行审查,通过数据分析技术手段把握审计重点,收集审计证据,实现审计目标。其中,最为关键的技术点是构建一个用以衡量审计对象在审计期内业务数据是否存在异常的标准,而该标准往往是一种知识模型(Knowledge Model)。通过对国内某商业银行过往非现场审计任务进行归纳整理,相关知识模型主要分为五类:
Specialist Knowledge Model,即基于专家经验知识的审计模型。该类标准主要依赖审计专家的业务经验知识,相关模型是基于“业务逻辑驱动”的,尤其在大数据时代到来之前或相关业务领域无法采集到充足的过往数据以支持建模时,开展非现场审计则主要运用该类模型方法形成比照标准;当涉及多名专家共同贡献经验知识时,可采用头脑风暴法、德尔菲法等具体操作方法予以实现;
Static Knowledge Model,即基于静态知识的审计模型。不同于“专家经验知识模型”,该类标准是纯粹基于“数据逻辑驱动”的,通过过往大量数据经验形成静态数学公式化模型,模型一旦形成将不再改变,并上升为通用知识定律;该类标准中,经典模型包括Benford定律、二八定律黄金法则等;
Statistical Knowledge Model,即基于统计分析的审计模型。该类标准是以“数据逻辑驱动”为主的,同时也涉及一定的“业务逻辑”,通过采集过往相关业务数据,综合运用概率论、计量方法、假设检验等统计分析技术,形成模型化比照标准,相关模型随输入数据的变化而发生变化;典型的统计分析方法包括迁徙分析模型、马尔可夫模型等;
Smart Knowledge Model,即基于智能分析的审计模型。该类标准与“统计分析知识模型”相近,但其模型化标准生成方式从以传统统计技术为主,发展成为以大数据挖掘及机器学习、人工智能技术为主;典型的建模方法包括有监督分类学习、无监督聚类学习、半监督学习、深度学习、自然语言文本挖掘、社交网络图挖掘、关联规则挖掘家族等。
Simulation Knowledge Model,即基于仿真模擬的审计模型。该类标准是“数据逻辑驱动”与“业务逻辑驱动”相融合的,可以将其看作为“专家经验知识模型”在大数据时代的拓展和延伸,其面向某些无法获取充足过往数据支持智能建模的领域,通过有效的专家业务经验应用(及形式化验证)构建准确的业务流程,并通过对业务流程中关键节点进行随机化数据处理,以反复模拟的方式批量产生近似于真实的业务数据,并辅以“统计分析知识模型”或“智能分析知识模型”,生成比照标准;典型的技术方法包括压力测试、沙盘推演、多元代理模型与模拟等。
商业银行大数据审计应用实践研究
专家经验知识模型化标准应用实践
“专家经验知识模型化标准”主要应用于“商业银行宏观风险把控”、“以风险为导向的银行业务审计”等方面。例如,获取经营机构各时间点的业务和财务数据,分析其当年的业务状况和发展趋势,根据以往经验,快速增长点往往会存在风险管理跟不上业务发展的状况,如制度不健全、管理手段粗放、重量轻质等问题,故直接凭业务经验形成比照规则以明确审计重点。具体来看,某些分行小微贷款余额在2012、2013年大幅攀升,根据经验其中后台人员数量应按比例有所提升,然而业务数据显示其中后台人员数量保持不变甚至减少,与经验标准存有差异,由此判断该期间发放的贷款更易隐含风险,事实数据表明相关贷款业务在日后出现了风险集中爆发。
更进一步,在以风险为导向的零售业务审计工作中,“预先提出存在风险隐患的业务模式”是该项工作的核心。审计人员通过充分利用银行内部数据仓库的现有数据资源,设计了多种经验数据模型,如客户基本信息、客户工商登记信息、资金流水信息、授信评审信息、台账信息等共计五大类、二十多种经验数据模型,有效识别了客户异常流水交易、零售贷款资金挪用或流入股市、假批量和假小微、飞单、股东分拆授信、多通道授信、贷款资金回流和员工舞弊等多种业务风险。以工商登记信息为例,根据专家经验,小微客户无工商登记信息或已全部处于注销状态、小微客户投资房地产/小贷公司/担保公司/典当等高度敏感行业、小微客户名下拥有过多不同行业的企业、小微客户名下企业的注册资本不符合小微企业特性、小微客户在多地开办企业、同一分行多名借款人存在用款主体之外的关联关系等均可作为业务风险线索。
静态知识模型化标准应用实践
在“静态知识模型化标准”应用方面,笔者以Benford定律为例,介绍其原理及使用方法,并依托银行审计业务实际,展示其应用实践情况。
发现Benford定律
自然界的众多事物在多种因素影响下随机发生,往往会呈现某种特定规律。Benford定律则反映了数字出现频率上的一种内在规律,简而言之,是指所有自然随机变量,只要样本空间足够大,每一样本首位数字为“1”至“9”各数字的概率在一定范围内具有稳定性。该现象由美国天文学家西蒙·纽康伯在1881年首次发现。他在偶然间发现图书馆中对包含以“1”起首的数字的前几页较其它页破烂,经过对其他随机数据的进一步分析,他得出如下结论:以“1”为第一位数字的随机数比以“2”为第一位数字的随机数出现的概率要大,而以“2”为第一位数字的随机数出现的概率则大于以“3”为第一位数字的随机数出现概率, 以此类推。1938年,美国物理学家法兰克·本福特重新发现了这个现象,并收集了很多数据进行分析来验证这一规律,他发现各种完全不相同的数据,比如人口、物理和化学常数、棒球统计表等数字均符合这一定律。根据该定律可以计算出“1”至“9”各数字出现的概率,结果见表1。
Benford定律在银行业中的应用
Benford定律反映了数据中的一种通用知识规律,当数字被有意识地操控以达到某种目的时,这种客观规律将会被破坏,并出现异常。通过发现和分析这种异常,则有可能追踪舞弊行为, 又由于Benford定律的使用无需其他先验信息(本文称其为“静态知识模型”),其使用方法简单明了,因此多被用于审查数据准确性以及数据背后行为的合理性。这两点正是銀行业关注的重点,因此Benford定律在银行业已有诸多应用,如检查财务数字信息是否真实、发现信用卡套现商户等。
综合已有的研究成果发现,数据符合以下条件即能够使用Benford定律来进行数值分析:(1)数据不能是规律排序的,比如交易流水号、银行卡号等,即数值不存在间断或间断区间,而是在一个宽幅范围内连续变动,不存在上下限;(2)数据不能经过人为修饰,即数值的形成受多种因素的影响,不能过度集中也不能完全随机。从银行数据的角度看,商户交易流水、个人交易流水的交易金额,甚至各公司的财务报表均基本符合Benford 定律的应用条件。换言之,若相关数据违背Benford定律检验标准,则可视为异常信号,需作为疑点数据进行深入审计分析。
应用案例实证分析
为识别国内某商业银行某一特定客户群体的高风险性资金往来,使用SQL语言从企业级数据仓库中提取审计期内流水数据268,731条,涉及36,596个账户,进行Benford定律分析。在数据理解和数据准备阶段,忽略流水数据具体金额,只摘取流水发生金额的首位数字,若金额为小于1的小数,则首位数字记为“0”。随后统计各账户从“0”至“9”的首位数字出现次数占总流水次数的比例。
在数据分析阶段,统计学中经常使用Pearson相关系数r来评估两个变量之间的密切程度。若r大于0,则代表两个变量为正相关,且数值越接近1,正相关越强。为评价每一个账户的流水与Benford定律的符合程度,本研究使用相关性系数予以定量计算。经计算,64.69%的账户其流水与Benford定律的相关系数≥0.8, 呈现强相关关系,可见账户的流水基本符合Benford定律。
为缩小疑点数据范围和提高疑点数据命中度,本研究重点分析流水次数≥500的账户,共计964个,然后按相关系数r升序排序,关注排名前十的账户。通过查询交易金额、交易品种、交易对手、交易对手所在单位等信息对这些客户进行补充信息分析。据排查,有五个账户的交易对手多为客户所在单位的内部人员, 故认为是正常的内部资金往来,排除嫌疑;有三个账户的异常流水多为正常消费类,且金额较小,基本排除嫌疑;发现两个账户的交易对手多至几十位,且均非单位内部人员,金额多为几十万至一百万不等,并且流水次数频繁,经查,这两个账户与融资担保公司资金往来频繁,视为可疑。可见,Benford定律能够从几十万条数据中有效识别包含认为操纵的非自然流水,迅速定位疑点数据供后续人工验证分析,减少了大量人力资源投入。未来其他相关应用还包括识别非法商户、资金掮客等。
统计分析知识模型化标准应用实践
在“统计分析知识模型化标准”应用方面,笔者通过构建“不良迁徙分析模型”和“马尔可夫模型”,来预测某商业银行小微金融弱担保贷款管控后的风险度(不良率)以及自然风险度,并借这两个模型对该商业银行华东区域各家分行的小微弱担保贷款的风险状况进行评估比较。
应用背景
贷款的风险可分两个层面来看:一是贷款的自身质量,即客户通过银行准入门槛、排除银行后续风险管理手段后,贷款所呈现的自然不良率;二是目前常用的不良率指标,即银行通过自身的风险管理能力以及代偿、核销、打包转让等一系列措施,对贷款风险度进行管控后的结果。对于银行而言,贷款的自身质量很大程度上决定了银行的信贷质量。在小微金融弱担保贷款中, 由于银行对于小微弱担保客户的风险控制缺乏有效抓手,因此贷款自身质量更是尤为重要了,也就是获得贷款自然风险度的量化值。另一方面,不良率往往是对以往数据情况的反映,有效预测未来不良率也一直是银行精细化管理的诉求。
基于迁徙分析模型的不良预测
根据银行五级分类政策,担保类贷款逾期90天以上为不良。以30天为周期,将未逾期贷款的状态设为a、逾期1~30天的状态为b、逾期31~60天的状态为c、逾期61~90天的状态为d、逾期91~120天的状态为e,逾期120天以上的状态为f。以一家分行为例,用2015年1月至2016年3月的每个月月末的数据计算出各个状态之间的平均迁徙概率,分别可获得a->b、b->c、c->d、d->e、e->f的概率,通过这几个概率的乘积即可获得从各个状态转向不良状态的概率,如P(a->e)= P(a->b)*P (b->c)*P(c->d)*P(d->e)。再根据2016年3月末各家分行在各个状态的余额,即可获知这些余额最终转为不良的金额,从而获得不良率。最终,通过为每家分行建立“不良迁徙模型”,获知各家分行的年末不良金额。此模型类似于移动平均的预测方法,将计算结果对比分行“一户一策”排查所得的年末不良金额,模型结果基本可信。由于此模型使用了每个月末的余额数据,这些数据是分行风险管理结果的体现,故采取该模型的结果作为一个分析维度,即不良率这一定量指标的预测结果。
基于马尔可夫模型的不良预测
(1)马尔可夫过程简介:马尔可夫过程旨在描述这样一类随机过程-即在已知过程现在状态的条件下,过程将来的状态与过去无关,而只与当前状态有关,即“无后效性”。
(2)模型前提条件:贷款的各个状态之间的迁徙可视作为马尔可夫过程,因此可使用该理论计算状态之间的迁徙概率。
(3)減少分行风险管理措施干预的办法:为尽量减少分行的风险管理手段对于贷款状态转移的干预,从而获得更贴近贷款的自然不良率,本模型避开季末数据,而使用某分行2016年1~ 2月的小微金融弱担保贷款计算一步转移概率矩阵P。笔者认为2016年1~2月的数据一方面更能反映审计期相近的贷款状况,另一方面在年初时分行大部分风险管理精力投身于上一年的总结之中,对这期间的贷款管控较少。
(4)计算过程:因计算过程较为复杂,此处仅作简要描述。此模型从某分行2016年1月末的每个借据出发,跟踪其在2月末的状态,如状态a可能仍为状态a,也可进入状态b,或者直接结清(状态g),状态b则可能迁移至状态a、状态b、状态c和状态g。以此类推,构建一个7*7矩阵,通过矩阵运算,最终获得2016年3月末各个状态的余额数据在2016年年末的情况。
通过以上模型设计,尽量使这个模型不考虑结清贷款的续贷问题、不考虑贷款敞口压缩措施、也不考虑分行采取催清收、代偿、核销和资产转让等处理方法,而只是单纯的计算各个借据在分行无风险管理的情况下自然迁徙概率,从而反映贷款自身的风险度。采取这个模型的结果作为另一个分析维度,即贷款自然风险度这一预测指标。
模型结果应用
以2016年3月末被观测银行华东区域小微金融弱担保贷款余额为基础,经“迁徙分析模型”不良预测,得到预计至2016年末的相关不良余额A,即根据以往的平均迁徙概率得出的不良情况;经“马尔可夫模型”不良预测,得到预计至2016年末的相关自然不良余额B,即贷款发生逾期后不采取任何催清收等管理措施的不良情况。
由“马尔可夫模型”预测的自然不良余额B与由“迁徙分析模型”预测的不良余额A之剪刀差,反映了各家分行风险控制的难易程度。针对存量小微金融弱担保授信业务,华东区域中南京分行风险控制难度较大,这主要是由于南京分行目前存量小微金融弱担保贷款余额偏高所致,其次是杭州、苏州、宁波、合肥等几家分行。
智能分析知识模型化标准应用实践
在“智能分析知识模型化标准”应用方面,比较典型的应用实践包括:
违约预测模型:这是目前广泛使用的贷前风险控制模型,通过纳入具有贷后特点的属性(如客户的金融资产变化情况、交易流水中的借方/贷方笔数和金额、是否持有某些特定产品等), 使用逻辑回归、朴素贝叶斯、决策树、随机森林、深度神经网络等有监督分类学习构建违约预测模型,形成可与后续实际业务发展进行比对的标准,可助力于贷后管理及相关审计工作。
自然语言文本挖掘模型:笔者将相关技术运用于2013年“小微金融风险管理”专项审计项目中,取得了良好实践收效。在项目中,大数据技术人员利用中文分词、词频统计、关键词识别、主题提取、半监督文本聚类等自然语言文本挖掘技术方法,以小微金融不良责任认定报告作为对象,从中快速挖掘、确定每一笔贷款的不良形成原因,并将不良形成原因按主题归类,从而形成各类不良形成原因的历史数据统计指标,作为比对标准以支持发现后续业务中的异常情况。该项工作超出人力所及,充分展现了大数据智能技术的在审计工作中的增强效用。
小结
以大数据技术助力审计业务发现疑点数据,审计人员可在千万条以上的海量数据中迅速发现风险线索,进而采取数据详查、抽调档案、访谈客户经理和评审人员甚至下户检查等多种审计手段,从而发现实质性风险。大数据审计为进一步审计抽样提供了精确制导,再加上其他审计方法的有效配合,极大地增强了审计工作的效率和效果。
为将大数据审计的效果从定性认识提升至定量评价,实现审计工作的精细化管理,本研究开展了对比试验:对被观测银行某分行的零售业务审计采取非现场大数据审计为主、现场检查为辅的工作方法,发现在保证审计质量的前提下,人员数量下降30%、现场检查时间压缩50%、差旅费用节省75%(见表2)。大数据审计节能增效的作用可见一斑。目前,大数据审计已在被观测银行零售专项审计中广泛应用于十余家分行的审计过程,应用效果显著。
结语
大数据时代为商业银行审计工作带来了新的发展机遇,激发了非现场审计领域的大数据智能化发展,同时也带来了管理上的新挑战-若不能构建出一套大数据审计应用模式体系,则难以对门类众多、数量庞大的大数据审计应用进行有效的管理、协调相关的资源。本文从衡量审计对象在审计期内业务数据是否异常的模型化标准入手,为大数据审计应用提出了“5S”应用框架,基于“业务逻辑驱动 vs. 数据逻辑驱动”、“通用静态模型 vs. 专用动态模型”、“经典数理统计 vs. 数据智能仿真”等方面,阐述了相关模型化标准从专家经验(Specialist Knowledge)向静态定律(Static Knowledge)向统计分析(Statistical Knowledge)向智能分析(Smart Knowledge)再向仿真模拟(Simulation Knowledge)演化发展。
通过以国内某商业银行的实际审计业务为例,展开案例研究,本文阐述了前四类模型化标准的应用实践情况,并通过开展对比组试验反映出大数据审计应用在商业银行节能增效方面的显著效果。在大数据挖掘与人工智能技术发展日益精进的时代,依靠大数据智能模型来分析和预测各事物的发展趋势已是被普遍认可的方法,笔者认为银行有必要引入更多、更强的数据预测模型,与定性方法相辅相成,有利于提升银行审计能力以及全面精细化管理程度。此外,未来研究还将聚焦探索基于仿真模拟的模型化审计标准应用。
(本文仅代表个人学术观点,不代表供职单位意见)
(作者单位:对外经济贸易大学金融科技研究中心、中国民生银行)