于威 戴龙龙 张伟青 陈小其
[摘要]近年来,对公信贷一直是银行资产投放的重要领域,规模和客户数量稳定增加。随着内外部经济、经营环境的日趋严峻,银行内部人员、信贷流程及内部控制等管理日趋复杂,审计部门利用传统抽样方法、规则模型监测方法等已不能满足风险前瞻预判和日常监督的要求。本文结合审计经验,从商业银行海量经营、管理等信息中选取风险因子,运用XGBoost等人工智能算法,辅助进行对公信贷客户风险监测,以提升审计效能。
[关键词]商业银行 内部审计 信贷风险 人工智能
从各家银行披露的年报看,信贷稳则业绩稳、信贷优则业绩优,信贷规模和信贷资产质量直接影响商
业的盈利能力,尤其是信贷资产质量直接影响银行利润,对公信贷资产是商业银行内部审计重点关注对象。大数据、人工智能等技术的发展,为银行审计解决人力资源不足、发现问题滞后、风险识别能力不足等问题提供新的手段。银行内部审计人员充分应用科技能力不断扩大审计覆盖广度和深度,从而全面监控客户,前瞻预判潜在风险,从事后逐步向事中、事前延伸分析,提高审计效能。
一、研究概述
(一)以往研究情况
近几年,商业银行数字化转型探索日益向深处、实处发展,智能风控、智慧营销、精细管理等方面成果丰富、成效明显,以风险识别领域为例,人工智能和大数据技术运用从尝试走向主流,正成为一家银行科技软实力的重要表现。很多学者和专家在智能风控、智能审计领域有着很多独特见解。秦荣生指出审计要想实现全覆盖就必须利用大数据挖掘技术,实现由单一审计向批量审计转变。张昊楠倡导在银行信贷风险管控上应拓宽银行数据纬度,增强信贷风险管控能力。黄薷丹则尝试逻辑回归、支持向量机、神经网络等多种机器学习算法应用于商业银行企业客户信贷风险评价,提升风险评估的效率和准确率。荣欣和刘红生倡导引入机器学习技术,通过大数据模型的迭代学习,准确识别业务运行中出现的风险。沈燕兵提出创新构建商业银行审计分析模型体系的构想,以大数据挖掘、机器学习、人工智能技术为主,运用监督分类学习、自然语言文本挖掘、社交网络图挖掘、关联规则挖掘等方法,深入挖掘各类不良贷款的形成原因。
审计部门作为商业银行风险的最后一道防线,要发挥守底作用同样需要推进信息化、数字化变革,信用风险作为银行主要风险类型,也是审计重点关注对象。以审计视角看商业银行对公信贷客户风险,一般面临着分支机构与总行信息不对称、经营管理部门掌握信息与审计部门信息不对称、银行内部信息与外部信息不对称等问题。这导致审计对信贷客户风险难识别、耗时间、拿不准等表现突出,亟需进行研究思考并加以解决。
(二)研究重点和方向
本文将信贷客户风险审计监测和识别难题进行过程升维和结果降维,通过对银行内外部信息进行收集、整理、融合、分析,并构建特征工程,利用人工智能算法,以审计视角转化为二元分类分析判断问题,实现科学预测客户风险下迁的概率,更好辅助内部审计部门开展信贷客户风险日常监测、客户风险画像、审计抽样等工作,并在此基础上,通过客户所处行业、上下游风险传导关系等在信贷客户准入的事前环节释放价值。
二、智能化信贷客户风险监测模型设计
(一)体系架构设计
信贷客户风险一般从三个维度进行分析,分别为宏观维度、客户维度和银行维度,本体系将涉及客户从申请准入、审查审批、贷款发放、贷后管理等全流程的信息,以及系统操作信息、统计信息等进行梳理,形成特征近400个。具体如表1所示。
(二)建模流程
数据建模过程严格按照SEMMA流程体系要求,强化过程质量管控,突出模型参数优化和算法选择迭代方式,同时根据数据质量特点对流程进行细化,做到更加有针对性。总体流程如图1所示。
(三)算法选择
对公客户风险识别的实质是判断客户贷款是否已经不良,是数据挖掘中典型的二分类问题。本文通过客户相邻季度信用等级的下迁进行标签化处理,从而可以进行有监督学习。在客户风险识别领域,传统有监督算法像Logistic、SVM等已有较多的应用先例,但模型拟合能力相对不足,易过拟合。决策树算法因拟合能力强、运算速度快、具有可解释性等特点,在当前分类算法场景中逐步得到应用。因此,本文尝试选用XGBoost(Extreme Gradient Boosting)和LightGBM(Light Gradient Boosting Machine)两种算法,由于LightGBM相比XGBoost更易过拟合,本文最终使用XGBoost算法建立智能化信贷客户风险审计监测模型。
三、模型研发实践路径
(一)数据获取与数据处理
1.数据获取。根据对公贷款客户数据判断其是否存在信用等级下迁的可能性,即预测客户贷款出现不良的可能性。本文以季度为最小时间单位对客户信息进行切片,并按照单季度、双季度、四季度进行跨时间风险预测。选取从2018年第四季度至2021年第四季度对公客户样本数据集,数据按照表1范围进行收集、整理,其中客户相邻季度的信用等级由“关注及以上”下迁至“次级及以下”为正样本,而未下迁客户数据为负样本。
2.数据预处理。一是缺失值。将所有选取的特征项进行缺失值统计,得到空值率。由于空值率较高的特征在模型拟合过程中起到的作用较小,因此可以直接删除。对于空值率较低的特征项,通常采用均值插补、最大自然估计、多重插补等方法进行填补。本文使用XGBoost自带缺失值处理方法,即在计算分割点时,不会遍历统计丢失特征数据的样本,通过这个技巧减少为稀疏离散特征寻找分割点的时间开销,从而提升效率。二是噪音数据。特征项中通常存在噪音数据,如乱码、中英文等数据,因不符合建模要求,因而无法参与模型训练。本文通过赋值、离散化等方式对噪音数据进行处理,发现异常值,消除异常离群点影响,降低数据复杂度,加快模型迭代速度,提升特征表达能力,增加模型鲁棒性。为降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相關度,本文还采用决策树、卡方、等距等多种方法进行分箱处理,从而使模型更加稳定高效。
3.特征因子选取。特征数据预处理完毕后,通常先采用WOE和IV值初步筛选特征,IV值通常用来评估特征的分类能力,通常IV值大于0.02时具有较好的区分能力,其评价标准如表2所示。
以对“最近一次贷款利率”特征进行分析,该特征项IV值为2.23,大于0.30,具有明显的区分风险表达能力。数据分析发现信用等级下迁客户主要集中于贷款利率在6%—10%,低利率或超过利率出现不良的可能性相对较低,差别较为明显。
经过特征初筛后,验证特征自相关性,特征相关性较高则可视同为同一特征,不应重复参与模型训练。通过计算剩余特征两两之间线性相关性,若相关性高于0.6,则剔除IV值较低的特征。
通过上述空缺或噪音数据分析、IV值分析、线性相关性分析等,从而形成最终入模特征变量。
(二)模型训练
根据模型目标,定义包含n个对公客户和m个特征因子属性的数据集D={(Xi,yi)}(|D|=n,XiRm,yi{0,1}),其中Xi表示对公客户的特征向量,yi代表该客户是否已经不良(0为正常客户,1为不良客户)。一棵回归树可以对一个客户进行预测得到分值f(Xi),将多棵回归树所得的结果进行相加即可得到最终预测结果,如式(1)所示:
(1)
其中,F={f(x)=q(x)}(q:Rm→T,RT)表示回归树空间,q代表单棵树的结构,T代表该树叶子节点的数量,代表每个叶子节点的权重,每一棵树都是独立存在的。对于一个对公客户通过K棵树,将其映射到对应的叶子节点后,相加所有映射叶子节点的分数即可得到该样本的最终分数结果。模型的目标函数如式(2)所示:
(2)
由该公式得知,目前共分为两部分,第一部分代表预测值与真实值的yi之间的训练误差,通过不断优化训练误差使得预测分布接近于真实分布;第二部分则代表模型复杂度的惩罚项,该部分有利于叶子节点权重更加平滑,模型更为简洁,防止过拟合,增强模型鲁棒性。
运用迭代的方式对模型求解,每经过一轮迭代增加一个函数到模型中,如式(3)所示:
(3)
其中为第t次迭代时的预测分数,为加快目标函数迭代速度,对目标函数进行优化得到,如式(4)所示:
(4)
利用泰勒公式对目标函数进行二次展开,加快迭代速率,最终可得第t次迭代简化目标函数,如式(5)所示:
(5)
采用树形结构的方式对函数进行优化,根据叶子节点的权重和数量的L2范数定义复杂度惩罚项,其中F={f(x)=q(x)}(q:Rm→T,RT),如式(6)所示:
(6)
其中和为惩罚系数,用以控制正则化程度,最后定义每个叶子中包含的样本集合为:Ij={i|q(Xi)=j},最终改写为式(7):
(7)
最终得到目标函数,如式(8)所示:
(8)
由式(8)等于0得到叶子最优权重以及最优函数如下:
(9)
式(9)可以作为一个评价数结构好坏的标准,利用贪婪算法,从深度为0的树开始进行迭代分裂,通过信息增益(Gain)的方式,选择信息增益最大的特征及其最佳分裂点进行分割,直至信息增益<=0或者迭代到预先设定的阈值时停止分裂,得到最终的分类树结构,信息增益计算如式(10)所示:
(10)
四、模型效果评估
1.模型评估指标。本次模型评估指标主要利用混淆矩阵和基于混淆矩阵形成结果和图形指标。混淆矩阵(Confusion Matrix)是一种评判模型分类结果的指标,属于模型评估的一部分,如表3所示:
(1) TP (True Positive) 指的是实际为正样本,预测结果恰好为正样本的个数。
(2) TN (True Negative) 指的是实际为负样本,预测结果恰好为负样本的个数。
(3) FP (False Positive) 指的是实际为负样本,预测结果却为正样本的个数。
(4) FN (False Negative) 指的是实际为正样本,预测结果却为负样本的个数。
(5) TPR (True Positive Rate) 指的是本身为正样本的所有结果中,模型预测为正样本的比率,如式(11)所示:
(11)
(6) FPR (False Positive Rate) 指的是本身为负样本的所有结果中,被错误预测为正样本的比率,如式(12)所示:
(12)
(7) ROC (Receiver Operating Characteristic Curve) 曲线,其中FPR是橫坐标,TPR是纵坐标,描述的是TPR-FPR的关系。
(8) AUC (Area Under the Curve)是指ROC曲线下面积,通常面积越趋近于1,分类效果越好。
2.模型效果分析。OOT(Out Of Time)是指跨时间窗预测,即用非训练样本时间范围内的数据进行测试,一般使用训练样本之后的时间窗口数据进行测试,可更好验证模型鲁棒性。比如,时间窗口切片为单季度时,采用训练样本时间窗口为当前季度的前四个季度,OOT测试样本时间窗口为当前季度。
使用训练样本完成模型训练,并进行样本测试,样本集的ROC曲线如图2、3、4所示。
按照阈值Y=0.5进行样本分类,相关模型指标计算如表4所示。
从ROC曲线上看,模型整体收敛较好,曲线上凸明显,已接近填充完整个空间。经计算,OOT样本AUC值为0.917,KS=0.735。与训练集样本指标差值不大,模型整体拟合较好。召回率和精确率指标虽有一定的下降,但仍具备较好的分类能力。
模型训练完毕后,将模型特征因子按照重要性进行排列,数据分析显示,重要性较高的为账户余额、欠息信息、利率信息等特征,这些特征在进行样本分类时起的作用更大。通过特征重要性,可对样本预测的结果进行解释,对后续审计中样本核查具有一定的指导作用。
将模型预测结果与随机样本结果进行对比,单季度模型提升能力最强,整体提升在40—50倍左右,可提前一个季度完成客户风险预测。四季度模型预测提升在20—30倍,可提前一年完成客户风险预测。
五、结语
在当前新冠肺炎疫情严重冲击下,内部审计急需借助技术手段迎接挑战。运用大数据、人工智能等技术大大提升海量数据的处理能力,从而改变传统审计作业形式,实现降低成本、提高效率、控制风险、增加价值四大目标,加速推动审计进入数字化转型快车道。
基于此,本文借助银行对公客户信息数据,运用集成学习XGBoost算法构建智能化信贷客户风险审计监测模型,该模型OOT样本集AUC=0.917,KS=0.735,对客户风险具有较好的识别能力,并且该模型根据公有数据测试集实际效果,风险分值0.5以上客户下迁精确率、召回率可以达到40%左右,符合模型投产和实际应用目标。同时,模型特征重要性排序对客户风险预测风险具有较好的表达能力,便于审计人员了解客户风险量化结果和定性原因,可以在现场查证、模型共享时,与一二道防线了解或交流客户风险原因。
在实践应用中,该模型为审计将有限资源投放到重要风险领域指明了方向,辅助在传统审计项目全面覆盖,助力客户持续监测、行业及地域风险监测等发挥重要作用。同时,随着审计职能由事后向事中、事前转型,该模型可以在客户准入、关联客户风险传导、担保圈(链)风险传导等方面形成风险的提前预判和提前揭示,有效降低风险,避免形成实际损失。
(作者单位:中信银行股份有限公司,邮政编码:100020,电子邮箱:wuyufenfei123@163.com)
主要参考文献
[1]黄薷丹.基于大数据算法的商业银行企业客户信贷风险评价模型建立與实证研究[J].当代经济, 2018(22):3
[2]秦荣生.大数据、云计算技术对审计的影响研究[J].审计研究, 2014(6):6
[3]荣欣,刘红生.商业银行的多维度大数据风险挖掘审计技术应用研究[J].中国内部审计, 2021(12):5
[4]张昊楠.大数据背景下银行信贷风险管控与审计[J].财务管理研究, 2020(4):5