聚类分析方法在商业银行内部审计中的应用

2021-09-27 12:39李德明

现代营销·理论 2021年9期

摘要：随着计算机、网络技术和数据库技术的不断发展，商业银行将信息技术应用的经营和管理中，传统的审计方法遇到了巨大的挑战。由于传统审计方法习惯于通过手工查账、人工核对等方式进行审计，在被审计对象所包含的数据量越来越大的情况下，传统审计方法已无法满足现代审计的需要，无法对海量数据进行有效的筛选和识别。而现阶段审计人员对电子数据的应用多数只体现在将审计的手工流程计算机化，还停留在通过计算机将审计数据进行简单查询、分类、汇总的程度上，未能对海量数据中隐藏或未知的信息进行有效发掘。本文通过分析如何利用信息化手段，对内部审计对象进行审计线索挖掘，阐述了聚类分析方法的可行性和使用方法，并利用某商业银行贷款数据进行实证分析，检测出贷款数据离群点，为通过聚类分析方法发现审计线索的思路提供一些参考。

关键词：聚类分析;商业银行;内部审计;贷款审计

一、内部审计应用数据挖掘方法的必要性

一方面是在信息化环境下，被审计对象经营和管理活动中产生的大量信息资料储存在各种信息介质中，包括合同、凭证、交易数据等各类型的信息资料，纸质介质的使用数量大幅度减少，或纸质介质仅作为一个备份使用的存储介质，审计线索相对于过去而言，变得更加模糊和隐蔽，增加了取证的难度。另一方面是随着被审计对象处理的数据量随着信息化技术的发展而呈几何级数迅速增长，单凭人力已无法从海量的数据中较为快速地筛选出审计所需要数据，因此审计单位必须具备较强的数据处理能力，才能达到全面覆盖，精准核查，突出重点的效果。数据挖掘就是从大量的、随机的、模糊的数据中发掘潜藏在其中的有效信息，而聚类分析方法作为数据挖掘方法中的一个重要分析方法，用于发现与一般数据存在较大差别的离群点数据，对于审计单位发现隐藏在大量数据中的审计线索有着较好的应用效果。

二、聚类分析方法理论简介

聚类分析是一种定量分析方法，从数据分析的角度来看，聚类分析属于对多个样本进行定量分析的多元统计分析方法，从结果来看，其分析原理就是将数据进行聚合，希望单个类之内的样本相似度尽可能高，类与类之间的相似度尽可能低。聚类跟普通的分类方法的不同之处在于，在进行聚类分析前，我们无法确定样本会分成几个组和什么样的组，也不知道是按照什么规则来进行类别的划分，我们不对聚类分析的聚类条件进行实质性的确定，而是通过样本之间的距离进行自动聚合。

从数据分析的角度来区分，聚类分析方法大致可划分为四类

（一）划分聚类

给定一个样本数量为N 的集合，根据需要划分呈K 个分区，其中每个分区就是一个类别，给定K 个聚类中心点，对所有样本求和聚类中心点的距离，将与中心点距离小的样本与中心点归为一个类别，然后更新每个类别中的均值作为新的类别中心点，然后不断重复该过程，直到中心点的变化小于某个阀值。对于划分聚类而言，需要先给定各个聚类中心点，如果给定聚类中心不同，得到也结果也会有所不同。

（二）层次聚类

层次聚类方法可以分为分裂和凝聚两种方法。分裂的方法是自上而下，一开始将所有的样本归为一个类别，然后通过迭代分裂的方式将与类别中心点距离最远的样本分离出去。凝聚方法与分裂方法刚好相反，它是自下而上，一开始将所有样本视为单独一个类别，然后迭代合并距离相近的其他样本，直至达到所规定的迭代终止条件。

（三）基于密度的聚类

其主要原理是只要在“邻域”中的密度（样本或变量的数目）超过给定的某个阀值，就继续增长类别的数量。具体方法是它会任意选择一个样本作为核心点，然后找到所有这个核心点能够达到密度可达的样本集合，即为一个类别，接着继续选择一个没有类别的样本作为核心点，重复以上的步骤，直到所有核心点均有类别为止。

（四）基于网格的聚类

它把对象空间量化为有限个相邻的区间，形成一个网格结构，创建网格单元的集合，将每个样本落入到一个网格中，所有的聚类操作都在这个网格结构中进行，并计算每个网格的密度，将密度低于阀值的网格删除，将相邻的网格聚合成为一个类别。

三、实证分析

（一）层次聚类分析方法概述

本次实例分析采取的是层次聚类分析方法，也叫系统聚类分析方法，本文此次使用的系统聚类方法为凝聚法，该聚类方法一开始将每一个样本作为单独的一个类，然后迭代合并距离最相近的两个类，得到一个新的类，直至达到终止条件，在凝聚法中采用的距离为欧式距离。

定义1：欧式距离也叫欧几里得度量，它是常用的距离定义，一般用于描述n 维空间中的两个点之间的距离，假设现有两个点，分别为x 点和y 点，维度为n，则两点之间的欧式距离为

（二）数据来源及指标选取

为了更好地说明聚类分析方法在内部审计中的应用，本文选取了某金融机构截至2018 年末贷款余额在1，000 万元以上的客户，贷款发放时间为2016 年1 月1 日至2018 年12 月31 日的贷款数据進行聚类分析。

1.指标选取

该次分析分析过程中不对客户信息进行区分比较，仅针对客户的贷款行为数据进行聚类分析。（1）客户号。客户号为每个贷款客户的唯一标识，在审计分析中具有唯一性和不可替代性。（2）贷款次数。贷款次数为客户从在统计期间一共发生的贷款次数，反映了客户贷款的频次。（3）贷款余额。贷款余额为截至2018年末客户在金融机构的贷款余额。（4）平均贷款金额。平均贷款金额=统计期间总贷款金额÷贷款次数，一定程度上反映了客户单次贷款金额的数量。（5）平均贷款期限。平均贷款期限=统计期间总贷款期限÷贷款次数，一定程度上反映了客户单次贷款资金的使用时长，以月为计量单位。（6）担保方式。担保方式反映了贷款客户的第二还款来源，“1”代表抵押或质押担保，“2”代表保证担保，“3”代表信用/无担保。（7）平均展期次数。平均展期次数=统计期间展期总次数÷ 贷款次数，一定程度上反映了客户的到期还款能力。（8）平均借新还旧次数。平均借新还旧次数为统计期间贷款形式为借新还旧的贷款占全部贷款的比例，一定程度上反映了客户的资金流动性。（9）平均累计逾期次数。平均累计逾期次数=统计期间逾期总次数÷ 贷款次数，一定程度上反映了客户的信用水平。（10）平均执行利率。平均执行利率为客户的平均贷款利率。（11）七级分类指标。七级分类指标为客户的贷款分类结果。“11”代表正常一，“12”代表正常二，“21”代表关注一，“22”代表关注二，“30”代表次级类，“40”代表可疑类，“50”代表不良类，其中30、40、50为不良贷款，七级分类指标反映了客户的贷款质量情况。

2.数据清洗

筛选条件为截至2018年末，贷款余额为1，000万元以上的客户，贷款发放时间为2016年1月1日至2018年12月31日，共筛选出客户173名，贷款笔数2，968笔，其中64笔贷款的七级分类指标出现数据缺失的情况，采用估计遗漏值的方法，选取七级分类平均值代替遗漏值，即七级分类指标为空的数据采用“26”进行代替。除以上数据，未发现其他非正常数据。

3.数据标准化

在选取的11个指标中，除客户号外的10个维度的变量，存在数量级差别较大的情况，如果不对数据进行标准化处理，会导致结果出现严重偏差，使分析结果向数量级较大的变量方向进行偏移。本文采取离差标准化的方式，假设x为标准化前的值，x?为标准化后的值，则x?= x?xminxmax?xmin，max为变量的最大值，min为变量的最小值。

（三）数据分析过程及结果

1.使用SPSS Statistic 22.0统计软件对贷款数据进行分析，分析过程如下

（1）数据定义。在变量视图中输入各维度变量，对指标类型进行定义，除将客户号类型设置字符串外，其他指标均设置为数值型。

（3）聚类分析。点击分析-分类-聚类分析，将客户号移至标注个案中，剩余指标移至变量中。统计方案范围选择3-7个类别。

（4）自定义聚类分析方法。聚类方法选择组之间的链接，区间选择欧式距离，标准化式选择范围0至1。

2.分析结果

由于数据量较大，SPSS的分析结果太长，因此无法一一在文中进行表述，此处仅对聚类数为3类、4类、5类、6类、7类的结果进行汇总统计，从汇总结果可看出，類数从3到7，第一类结果均比较稳定，随着类数的增多，存在样本从第一类中分解出来。对比聚类结果，发现离群点分别对应客户号尾数为7712、1575、6075的客户。

（四）对分析结果进行深入探索

将数据挖掘出来的3个离群点客户作为分析重点，对其全部贷款数据进行深入分析。

1.尾号为7712的客户，自2016年1月1日起，发生贷款笔数为1笔，贷款发放日期为2016年8月12日，贷款金额600万元，截至2018年12月31日，贷款余额52 5万元，原到期日为2018年8月2日，展期一次后到期日为2019年7月28日，累计逾期次数19次，逾期次数占还款次数的67.85%，有较高的违约风险。

2.尾号为1575的客户，2017年4月28日发放借新还旧贷款两笔，贷款金额共2，000万元，原到期日为2017年10月27日，展期两次后到期日为2018年4月25日，累计逾期次数10次，占还款次数的83.33%，此后两笔贷款办理借新还旧，贷款发放日期为2018年4月24日，贷款金额1，850万元，到期日为2019年4月23日，截至2018年12月31日，贷款余额1，850万元，累计逾期次数7次，占还款次数的87.5%，贷款用途由住房开发贷款转换为流动资金贷款，需要重点关注，有较高的违约风险。

3.尾号为6075的客户，自2016年5月27日至2016年10月10日期间，共新发放贷款3笔，贷款金额2，500万元，执行年利率为5%，截至2018年12月31日，剩余贷款2笔，贷款余额1，250万元，原到期日为2017年10月9日，展期1次后到期日为2018年10月8日，2018年10月8日发生逾期，即将逾期超过90天。

对数据挖掘所得的3个离群点客户进行深入探索后，仅从数据上分析，发现均存在办理展期，累计逾期次数较多或已出现本金逾期等问题，与其他贷款客户相比，具有更高的违约风险，且需考虑机构是否存在在企业本身已存在经营困难，无力偿还贷款，通过借新还旧或展期的方式掩盖贷款资产质量的情况。

四、结论

通过对173名客户的2，968笔贷款数据进行分析后，我们可以发现，通过聚类分析方法，可以快速筛选出大量数据中的离群点数据，对于商业银行内部审计人员而言，在进行贷款方面的审计时，可快速有效地甄选出与其他贷款客户存在较大差别的异常客户数据，确立审计重点，提高审计效率，达到全面覆盖，突出重点的目的。

作者简介：

李德明（1993.07-），男，本科学历，中级会计师，研究方向：金融审计与计算机科学。