基于关联规则的银行内部审计应用

2019-09-10 12:17杜海珍杨超
中国内部审计 2019年10期
关键词:Apriori算法关联规则数据挖掘

杜海珍 杨超

[摘要]本文采用Apriori算法,以A银行的实际业务为例,对具体信贷产品客户信息与信贷分类进行关联挖掘分析,证明运用关联规则这类数据挖掘方法对商业银行内部审计可疑数据定位的可行性和有效性,为银行内部非现场审计的有效开展提供决策依据。

[关键词]关联规则    Apriori算法    数据挖掘    商业银行    内部审计

年来,国内各大国有商业银行、股份制银行

纷纷成立金融消费公司,多渠道拓宽个人消费贷款类业务。随着业务量及贷款金额的不断攀升,相关业务和客户的数据量也随之扩大。由于贷款业务的快速发展及信息不对称等因素,导致银行面对风险的种类繁多、形式变幻多样,不良贷款率随之上升。在日常内部审计中,如何在海量数据中提炼出关键信息,并有针对性地对业务进行审计,降低业务风险,对银行内部审计人员提出了更高要求。传统的审计方法只对数据的准确性、完整性等进行简单分析,忽略了数据之间隐藏的关联关系,已不能满足当前风险管理的发展需求。为提升银行内部审计的科学性、有效性,提高内部审计质量,有必要对相关数据进行知识获取、发现隐藏数据间的关系,并加以研究应用,为银行的业务发展和风险把控提供更好的对策建议。作为数据挖掘中常用的一种方法,关联规则(Association Rules)重点关注从大量数据中找出事物间内在的隐含联系,该方法在医疗数据分析、商业营销分析、语义分析等领域都有广泛的运用。近年来,也有相关学者将其应用到银行业中,分析商业银行贷款、信用卡等客户的信用评级。

一、关联规则Apriori算法及其适用性分析

关联规则是一种能够反映事物与其他事物之间相互依存和关联关系的数据挖掘方法。关联规则挖掘的典型应用为购物篮分析,若分析得出35%的客户购买了X产品,这些客户中的75%还购买了Y,该规则可表示为“X→Y”的蕴含式,其中X为前项,Y为后项。关联规则的强度可用支持度(Support)和置信度(Confidence)衡量。支持度表示关联规则的前项在所有项集中出现的百分比,用来衡量关联规则的重要性;置信度表示在前项出现的情况下,后项同时出现的百分比,代表这条规则成立的概率。上例中,“X→Y”的规则支持度为35%,置信度为75%。

Apriori算法是最常见的关联规则算法之一,其难点在于需要找到合适的支持度和置信度参数以产生合理数量的关联规则,该过程可能需要进行大量试验与误差评估。假设参数设置过高,会導致没有规则或规则过于普通而无价值;另一方面如果阈值太低,可能导致规则数量较多,需要运行较长时间或在学习阶段耗尽内存。Apriori算法主要使用广度优先搜索和哈希树结构有效计算候选项集,其挖掘具体步骤如下:先搜索出候选1-项集及对应的支持度,剪枝去掉低于支持度的1-项集,得到频繁1-项集;对剩下的频繁1-项集进行连接,得到候选的频繁2-项集,筛选去掉低于支持度的候选频繁2-项集,得到真正的频繁2-项集;以此类推,迭代下去,直到无法找到频繁k+1-项集为止,对应的频繁k项集的集合即为算法的输出结果,关联规则挖掘流程见图1。运用以下公式计算支持度和置信度:

在商业银行个人贷款业务中,银行根据客户提供的信息数据发放不同额度的贷款,客户则根据签订的合同按期按额还款。现实生活中,少数客户逾期还款或不还款现象增加了银行相关业务风险,提高了不良贷款率。银行内部审计理论上应该尽可能地识别出此类风险,在客户提供信息时作出判断,决定是否对客户进行进一步调查,以此降低业务风险。但仅凭客户提交的基本信息,从横向角度进行单一分析很难得出有价值信息,因此需要对不同数据间的相关性、依赖性进行多维度分析。

二、模型和数据处理

以A银行某地区二级分行实际个人贷款业务为例。从个人信贷系统中随机选取个人信用消费贷款、个人综合消费贷款的客户信息22,328条,数据指标主要包括:客户ID、名称、性别、出生日期、最高学历、职业、职务、职称、贷款分类、结清标志、贷款余额、婚姻状况、教育水平、月收入、住宅类型等。其中,贷款五级分类是指该笔贷款目前的状态,包括正常、关注、次级、可疑和损失五种类型。鉴于主要分析贷款尚未结清的数据,剔除系统录入错误、不符合实际情况的异常值以外,共剩余数据13,596条。

由于关联规则Apriori算法无法处理连续型数值变量,为了将原始数据转换成适合建模的格式,需要对数据进行进一步处理。根据各指标的实际意义及分析要求,对部分指标进行统计学处理,最终选取10项指标并作分类说明,见表1。

三、关联规则Apriori算法挖掘

客户根据自身需求向银行申请贷款,需要提供上述信息给银行,银行根据各项信息指标,针对具体客户进行信用评级,综合考虑权衡各方因素,再抉择是否发放贷款。综合上述已发放贷款业务的客户信息结果,显示部分客户贷款类型LOANTYPE为UN状态(包括次级、可疑、损失三类)。值得关注的是,具有哪些信息的客户最有可能成为贷款类型LOANTYPE为UN状态,即哪些指标组成的项集对贷款类型为UN的支持度最大。挖掘出这样的项集,可为审计人员指明方向,提供识别可疑不良客户的相关线索。

利用R语言来实现Apriori算法,以表1中贷款类型为UN的数据来建模,根据数据实际情况以及统计学理论,经过多次分析实践,最终将最小支持度和最小置信度分别设置为0.06和0.75,选取模型结果中支持度最大的2-项集和3-项集,运行输出的结果参数见表2。

表2中3-项集,{SEX=M,POSITION=ZW2,

MARITAL=MS2}对{LOANTYPE=UN}的支持度为41.7%,该规则表明在贷款状态为UN的客户中,职务为非管理人员、婚姻状况为已婚的男性概率达41.7%。{SEX=M,MARITAL=MS2,

HOUSETYPE=HT2}对{LOANTYPE=UN}的支持度为36.32%,该规则表明贷款状态为UN的客户中,住宅类型为自购房屋无贷款、婚姻状况为已婚的男性概率达36.32%。该结果与2-项集的结果相吻合,即可以得出推论:在贷款状态为UN的客户中,住宅類型为自购房屋无贷款、职务为非管理人员的已婚男性客户概率更大。

为验证上述模型结果推论的准确性,以贷款类型为N的数据再次建模分析,同样设置最小支持度和最小置信度为0.06和0.75,并选取支持度最小的项集,模型结果见表3。

表3显示,{CAREER=ZY8,MARITAL=MS2}对{LOANTYPE=N}的支持度最低,为20.04%,该规则说表明在贷款类型为N的客户中,若客户职业为其他从业人员,且为已婚状态,其概率为20.04%;{SEX=M,POSITION=ZW2,JOBTITILE=T3,INCOME=INc2}对{LOANTYPE=N}的支持度为20.67%,该规则表明贷款类型为N的客户中,若客户为男性、无职称、收入在5000-9999元以及职务为非管理人员,其概率为20.67%;{SEX=M,MARITAL=MS2,EDUCATION=E1,HOUSETYPE=HT2}对{LOANTYPE=N}的支持度为20.81%,该规则表明贷款类型为N的客户中,客户为男性、婚姻状况为已婚、教育水平为本科及以上(包括大专)以及住宅类型为自购房屋无贷款的概率为20.81%。将该结果与表2进行比较分析,发现两者结果近似,进一步表明在贷款类型为UN中,若客户为男性、住宅类型为自购房屋无贷款、职务为非管理人员以及婚姻状况为已婚,其概率更大。

四、结论与展望

从关联规则Apriori算法的两种建模分析结果来看,两个结果大致相同,比较符合实际情况,即在贷款类型为UN的客户群体中,男性、住宅类型为自购房屋无贷款、职务为非管理人员以及婚姻状况为已婚的客户概率更大。现实生活中,这类群体的生活状况较稳定且基数大,大多是工作、收入一般的男性群体,整个家庭拥有一套住房,但由于需要抚养父母子女,日常消费金额相对较大,极易促成个人消费贷款。审计人员在做个贷业务审计时,可针对此类贷款客户的情况进行进一步研究。

关联规则等挖掘算法可以改善银行内部审计非现场分析过程存在的针对性不足问题,为业务风险把控、客户风险管理以及内部非现场审计线索提供相关思路与建议。但由于本文采用的数据为客户信用数据中的部分指标数据,对于已发放贷款客户的最终贷款类型评估来说,考虑的因素不够全面,结果较为粗糙。因此,在实际内审工作中,要综合考虑多方面因素,同时结合其他成熟数据挖掘方法,提高评估的准确性。

内部审计是商业银行风险管理的第三道防线,是为银行合规经营、高质量发展保驾护航的关键所在。应顺应发展趋势,提升计算机辅助审计技巧。面对银行业积累的海量数据,应及时融入大数据技术,如建设数据仓库、数据挖掘平台等。同时,应结合银行内部审计的需要,不断推进数据挖掘技术的实际应用,将数据挖掘结果应用到实际工作中,提升非现场挖掘可疑数据的有效性和准确性,为现场审计提供技术支撑,实现审计的精准定位。

(作者单位:中国邮政储蓄银行审计局南昌分局,

邮政编码:330038,电子邮箱:819860249@qq.com)

主要参考文献

施文君.基于关联规则的线上线下双层耦合社交网络信息传播规律研究[D].蚌埠:安徽财经大学, 2018

王明哲,基于数据挖掘技术的信用卡客户的信用评价[J].商场现代化, 2007(8):77-78

许荻迪.基于关联规则挖掘的商业银行信贷产品交叉营销研究[J].商业经济, 2017(3):103-106

颜龙杰.关联规则挖掘在银行客户信用评估中的应用研究[D].武汉:中南民族大学, 2015

杨亲瑶.交互可视化关联规则挖掘的研究与实现[D].广州:华南理工大学, 2010

猜你喜欢
Apriori算法关联规则数据挖掘
基于数据挖掘探讨慢性肾衰竭处方规律
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于Hadoop平台的并行DHP数据分析方法
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于云平台MapReduce的Apriori算法研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于R的医学大数据挖掘系统研究