基于数据挖掘的中小企业客户信用评级模型的设计与实现

2019-06-19 03:38
海峡科技与产业 2019年1期
关键词:信用等级决策树评级

陈 琳 季 凌

1福建师范大学数学与信息学院,福建 福州 350117

2福建师范大学图书馆,福建 福州 350117

近年来,随着互联网技术的飞速发展,在国家支持民营经济发展、经济进入新常态的背景下,中小企业经济主体之间的信用往来日趋频繁,但由于中小企业信用评级体系不健全、技术手段不足等诸多因素,中小企业诚信问题日渐显露,中小企业融资困难、经营困难,严重阻碍了中小企业的自身发展,亟需建立良好的信用评级体系作为保障。信用评级体系的建立是促进中小企业发展的关键环境,风险评级可生成大量有价值、可利用的商业信息,这些信息将成为企业融资、银行授信、风险决策等重大事项的依据。

1 信用评级概念及研究现状

信用评级(Credit Rating)又称为资信评级,是一种社会的中介服务,为社会提供有价值的信息作为公司的决策依据。信用评级作为信用管理的重要方法之一,是企业偿还债务和履行合同的综合反映,可有效降低信息不对称性,这对于改善经营现状、强化风险防控的重要性不言而喻。目前,国内部分专家学者利用国内银行的数据开发信用评分模型,取得了一定的研究成果。刘高军[1]针对传统方法的不足,利用Logistic、决策树和神经网络算法,为建筑企业建立信用评价模型。庞素林等[2]建立了神经网络信用评价模型,但存在学习或者不稳定的缺点。吴冲等[3]采用支持向量机方法构建信用风险模型进行信用风险评估。陈建先生就Fair Isaac公司为全球客户设计、开发、实施各种模型的发展流程进行系统的介绍,为业界提供了宝贵的信用模型开发技术和应用经验。

2 信用评级实证分析

2.1 实验数据的处理及预处理

2.1.1 数据信息的来源

数据的选择和处理是数据挖掘过程的重要组成部分,对于模型的建立是前提条件。本研究所使用的原始数据取自厦门众欣金属制品有限公司,选取10年内、交易次数为3次以上的客户,从中筛选企业财务数据资料齐全作为研究分析对象。公司往来客户主要以零售业为主,故本研究的中小企业界定为营业收入500万~20 000万元之间。从样本中198家中小企业中挖掘信用等级分类的规则,建立信用等级评价模型。

2.1.2 数据指标的选择

公司原始客户信息数据表共33项数据项。经调研,数据表中有些信息对信用等级评价不具有显著性,对其作出调整,确定17个指标作为中小企业信用评级研究。根据中小企业经济发展的现状和企业特点分析,将17个指标共拟合成 5 个主成因,从偿还能力、经营能力、创利能力、成长能力、非财务指标五个方面设置指标。

2.1.3 相关性的检验

对评级指标进行相关性研究,使用SPSS软件进行分析,相关性系数如大于0.8以上,证明两者关系明显。因此需要消除评价指标的相关性减少对中小企业信用评价的影响。通过检验对流动比率、销售利润率、总资产报酬率、资产负债率指标进行剔除,剩余指标13个。检验结果显示Bartlett检验近似卡方为2115.378,自由度df 为 28,sig<0.01说明剩余变量之间可以作为信用等级评价的指标。

表1 KMO和Bartlett的检验

2.2 实证研究设计

为了获得最优的信用评价模型,从数据库中挖掘信用等级分类规则,把样本数据分为学习集和检验集。学习集是为了建立模型而确定的数据。验证集是为了检验模型的有效性而确定的数据。本研究将198个样本中的150作为训练集,剩余48个样本作为验证集。采取Logistic回归分析法和决策树C5.0建立模型,样本企业由公司领导层和专家评定划分为两大类,其中1代表信用好的客户,0代表信用差的客户。

2.3 模型算法

2.3.1 Logistic模型

该算法可排除异常数据信息的影响,将企业违约与自变量表示为Logistic曲线关系,假设违约对数发生比与信用属性xi(i=1,2,…,n)服从线性关系,构建违约概率等级的测算模型。假设用y表示货款状态,y=1表示违约或还款逾期,y=0表示按合同还款;p表示客户违约发生的概率,即p=Prob(y=1|x),1-p代表履约合同概率。

式(1)中βi(i=1,2,…,n)为信用属性的回归系数;

2.3.2 决策树模型

C5.0算法是参照ID3和C4.5算法改进而形成的新算法,根据全部样本数据作为基础,可生成一个多层次、多分支的决策树,目标变量为分类变量。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行指导样本子集不能再被拆分为止。本文使用Clementine数据挖掘软件中的C5.0进行建模。

3 模型结果分析

Logistic模型能够得出企业信用等级发生违约的回归方程:

p=0.192x速动比率+0.188x逾期债务比率+0.194x固定资产周转率+0.171x流动资产周转率+0.021x存货周转率+0.113x应收账款周转率+0.061x销售利润率-0.0891x经营净利率-0.072x主营业收入增长率+0.113x净利润增长率+0.024xMERGEFORMAT-0.110x独立董事总人数-0.094x订单金额-0.063x还款期限

违约影响最大的是偿债能力因子,各指标中交易货款金额越高,合同违约风险越大;资金逾期越高,合同违约风险越大。企业的盈利质量对企业违约影响显著。

C5.0是决策树模型中的算法,该算法生成了一个六层的决策树模型,用来判别表示“if…then… ”规则集,这说明此算法的优越性。在决策树中的每个分支都可以挖掘出信用等级规则,按照形成的规则,每个检验数据从树的根节点出发,直达树的分支节点,形成企业的信用等级。这其中的13个属性作为决策树的节点。

模型效果的评价采用混淆矩阵开展研究,对学习集的验证,可从下面数据表得出信息,两个模型对好客户和坏客户的敏感度不同,Logistic模型预测坏客户的准确度较高,但对实际的敏感度相对较差,而决策树在预测坏客户恰好与之相反。

表2 Logistic和决策树模型评价

4 结语

研究结果表明,数据挖掘技术对中小企业信用评级是一种有效且准确的方法。基于数据挖掘的中小企业信用等级,采用两种方法进行信用等级评价效果是有效的,其一致性结果可以获得更高的评价准确率。说明本研究的变量选取和模型设计效果较好,由此可以确定信用等级模型具有较强的预测能力,可以客观反映中小企业客户的信用状况,为企业发展、控制金融风险提供决策依据。同时结合实际提出如下建议:一是企业应建立客户历史信用数据交易库,以及客户的财务基本信息,用精准的数据信息提高模型的预测准度。二是随着相关经济学理论和优化理论的不断发展,未来对评估模型进一步优化,可采取更贴近实际的评级方法,提高评级模型的预测能力。三是政府应建立统一的中小企业信用体系,实现金融风险可防、可控,促进中小企业的健康发展。

猜你喜欢
信用等级决策树评级
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
武器装备科研生产单位信用评价工作取得阶段性成果
协会圆满完成武器装备科研生产单位信用等级评价扩大试点工作
分析师最新给予买入评级的公司
基于决策树的出租车乘客出行目的识别
住房抵押信贷信用等级的灰色评价方案研究
基于肺癌CT的决策树模型在肺癌诊断中的应用
财务信息对债券信用等级的解释作用
创投概念股评级一览表