上市企业贷款违约风险的实证研究
——基于判别分析的Logistic回归组合法与决策树模型的分析

2018-12-11 09:23张中秋
时代金融 2018年32期
关键词:组合法决策树正确率

张中秋

(安徽大学,安徽 合肥 230000)

一、引言

一直以来,商业银行的经营都潜存着违约风险的发生,违约风险率的高低不仅会直接决定银行的盈利水平与稳健的经营能力,还会影响其对客户和同业银行的支付能力,造成整个金融系统的风险变化。李明[1]结合利率市场化条件下,讨论了由中国银行业经营所面临的违约风险而带来的一系列挑战。随着经济的快速发展,企业贷款的需求量不断增加,商业银行的风险评估技术也需要不断的创新与发展,这就为商业银行的风险管理技术提供了严峻的考验。因此,对上市企业的违约风险进行评估一直被金融界所关注。众多国内外学者对企业的贷款违约风险的研究多采用判别分析或Logistic回归模型进行实证研究,主要以王春峰[2]为代表的部分学者分别运用多元线性判别法,Logistic回归法等对商业银行面临的违约风险进行评估,并做出了实证对比分析。陈静[3]以27家ST和27家非ST上市公司1995-1997年报数据建立线性判别模型进行回判率的估计。李长山[4]运用Logistic回归法构建企业财务风险预警模型,分析其判别效果达到了良好的财务风险预警机制。张初兵[5]等利用随机模拟方法分别研究判别分析和Logistic回归分类,并进行回判准确率的比较分析。

可以发现判别分析和Logistic回归法为实际问题提供了有价值的思考,而这两种方法的理论基础并不完全是相同的。本文关于上市企业违约风险的测定,需要将中小企业划分为两组:违约组和非违约组,这是属于二分类问题。判别分析与Logistic法在研究二分类问题上都能够较好的给出分类算法以及较优的回判正确率,但都存在一些不可忽视的缺点。然而将两种方法的优势融合在一起,构造出一种组合模型对上市企业的贷款违约风险进行实证研究的介绍还较少出现。因此,本文采用两者组合的方法可以降低单一方法所带来的弊端而集中两者的优势大大降低了违约风险测定的误判率,为商业银行检测企业的贷款违约风险提供了新思路。

接下来为了进一步找出影响企业违约的关键性因素,我们采用了决策树模型帮助我们更好的理解整个分类过程。季桂树,陈沛玲,宋航[6]基于各种决策树分类算法的基本思想阐述了决策树技术在分类过程中具有较高的分类精度、结构简单、可理解性以及分类效率高等优点。徐晓萍[7]分别运用判别分析与决策树模型对非上市中小企业违约风险进行分析,并将两种方法进行对比。DaviS等利用决策树算法成功的解决银行信用卡违约问题,并将几种常见的算法进行比较分析[8]。冯俊文[9]在文献中提出了利用决策树方法可以帮助我们对属性进行排序,能够选择出最优属性变量。因此,构造决策树模型可以使我们更加清楚地了解整个分类过程,找出重要性指标,指导商业银行对关键性指标进行更详细的调查,提高预测准确度的同时提高了银行风险管理的工作效率。

本文的主要思路可以分为以下四个部分:

第一部分:考虑选取经营现金流量/负债合计、总资产周转率、总资产净利润率、每股留存收益和总资产增长率五项财务指标数据作为公司是否具有违约风险的衡量指标。

第二部分:计算出分别使用判别分析和Logistic回归法对上市公司贷款违约风险进行分类的回判正确率,其中分类结果正确的观测点占所有观测点的比例为回判正确率。对于相同的样本,两种方法之间的回判正确率是存在差异的。

第三部分:计算基于判别分析的Logistic回归组合法的回判准确率。将三种方法计算出的回判正确率进行对比分析并利用检验样本组进行回判检验。

第四部分:利用决策树算法将所有属性的信息增益大小进行排序,帮助我们更好的理解整个分类过程,为商业银行的风险管理提供有价值的指标参考。

二、样本与指标的选择

本文选用沪深两市的100家上市企业作为研究对象,其中*ST股票是指连续三年亏损或公司经营存在重大的不确定性,资不抵债,随时可能被摘牌或破产。财务危机是指企业丧失支付能力、无力支付到期债务或费用出现资不抵债的现象,包括商业破产,运营失败和资不抵债[10]。由信贷风险理论可知:我们可以将*ST公司作为贷款风险违约组处理,具有一定的理论依据。通过国泰安数据库采集到标有*ST的49家上市公司作为违约组样本,选取的这些公司不仅被标有特殊处理的记号,而且长期存在财务危机和负盈利的经济现象,因此作为违约组具有很好的代表性。根据沪深两市于2017年报评选的前500强上市企业中选择51家企业作为非违约组样本,其中选择的51家企业是起止2017年连续三年评选入围前500强,财务状况一直保持良好的稳定发展。确保了选择的样本可以准确地划分为违约组和非违约组。然后,随机选取样本数据的70%作为估计样本组,剩下的30%作为检验样本组,即估计样本组为70家公司,检验样本组为30家公司,我们所选的上市企业涉及的行业涵盖范围较广,包括服装、家具、百货、食品、建筑、电器等方方面面,具有一定的代表性。

本文采用上市企业的财务指标构建违约风险模型的变量,财务指标能力的高低直接反映了企业的经营能力和是否具有财务危机风险,从而帮助我们判断贷款企业是否可能发生违约风险。根据上市企业的财务特征可以细分为偿债能力、经营能力、盈利能力、盈利质量和可持续发展能力五个方向,本文初步从每个财务特征中筛选了2-3个财务比率,总计选取14个变量,但为了排除多重共线性的影响,最终从每个财务特征中筛选了一个具有代表性的财务比率,分别是经营现金流量/负债合计、总资产周转率、总资产净利润率、每股留存收益和总资产增长率,分别记 X1、X2、X3、X4、X5,均可以从国泰安数据库中进行数据采集。综合体现了企业的财务能力,可以帮助我们较好地划分企业是否具有发生违约风险的可能性。

首先,利用SPSS软件对这五个变量之间做相关性分析的统计描述,结果如表1所示:

表1 各指标之间的相关性分析

由表1可知,各指标之间的相关性均远小于0.5,不具有多重共线性,因此所选的五项财务指标具有良好的代表性,能够较好地衡量公司是否具有贷款违约的风险。

三、利用判别分析与Logistic回归组合法分析上市企业的违约风险

随机选取的70个样本量作为估计样本组,分别有35家ST企业和35家非ST企业。因变量分为违约组和非违约组,分别记为Y=1和Y=0,而五个财务指标作为自变量分别记为X1,X2,X3,X4,X5。

(一)判别分析

1.距离判别法。由于各变量在各组之间存在异方差,不满足线性判别分析。继而采用判别分析中的距离判别法建立的判别函数,它是一种非线性函数,其优点对各类总体的分布没有特殊要求,范围较为宽松。

设两个类别总体G1和G2,任取一个样品,记为实测指标值X=(x1,x2,x3,x4,x5),分别计算X到G1、G2总体的距离,记为D=(X,G1)和D=(X,G2),按照距离最近准则判别归类。

设 u(1)、u(2)、E1、E2分别为 G1和G2均值和协方差阵,本文利用马氏距离定义距离,公式如下:

其中W(X)作为判别函数,它是二次函数。

按照距离最近准则,可知当W(X)>0时,样本归为总体G1,当W(X)<0时,样本归为总体G2。

2.实验结果。利用R软件对估计组数据做距离判别法,分类结果如表2所示:

表2 马氏距离的分类结果

观察可知利用判别分析得出的结果中违约组(Y=1)存在2个误判,正确率为94.3%,非违约组(Y=0)存在7个误判,正确率为80%。综合而言,判别分析的回判正确率达到87.1%。

(二)Logistic回归模型

关于因变量是二分类的情况下,同方差、线性和正态性的假设都不能成立,OLS的估计是无效的,因此采用Logistic回归的最大似然估计法可以解决这一问题,即将Y(1、0)转化成logit,这样Logistic回归模型可以表示为:

其中P是借款企业的违约风险率,β是待估系数,X是自变量,Ui是随机误差项。

采用SPSS软件进行二项Logistic回归分析,回归分类的结果如表3所示:

表3 Logistic回归分类的结果

从表3可以发现,Logistic回归分析的归类结果相比于判别分析效果更佳,总体的回判正确率达到88.6%。

(三)判别分析与Logistic回归组合法

关于商业银行信贷风险模型的发展,存在较多的分类方法是Logistic回归模型与判别分析,相比而言,Logistic回归法更加稳健,但没有理论证实该方法的回判正确率一定高于判别分析。为此,有学者提出了判别分析与Logistic回归的组合模型,并通过大量实验证实了组合模型的优越性,为本文利用组合模型尝试对上市企业的违约风险进行测定提供了思路。尹剑、陆程敏、杨贵军[11]在文献中提出了判别分析与Logistic回归组合法的理论框架,通过随机模拟实验证实了基于判别分析的Logistic回归组合法相比于单个任何一种方法在二分类问题方面都有较高的回判准确率以及更高的稳健性。张阔,李桂华,李燕飞[12]通过建立我国城市消费者寿险购买行为的预测模型提出了将判别分析与Logistic回归模型联合应用,能够取得更好的预测效果。

1.基本原理。判别分析与Logistic回归组合法主要依托于提高两种模型在进行归类过程中的可信度,通过组合模型将两种方法的优势集中在一起。针对判别分析进行分类,W(X)的绝对值越大误判的可能性会越小,而Logistic回归则是要求条件概率值与0.5之间的差值绝对值越大可靠度越高,张初兵,高康,杨贵军[5]指出判别函数值越大,条件概率与0.5之间的差值也就越大,反之亦然。因此可以利用判别分析的结果改进Logistic回归的分类结果。基本思路分为三部分:第一部分,利用R软件对样本数据做距离判别分析,计算出判别函数值W(X)。第二部分,将W(X)从小到大进行排序,计算出函数值的15%分位数和85%分位数。第三部分,针对W(X)大于85%或小于15%分位数的样本数据,判别函数的绝对值偏大,即两者的分类结果相同且分类的正确率较高,因此不需要修正。定义函数为:

当W(X)的值大于85%或小于15%分位数时,不需要修正,因此d(x)记为0,同时还可以减少极端值对Logistic回归的影响。对于在15%与85%分位数之间的样本数据,可以将d(x)=W(x)作为新增解释变量对样本数据进行修正,然后建立Logistic回归模型,最终得到判别分析与Logistic回归组合模型。

2.实验结果。利用SPSS对估计组样本进行基于判别分析的Logistic回归组合法的软件操作,即对增设d(x)为解释变量后,重新对70个样本进行二元Logistic回归分析,其分类汇总结果如表4所示:

表4 组合法的分类结果

可以发现违约组(Y=1)存在2个误判,正确率达到94.3%,非违约组(Y=0)存在5个误判,正确率为85.7%,总体的回判正确率高达了90%。模型的预测精度分别提高了3.3%和1.6%,相比单一的判别分析或Logistic回归法的预测结果都要好。同时,无论单从非违约组还是违约组中的正确率大小的角度分析,这种组合模型也优于单一任何一种方法的测定,由此可知通过组合法可以极大地提高关于二分类问题中的回判正确率。

3.检验样本组的分类情况。为了进一步检验组合模型的适用性和有效性,接下来我们对剩余30%的样本量作为检验样本组,进行组合模型的回判检验。判断统计结果如表5所示:

表5 违约判断统计结果(组合模型)

表5可以发现,将判别分析与Logistic回归组合法延伸对检测样本组进行回判检验,其中违约组(Y=1)和非违约组(Y=0)均没有判错,回判正确率为100%。也就是说明组合模型同样达到了很好的预测结果,具有良好的延伸性与有效性。

四、决策树模型

(一)决策树算法

决策树是一种比较常用的分类方法。其基本思想是对预测变量进行二元分离,从而构造一棵可用于预测新样本单元所属类别的树。同时,决策树还能够按照属性的最大信息增益对属性进行排序进而生成决策树,直观地了解整个分类过程以及找出影响分类的关键性因素。

(二)实验结果

同样需要将100个样本数据随机划分训练集与测试集,其中训练集样本占70%,测试集样本占30%。利用训练样本集产生初步规则生成决策树,然后利用测试样本集进行剪枝,通过R软件得到最终的测试样本集的判断结果如表6所示和决策树图形如图1所示:

表6 违约判断统计结果(决策树模型)

表6可知:统计结果中违约组(Y=1)的判断正确率为82.35%,非违约组(Y=0)的判断正确率为76.92%,总的回判正确率为80%,判断结果较优。虽然相比上述的组合模型的统计判断结果而言,决策树模型判断的效果不太理想,可能由于决策树算法在产生规则时采用局部的贪婪法,无法保障全局最优,其次分类器过于复杂,会产生一定的噪声,从而发生过度拟合的问题等。但是它同时具有处理数据的速度快,能够直接体现数据特点且易于理解与实现等优点,仍成为一种常见的分类方法。

图1 决策树图形

从图1可以看出,根据测试样本集对决策树进行剪枝后降低了叶子节点,得到了关于测试样本集进行预测的最佳决策树模型。可以发现经过剪枝后决策树中只存在三个关键性指标,分别是每股留存收益(X4)、总资产周转率(X2)和总资产净利润率(X3)。说明这三个财务指标对上市企业的贷款违约风险的测定是至关重要的。其中每股留存收益的信息增益最大,可以判断该指标相比其他指标具有最高区分度属性,无论是针对违约组还是非违约组,每股留存收益的财务指标都可以很大程度的进行准确分类,是判断企业是否可能违约的最关键性因素。该方法可以帮助商业银行提高贷前审查效率,减少不必要资源的浪费,加强银行对高风险企业的甄别能力。

五、结论

关于上市企业贷款违约的测定,对于商业银行来说是一项复杂且重要的工作内容。本文的研究内容摒弃了常用的判别分析法或者Logistic回归模型进行上市企业的违约风险测定,而尝试采用一种基于判别分析的Logistic回归组合法。关于判别分析与Logistic回归组合模型测定上市企业贷款违约风险的方法可以极大地提高回判正确率,加强风险评估管理,为商业银行违约风险的甄别提供一种新思路。

虽然相比而言,利用决策树模型对上市企业的违约风险进行甄别,得到的回判正确率较低,但是对于大量数据的前提下,决策树仍然具有有效构造模型的能力即可伸缩性较强,还可以使决策者更清晰明了的看清整个分类过程以及找出影响上市企业违约的关键性指标,提高商业银行贷前审查效率。尤其针对经营所涉及的覆盖范围较大的上市企业,对其数据进行审核时会造成数据采集量大而复杂,审核较为困难时,决策树可以很好的帮助商业银行降低审查难度,提高工作效率的同时保证风险排查的准确性。

如果商业银行进行风险审查时,同时考虑兼用基于判别分析的Logistic回归组合法模型和决策树模型,进行上市企业违约风险的测定,将保证较高的回判正确率的同时大大提高审查效率,降低审查难度,使优良的中小企业及时得到贷款,促进商业银行的金融业发展,同时也可以为投资者、金融机构和市场监管层提供一种有效的财务预警分析工具。

猜你喜欢
组合法决策树正确率
奇妙的组合法
数列前n项和的一种求法
门诊分诊服务态度与正确率对护患关系的影响
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
生意
品管圈活动在提高介入手术安全核查正确率中的应用
基于决策树的出租车乘客出行目的识别
高速铁路车站抗震计算的多维反应谱组合法
基于肺癌CT的决策树模型在肺癌诊断中的应用