基于Isomap的树增强朴素贝叶斯分类器的信用预测

2018-01-23 10:21:11叶晓枫许义仿

中州大学学报 2017年6期

叶晓枫,许义仿

(华北水利水电大学数学与统计学院,郑州 450046)

信用评估是如今金融机构评估风险的主要方法，主要包括三个步骤：明确信用影响因素;获取影响因素的动态特征;构建模型评估客户信用等级[1-2]。当前国内外常用的信用评估方法和理论有数学规划、统计方法、决策树、专家系统、支持向量机、K近邻方法、贝叶斯网络、神经网络等。由于朴素贝叶斯具有较强的推理能力与稳定分类效率,对缺失数据不敏感,与其他算法相比有较小的误差率，因而被称为是一种有效而简单的概率分类方法。因现实世界大部分问题与朴素贝叶斯中的“独立性假设”不符合,所以符合实际语义环境的分类器的改进起引了许多学者的研究兴趣，树增强朴素贝叶斯分类器[3](Tree Augmented Naïve Bayesian Classifier,TAN)、通用贝叶斯网络分类器 (General Bayesian Networks Classifier,GBN)、选择性朴素贝叶斯分类器[4](Selective Naïve Bayesian Classifier,SNB)、判别分析的朴素贝叶斯分类器[5](Discriminate Analysis Naïve Bayesian Classifier,DANB)等都属于这一类的改进。

TAN模型可以使用多项式时间复杂度找到最优的增强树贝叶斯网络分类结构,这不但能确保计算的可行性,而且扩展了朴素贝叶斯分类器,放宽了朴素贝叶斯“各属性相互独立”限制条件。然而对于信用评估模型来说,信用评估数据具有非线性、高维度、特征多等特点,如何从高维数据中提取有效的特征直接关系着评估模型的准确率。

本文在现有的基础上提出基于Isomap的树增强朴素贝叶斯(Isomap-TAN)信用评估模型,将数据降维作为数据预处理中的一步,简化树增强朴素贝叶斯分类模型的结构,并选取1069家企业的财务指标数据进行实证分析,结果表明模型的分类精度得到改善。

1 模型介绍

1.1 Isomap 数据降维

Isomap算法以多维尺度变换(MDS)为基础。Isomap的主要思想是：计算最近邻图中的最短距离得到测地距离,之后运用MDS算法获得嵌入在高维空间中的低维光滑流形的表示[6]。

Isomap算法[7]步骤如下：

步骤1 计算样本点之间的欧氏距离矩阵,建立邻域关系图G(V,E),对每个xi(i=1,2,…,N)计算其k近邻xi1,xi2,…xik,记为Nj,以点xi为定点,欧氏距离d(xi,xij)为边,建立邻域关系图G(V,E)。

确定近邻点有2种方法：

ii.利用k-近邻法,事先给定近邻个数k,然后确定近邻点。

步骤2 计算测地距离D=(dij)n×n以达到近邻关系图G(V,E)中寻找最短路径的目标,即

步骤3 对距离D=(dij)N×N运用古典MDS方法,求得最低维嵌入Y={y1,y2,…,yN}。

1.2 树增强朴素贝叶斯分类模型

树增强朴素贝叶斯分类模型(Tree Augmented Naïve Bayesian Classifier,TAN)是定义在U*={A1,A2…An,C}上的有约束贝叶斯网,Ai是离散属性变量,C是类变量。Pa(C)=φ,Pa(Ai)至多有一个除C以外的其他属性可以有一个相关的边指向它[8]。如图1所示,Geiger[9]表示了这类模型的证明过程。由Chow等[10]的学习树结构的贝叶斯网算法可知,若所有属性都是离散属性,那么可以构造出学习TAN网络结构的算法。

图1 树增强朴素贝叶斯网络结构图

TAN算法[11]描述如下：

(1)将训练样本输入并初始化变成统一的格式,然后定义属性变量与类变量,且用离散化方法处理所有的连续变量。

(2)判断。如果是分类任务,则转向(4)；如果是训练任务,则转向(3)。

(3)成立贝叶斯概率表和TAN结，然后检验所有的训练样本。

i.当i≠j时,计算每对属性变量的条件互信息熵I(Xi;Xj|C),

ii.成立一个结点是X1，X2…Xn的加权完全无向图,其中Xi，Xj之间的权重是I(Xi，Xj|C),i≠j。

iii.成立该无向图的最大权重跨度树。

iv.找到一个属性结点当作根节点,且令所有边的方向都变为由根节点指向外,这样可以将无向图变为有向图。

v.将类结点指向加入到有向图里,然后增加从类结点指向Xi的弧,最后得到树增强朴素贝叶斯网络结构。

vi.依据v产生的结构图,建立贝叶斯概率表。

(4)调用贝叶斯概率表,得出分类结果。

1.3 融合Isomap数据降维的树增强朴素贝叶斯分类模型

运用Isomap融合树增强朴素贝叶斯分类算法构建信用评估模型的基本想法：用Isomap算法进行数据降维作为树增强朴素贝叶斯分类算法的前置预处理系统,对高维度、非线性的企业财务样本进行降维处理,从而简化树增强朴素贝叶斯分类模型结构,缩短训练时间,提高分类精度。

1.3.1 指标体系的选择

财务指标是指公司总结、评估财务状况以及经营成果的相对指标，通过分析公司的财务指标可以帮助银行正确判断和评价公司的经济效益,进而决定是否贷款给这些公司。为了判断公司是否具备按时还贷的良好信用,帮助银行对上市公司进行准确的贷款发放,财务指标的选择就非常重要。

通过研究其他文献选取的有效财务指标以及大公国际信用评级的主要财务指标,本文选取了上市公司的15个财务指标，指标分类为运营能力(流动资产周转率、应收账款周转率、存货周转率)、盈利能力(毛利率、净资产收益率、每股主营业收入、净利率)、偿债能力指标(资产负债率、速动比率、流动比率、现金比率)、发展能力(股东权益增长率、净资产增长率、每股收益增长率、总资产增长率)。

1.3.2 模型的构建

图2为融合Isomap数据降维的树增强朴素贝叶斯分类模型架构图，算法描述如下：

(1)指标体系的构建。在财务数据库中，抽取能够表示企业信用等级的指标。

(2)特征提取。降低特征向量的维数用Isomap算法。

(3)建立分类器。针对样本分类的树增强朴素贝叶斯算法。

图2 Isomap融合树增强朴素贝叶斯的信用评估架构图

2 实验

2.1 数据来源

本文根据在沪深交易所上市的1069家企业的财务指标数据进行实证研究,其全部实验数据均选自新浪财经网。从中选取了15个财务指标作为关键变量,并且这15个指标全是数值型属性变量,类变量有两个状态{good,bad},相应地将全部企业划分为两类：good,即“具有信用好的条件”的企业；bad，即“不具有信用好的条件”的企业。从1069个企业样本中抽取769个作为训练集,剩下300个样本作为测试集。

2.2 数据预处理

2.2.1 离差标准化

根据源数据呈现的特征,当数据之间存在较大的变异程度,就考虑对源数据进行离差标准化。因为本文的量纲有很多不同并且数据差异很大,所以我们对源数据进行离差标准化，结果显示数据大小标准化后比较集中,没有变异程度很大的数据。本文在做离差标准化时,采用Matlab进行自主编程。

2.2.2 离散化

根据TAN 模型的要求，变量必须为离散型变量。所见到的信用评估问题中，经常包含混合变量，其中混合变量包括连续性的属性变量和离散型变量，因此对离散型变量需采用离散化方法。本文采用Fayyad[12]对连续变量进行预离散化,从而满足TAN算法的要求。

2.2.3 利用Isomap降维

利用Isomap算法能够对高维特征数据进行低维描述，即用最近邻居方法将k值(k=3,L30)代入,反复代入k值从而达到参数寻优,最后得到最小残差的k值(这里k表示最近邻居点个数)。Isomap算法是在Matlab软件上实现的,利用Matlab软件可以得出不同k值的低维嵌入残差图,然后对由不同k值得到的一系列的残差图进行分析,得出k=4时是最小残差,残差图如图3所示。当横坐标维数(Isomap dimensionality)增加时,纵坐标残差(Residual variance)是减小的,这就表示Isomap算法的使用能够实现数据降维，而数据“内在”的真实维度是找到曲线上突然停止显著下降的“肘”点来判断的[13]。

图3 残差和Isomap维数的关系

由图3可以看出,当维数d<3时,曲线明显下降至“肘”点；当维数d>3时,曲线变平缓而残差大致相同。因此能够得出结论:Isomap算法得到的降维后的真实“内在”维数为d=4。

2.3 实验结果及分析

为验证Isomap-TAN评估模型的性能,选择朴素贝叶斯模型和未降维的TAN模型进行对比分析,各模型的分类精度如表1所示。

表1 分类准确率测试结果 %

本文用R软件编写NB和TAN的分类程序。从表1可以看出，对不同的样本,Isomap-TAN评估模型有一定的优势：当评估good企业时,Isomap-TAN模型优于TAN 模型；对bad企业进行评估时,Isomap-TAN模型优于NB模型。就整体而言,本文提出的Isomap-TAN信用评估模型整体预测准确率为95.75%，高于朴素贝叶斯模型和树增强朴素贝叶斯模型。这是因为经过Isomap算法的降维处理,将原始数据从15维降到4维,减少了噪音的干扰,使柔和的重要特征指标体系更具有代表性,有效提高了分类的精度，而没有经过降维处理的树增强朴素贝叶斯评估模型,可能由于指标过多,指标之间存在冗余,从而影响了其分类的精度。虽然在数值上提高的精度不是很大,但是在处理大样本数据的时候,反映到具体数据中的差别有可能就会特别大。综上所述,基于Isomap的树增强朴素贝叶斯分类模型在经过Isomap算法的降维处理后,不仅能简化树增强朴素贝叶斯分类模型的结构,降低模型的计算复杂度,而且提高了分类精度，在一定程度上可以帮助银行对企业进行比较客观的信用评估。

3 结语

建立科学的信用评估模型,能够为研究人员提供重要的决策支持,减少损失。本文提出的Isomap-TAN模型结合Isomap和TAN的优点,利用Isomap算法进行降维处理,从原始数据的15维变量降到了4维,将柔和的四维特征作为树增强朴素贝叶斯模型的输入特征,最终得到了Isomap-TAN信用评估模型。选取2015年1069家企业进行实验分析,分析显示此模型的分类精度比朴素贝叶斯与树增强朴素贝叶斯模型高，这样不但能够将Isomap算法运用在非线性的金融数据上,而且为银行信用评估提供了一种新的思路。

[1]Li X L,Zhong Y.An Overview of personal oredit scoring:techniques and future work[J].International Journal of Intelligence Science,2012,2(4):181-189.

[2]肖进,刘敦虎,顾新,等.银行客户信用评估动态分类器集成选择模型[J].管理科学学报,2015(3):114-126.

[3]Friedman N,Dan G,Goldszmidt M.Bayesian network classifiers[J].Machine Learning,1997,29(2):131-163.

[4]Langley P,Sage S.Induction of selective bayesian classifiers[C]// Tenth International Conference on Uncertainty in Artificial Intelligence.Morgan Kaufmann Publishers Inc,2013:399-406.

[5]李旭升,郭耀煌.基于多重判别分析的朴素贝叶斯分类器[J].信息与控制,2005,34(5):580-584.

[6]赵连伟,罗四维,赵艳敞,等.高维数据流形的低维嵌入及嵌入维数研究[J].软件学报,2005,16(8):1423-1430.

[7]段志臣,芮小平,张立媛.基于流形学习的非线性维数约简方法[J].数学的实践与认识,2012,42(8):230-241.

[8]李旭升,郭春香,郭耀煌.扩展的树增强朴素贝叶斯网络信用评估模型[J].系统工程理论与实践,2008,28(6):129-136.

[9]Geiger D.An entropy-based learning algorithm of Bayesian conditional trees[C]// Eighth International Conference on Uncertainty in Artificial Intelligence.Morgan Kaufmann Publishers Inc,1992:92-97.

[10]Lee C H L,Liu A,Chen W S.Pattern discovery of fuzzy time series for financial prediction[J].IEEE Transactions on Knowledge & Data Engineering,2006,18(5):613-625.

[11]郭春香,李旭升.贝叶斯网络个人信用评估模型[J].系统管理学报,2009,18(3):249-254.

[12]Fayyad U M.Multi-interval discretization of continuous-valued attributes for classification learning[C]// International Joint Conference on Artificial Intelligence,1993:1022-1027.

[13]康莉.基于流形学习的分类算法及其应用研究[D].西安：西安科技大学,2010.