杨 光,王 蕾,付志慧
(1.沈阳师范大学 数学与系统科学学院,沈阳 110034;2.闽南师范大学 数学与统计学院,福建 漳州 363000)
现实世界中,数据缺失是不可避免的问题。尤其是随着大数据时代的到来,数据量级和复杂程度增加,但缺失现象依旧普遍存在,极大地增加了数据的管理和分析难度。如果数据集中的缺失比例过高,会导致数据质量下降,分析得到的结果不够准确甚至毫无意义,影响决策的准确性。因此,对缺失数据进行填补是十分必要的。
D-vine copula分类器利用D-vine copula模型在拟合变量间的线性或非线性相关性时选择出最合适的函数,对贝叶斯分类器在处理变量相关性方面进行优化,从而提高了贝叶斯分类器的分类性能。本文介绍了5种常用的缺失数据处理方法,模拟不同的缺失比例,说明各处理方法对D-vine copula分类器的影响。
均值插补法(mean imputation,MeanI)一般用观测数据的平均值代替缺失数据对数据集进行填补,可以选择总体数据的均值,也可以用样本数据填补缺失数据。此方法虽然简单易行,但是用同一个均值替换变量中的缺失值,忽略了数据的特征,低估了估计量的方差,只适合比较简单的数据集,不适合较复杂的需要方差估计的分析[1]。
随机插补法(random imputation,RI)是采用某种概率抽样的方式,从缺失变量的已知数据中随机抽取一些数据作为缺失数据的替补值。随机插补法虽然会造成估计量的方差增大,但能够避免发生均值插补法中替补值过于集中的情况,使处理后的数据分布更接近数据集的真实分布,在估计和样本有关的参数时更具优势[2]。
K最近邻插补法(K nearest neighbor imputation,KNNI)[3]是基于K最近邻算法的缺失数据插补算法。根据距离度量或相关分析选择距离缺失样本最近的K个样本,计算与缺失样本之间的距离,对这K个距离加权来估计缺失数据。既可以解决连续型变量又可以解决离散型变量缺失的情况,但在分析大型数据集时会非常耗时,而且对于高维数据集,最近与最远邻居之间的差别很小时,KNNI的准确性会降低。
分类与回归树插补法(classification and regression trees imputation,CARTI)是用分类与回归树算法对缺失数据进行插补的算法。CART[4]是一种具有纵向分析特征的树型分析方法,由分类树和回归树两部分组成。分类树是分类变量的数据分析,回归树是连续变量的数据分析。CARTI能够处理多重共线性和偏态分布,在拟合相互作用和非线性关系时十分灵活,具有较强的可靠性。
随机森林插补法(random forest imputation,RFI)是基于随机森林算法的缺失数据插补算法。它能够充分利用数据集包含的信息,通过对训练样本的学习来预测缺失数据。随机森林插补法汇总多棵决策树的结果得到最终的插补值,弥补单棵决策树易受噪声数据的干扰影响插补结果的不足,使得插补效果更加准确[5]。
Sklar在1959年提出了Copula理论,主要应用在金融风险管理领域上[6]。根据Sklar定理[7],对于一个n维随机变量x=(x1,x2,…,xn)T,令F是具有边缘分布F1(x1)、F2(x2)、…、Fn(xn)的n维随机变量的联合分布函数,则一定存在一个Copula函数C(·)使得
F(x1,x2,…,xn)=C(F1(x1),F2(x2),…,Fn(xn)),
它的联合概率密度函数写为
f(x1,x2,…,xn)=c(F1(x1),F2(x2),…,Fn(xn))×f(x1)×f(x2)×…×f(xn),
其中c(F1(x1),F2(x2),…,Fn(xn))是Copula函数C(·)的密度函数,f(xi)是随机变量x的边缘概率密度函数[8]。由此可知,Copula函数是一类将联合分布函数与其边缘分布函数连接起来的函数,也成为连接函数[9]。
Joe[10]首先提出Pair Copula理念,Bedford和Cooke[11]将Vine模型引入Pair Copula理念中,创造了Pair Copula构建方法(PPC)。PPC就是把多元联合密度函数分解为条件边缘分布密度函数和一系列Pair Copula函数的乘积。分解后的Pair Copula函数可以刻画每条边所对应的二元联合分布,在描述变量间的关联结构时更加灵活。Aas等[12]详细介绍了C-vine和D-vine的分解方式、参数估计和数据模拟。
一个n维D-vine copula由n-1棵树(Tj,j=1,2,…,n-1)构成,每棵树有节点和边。其中第j棵树Tj有n+1-j个节点和n-j条边,每个节点对应一个变量,每条边对应一个Pair Copula函数。由此可知,D-vine copula结构的联合概率密度函数可以表示为
其中c·|·(·,·)为Pair Copula密度函数,F·|·(·,·)为条件分布函数[12]。
根据贝叶斯法则,对于样本x={x1,x2,…,xn},n是样本的变量个数,x在类别e∈E中的概率表示为
Pr(e|x)∝Pr(x|e)·Pr(e),
其中,E=(e1,e2,…,el)′是类别变量,l是类的总数,Pr(e)是样本所属类别的先验概率,通常由训练样本估算出来[13],Pr(x|e)是所属类别的条件概率密度函数。结合D-vine copula结构可以将贝叶斯概率扩展为
依据最大后验概率决策规则,样本x的分类可以表示为
本文选择的数据集banknote authentication Data Set来自UCI[14],包含4个变量,共1 372个数据。通过比较预测准确率来检验各方法处理缺失数据的能力,以说明不同缺失数据处理方法对D-vine copula分类器的影响。预测准确率是最常见的评价分类效果的指标,准确率越高说明缺失数据的处理效果越好。预测准确率的定义如下:
在实验过程中,首先,将数据集分为2部分,以70%的数据作为训练数据集,30%的数据作为测试集。为保证测试效果,选择对训练集做单变量缺失,缺失机制为完全随机缺失,缺失比例分别为5%、10%、30%、50%、70%。若同时在训练集和测试集上做完全随机缺失,再利用上述缺失数据处理方法,经过缺失数据处理后的测试集测试效果与原始测试集的测试效果相比会产生一定偏差,导致过拟合现象。因此,本文只在训练集上插入缺失数据,采用不同缺失数据处理方法,用原始测试集进行检验。然后,用MeanI、RI、KNNI、CARTI以及RFI填补缺失数据,将D-vine copula模型应用于各个训练集建立分类预测模型,并用不含缺失数据的测试集进行检验,记录不同缺失率下的预测准确率。最后,重复上述步骤100次,得到不同缺失数据处理方法的平均准确率。
表1 预测准确率Table 1 Prediction Accuracy %
表1给出了5种缺失数据处理方法对应的准确率。通过计算准确率来分析和比较5种方法对分类器的影响。从表1可以观察到,缺失率为5%时,经RI处理后的数据在D-vine copula分类器上的表现最好,MeanI和KNNI的表现次之;缺失率为10%时,RI处理后的数据好于其他缺失处理方法的;缺失率为30%,用CARTI、RFI以及KNNI处理后的数据得到的分类结果相等,且高于MeanI和RI的结果;缺失率为50%,经MeanI处理后的数据得到的分类准确率最大,CARTI和KNNI次之;缺失率为70%,用KNNI处理后的数据在D-vine copula分类器上的表现最好,其次是CARTI。随着缺失率增加,经KNNI和CARTI处理的缺失数据在D-vine copula分类器中得到的准确率逐渐增大,并且由KNNI处理后的分类准确率更高。
数据的价值和应用范围很大程度受到数据质量的影响,在数据采集与整理过程中各种原因都可能导致数据集出现一些数据质量问题,影响分类模型的预测准确率。缺失数据是一种典型的数据质量问题,所有数据集基本上都会存在不同程度的缺失问题。不恰当的缺失数据处理方法会导致数据无法得到有效利用,潜在信息无法挖掘。因此,选择合适的处理方法尤为重要。
本文比较了在数据缺失率为5%、10%、30%、50%、70%时,不同缺失数据处理方法对D-vine copula分类器的影响。随着缺失比例的增大,填补得到的新数据集在D-vine copula分类器表现较为稳定,总体来说KNNI要优于其他4种方法,随着数据缺失比例的增加,KNNI对应的准确率有所提高,缺失率为70%时准确率最高。在用D-vine copula分类器对有缺失的数据做分类时,当缺失比例在5%~10%时,用RI处理缺失数据较好,当数据缺失比例较大时,可优先考虑用KNNI处理缺失数据。研究中,都是对数据集做模拟缺失,数据量的大小、数据维度、变量类型、变量比例等数据结构未发生改变,对不同数据结构情况下的不同缺失数据处理方法有待进一步比较。