摘 要: 文章研究了分别利用统计学方法和数据挖掘方法,对数据进行分类和预测,具体考察了Logistic回归和决策树的分类效能,并通过ROC曲线进行检验。结果表明:两种分类方法各有利弊,没有明显的孰优孰劣,对预测变量可以进行有效的交叉验证。
关键词:Logistic回归;分类回归树;ROC曲线
中图分类号:TP311 文献标识码:A 文章编号:2095-2163(2014)05-
The ROC Curves Comparing of Classification Performance between Logistic Regression and Decision Tree
WANG Dongyan
(School of Psychology, Nanjing University of Chinese Medicine, Nanjing 210023,China)
Abstract:This paper studies the use of statistical methods, and data mining methods for data classification and prediction, specifically examines the classification performance Logistic regression and decision trees, then the corresponding performance are examined by ROC curve. The results shows that: two classification methods have advantages and disadvantages, and there is no obvious one is better, which can take effective cross-validation for predicting variables.
Keywords: Logistic Regression; Classification and Regression Tree; ROC Curve
0 引 言
在统计方法中,回归方程最常用于分类和预测,而回归方程对变量的要求却都很高,在分类过程中更多关注的则是全局的态势及走向。同时,由于Logistic回归较易受到自变量间多重共线性的影响,将无法估计各个自变量间可能存在的交互效应[1]。
在数据挖掘领域,研发涌现了多种数据分类技术,例如决策树、贝叶斯方法、神经网络等,其中决策树算法是数据挖掘研究中高频活跃的领域之一,也是解决分类问题最有效的方法[2]。与其它算法相比,决策树算法有着更易理解、计算量较小、速度较快、生成规则简易快捷、且可理解性强[3]等优点,适合研究者掌握、进而做出最优决策。但由于决策树方法更多地考虑了细节上的划分,在全局的把握上即呈现了些微欠缺。因此,本研究将利用ROC曲线来检验两种方法的分类效能,辨别两种方法孰优孰劣。具体将展开如下论述。
1 Logistic回归原理
Logistic 回归是一种多变量分析方法,方法中的回归模型为:
ln( )= + (1)
其中,Pi=P ( yi=1 x1i,x2i,…,xki)为在给定系列原因变量x1i,x2i,…,xki的值时的事件发生概率,而K则为原因变量的总个数。
Logistic 回归系数近似服从正态分布,主要采用卡方检验和似然比检验。建模方法主要有向前法、向后法、逐步法等。而且,Logistic 回归作为一个概率型模型,可通过具体计算某事件发生的概率达到预测的目的。
2 决策树分类算法
本文采用分类回归树(CART)算法来进行分类预测。根据给定的样本集L 构建分类决策树,算法核心是首先从众多的输入变量中选择一个最佳的分组变量,再从分组变量的众多取值中寻获一个最佳的分割阈值。在此,采用Gini系数生成原始树,即:
Gini ( Dj ) = 1– pi2
(2)
式中,c 是数据集/子集Dj中决策类的个数,pi是第i个决策类在D 中的比例。Gini系数表示从相同总体中随机抽取两个样本后,而这两个样本来自于不同类别的概率。
其后,再将数据集划分成多个数据子集,这些数据子集划分前的Gini系数与划分后的Gini系数加权和的差为:
G(A) = Gini( D)– Gini ( Dj) (3)
其中,A是候选属性,k是该属性的分支数;D是未使用A进行划分时的数据集,Dj是由A划分而成的子数据集。在所有属性中具有最大G (A)的属性即当选为牧前进行划分的结点。
针对多分支会降低决策树适用性这个问题,CART算法进行了相应的限制,为生成二叉树,使用Gini系数使属性值两两组合,由此而得出最佳的二分方法[4]。CART算法则采用后剪枝法,并遵循代价复杂度最小原则,即:
Ra (T ) = R ( T ) + a|T| (4)
其中,| T |为该树的叶节点的个数;a为复杂度参数,在二分类问题中可选取a = 2。
3 Logistic回归与CART分类效能的ROC曲线比较
对一组来华留学生适应性数据分别建立Logistic回归模型和CART模型,从总适应性、社会文化适应、校园适应和心理适应四个方面,建立四个分类模型。为了准确地评价四个模型在前述分类方法下的分类效果,可通过计算各模型的ROC曲线面积,来说明模型分类的实际效能。
本研究中利用非参数方法计算 ROC 面积大小,假设常规组有nc个观察值,记为X j( j=1,2,…nc),非常规组有na个观察值,再记为Xi( i=1,2,…na)。如果观察值大,则将其归为非常规组,ROC 面积(用Az表示)就是非常规组每个观察值大于常规组每个观察值的概率,具体计算方法如下[5]:
(5)
公式(5)的数学含义是将非常规组na个Xi与常规组的nc个Xj进行比较,如果前者大于后者则比结果为1,相等为0.5,小于则为0;再将na×nc个比较结果相加并取平均即可得Az。Az的标准误差的计算公式可表述为:
(6)
其中,SE (Az )为Az的标准误,Q1是更可能划归为常规组的概率,Q2是更可能划归为非常规组的概率。根据Az±ua SE (Az )可计算Az的100(1-α)%置信区间。
又设两个诊断试验 ROC 面积分别为Az1和Az2,对应的标准误差分别为SE1和SE2,比较 ROC 面积对应的公式则为[6]:
(7)
其中,z是标准正态离差值。Az1和Az2是两诊断试验的曲线下面积,SE1和SE2则是与其对应的标准误差。而r即为两个 ROC 曲线下面积间的相关系数。
ROC曲线一般位于参考线的上方,因此AUC多在0.5到1之间,越接近1就表明模型的判别效果越优秀[7]。对总适应性、社会文化适应、心理适应和校园适应的Logistic回归模型和CART模型分别绘制ROC曲线,由其可得比较模型分类效能曲线,具体可如图1所示。
对四个适应性模型经过两种方法拟合后,再计算ROC模型面积并进行统计性检验,检验结果如表1所示。
由表1的结果来看,所有模型标准误差都小于0.05,说明这些分类具有统计学意义。从AUC数据来看,除了总适应性模型,其余三个适应性模型的曲线下面积相比较,CART分类方法都大于二元Logistic回归分类结果。从95%置信区间来看,都在0.5以上,这即说明模型具有判别意义。心理适应模型可信区间略低,则表明模型分类效果不够理想,但这种拟合不好的情况应该和所使用的分类方法没有关系,而只是受到了变量本身数据模糊性的影响。
从图1中可以看出,所有模型曲线均位于参考线上方,且都较为平滑。总适应性模型和校园适应性模型的逻辑回归曲线稍显不平整,相比较而言,CART分类曲线较平整,且其曲线下面积都稍稍大于Logistic回归模型的面积。为了验证两种分类方法的差异是否具有统计学意义,可通过计算Z值来进一步判断两者的分类效能。经计算得出四个适应性模型两两之间的Z值分别为7.719 7、1.825 7、9.128 7、5.477 2,通过比对U临界值表,将检验水准α定义为0.05,除了社会文化适应模型的两种分类方法差异不显著,其余模型差异都具有统计学意义。总适应性模型的分类中,二元Logistic回归表现分类效能更高;在心理适应和校园适应的模型分类中,CART模型的分类效能较高[8]。因此,本研究验证CART分类方法稍好于二元Logistic分类。但此结论却因情况而定,所以两种分类方法各有利弊,优劣则要根据具体的数据情况来呈现和表现。
4 结束语
本文通过Logistic回归和决策树两种方法对心理学数据进行分类,经数据分析发现,总的说来两种分类方法各有利弊,而经过Z值判断可知CART分类模型要稍好于二元Logistic模型。所以对心理统计这种具有一定模糊性的数据来说,也许用数据挖掘的方法进行分析会更好一些,当然也要考虑具体分析的心理特质的不同。
参考文献
[1] SPRENT P. An introduction to categorical data analysis[J]. Journal of the royal statistical society series a-statistics in society. New York: Wiley-Inter-science Publication,2007.
[2] MAJOR J A, MANGANO J. Selecting among rules induced from a Hurricane database[J]. Proc, AAAI'93 Workshop Knowledge Discovery in Databases, 1993,(15).
[3] BRAMER M. Knowledge discovery and data mining[J]. The Institution of Electrical Engineers London, 2003,(4)
[4] 胡可云,田凤占,黄厚宽. 数据挖掘理论与应用[M].北京:清华大学出版社,2008.
[5] METZ C E, HERMAN B A, SHEN J H. Maximum likelihood estimation of receiver operating characteristic(ROC) curves from continuously-distributed data[J]. Statistics in Medicine, 1998,(9).
[6] DELONG E R, DELONG D M, DANIEL L, et al. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach [J]. Biometrics, 1988,(3).
[7] NAKAS C T, YIANNOUTSOS C T. Ordered multiple-class ROC analysis with continuous measurements[J]. Statistics in medicine,2004,(22).
[8] 王冬燕. 来华留学生跨文化适应性规则提取研究[D]. 南京:南京师范大学,2013.