有监督Group MCP方法的稳健性研究

2014-05-12 10:22李淞淋易丹辉
统计与信息论坛 2014年6期
关键词:错误率稳健性群组

李淞淋,李 扬,c,易丹辉,c

(中国人民大学a.统计学院;b.应用统计科学研究中心;c.统计咨询研究中心,北京 100872)

有监督Group MCP方法的稳健性研究

李淞淋a,b,李 扬a,b,c,易丹辉a,b,c

(中国人民大学a.统计学院;b.应用统计科学研究中心;c.统计咨询研究中心,北京 100872)

采用模拟研究的方法,分别在回归预测和分类判别两种环境中讨论有监督Group MCP方法在不同结构错误率下进行变量选择和结果预测的稳健性,并通过实例分析讨论本研究的实用价值。研究结果显示:忽略解释变量的内部结构进行变量选择会导致很多重要解释变量被疏漏,而有监督Group MCP方法考虑了解释变量的内部结构,在结构错误率低于5%时会以不低于98%的概率选出有效解释变量,并尽量降低冗余变量被选择的可能性。此研究成果为有监督Group MCP方法的合理使用奠定了基础。

有监督Group MCP方法;稳健性;亚健康

一、引 言

有监督 Group MCP (Minmax Concave Penalized method,MCP)是一种成组变量选择的正则化方法(缩减方法或惩罚函数法),可用于经济、生物基因、医学诊 断 等 多 个 领 域[1-2][3]43-638[4]。该 方 法 采用Group MCP从解释变量具有群组结构的训练资料中学习或建立一个模式(函数/模型),以便寻找关键的影响因素或对因变量的未来取值进行预测,有效地解决了训练数据带有多层结构的问题。例如基因工程中,研究基因对疾病的影响时通常对基因序列这一整体的效果进行讨论,而不是对每对碱基对进行单独分析[5];在中医疗效研究中,中医师判断并治疗疾病的基础——证候,是基于多个可测症状群构成的一个整体潜变量,而疾病与症状群的关系则是重点研究问题之一。有监督Group MCP方法在使用时考虑了变量内部结构,有效地控制了计算量和参数估计的偏差,具有良好的 Oracle性质[6-8]。此方法通过向损失函数中加入带群组结构的MCP惩罚函数,使某些回归系数的估计值趋于零,从而完成对成组变量的正则化选择,输出结果是一个连续的值(回归分析),或是预测一个分类标签(分类判别)[9]。

有监督Group MCP方法的研究步骤可综述归纳为:确定解释变量的群组结构→基于群组结构构建Group MCP罚函数和目标似然函数→极大化似然函数求解显著的变量组→确定最终模型的形式→预测和判别”的流程。确定解释变量的群组结构是整个研究的前提,也是构建群组惩罚函数的基础,它可以通过定性研究的方法依据相关知识理论确定,也可以通过聚类分析等定量方法依据训练资料确定,或者由定性与定量相结合的方法确定。在现实研究中真实的群组结构是未知的,能获得的群组结构都是对真实结构的一种逼近,这就对有监督Group MCP能否在实践应用中准确选择有显著解释效果的变量组并得到精确的模型预测结果提出了考验,即有监督Group MCP方法的稳健性已成为实践应用中所面临的一个重要问题。

二、有监督Group MCP方法及其稳健性

(一)有监督Group MCP方法

有监督Group MCP方法在使用时需要解释变量的群组结构被预先确定,并要求用于构建模型的训练资料充分包含自变量和因变量的信息,且因变量没有缺失值。有监督Group MCP方法获得的学习模式可以被外推确定新样本的因变量取值。

于是,基于有监督Group MCP的一般回归模型需要最小化目标函数式(4)来求解参数估计值并选择解释变量。

基于有监督Group MCP的Logistic回归模型则需要最小化目标函数式(5):

2.参数估计的算法实现。极小化损失函数式(4)与式(5)在求解待估参数时需要充分考虑解释变量之间的关系结构,于是传统的统计计算算法将不再适用,建议使用局部群组梯度下降算法。

3.冗余参数的确定。有监督Group MCP方法的讨厌参数有正则参数λ和调整参数α,这两个参数共同确定了Group MCP惩罚函数的大小和范围。讨厌参数的不同取值将造成参数的不同估计结果,于是为了准确地选择解释变量,要先确定冗余参数的合理取值。笔者建议可以使用基于Grid估计的迭代计算方法,具体计算步骤为:首先给出λ和α在其支撑集上的一系列取值;然后计算给定λ和α取值下模型参数的估计值,从而得到AIC、BIC或GCV评价指标的得分;最后根据AIC、BIC或GCV最小值来确定讨厌参数的合理取值。

4.模型估计结果的分析。MCP惩罚函数的引入会使较小的参数估计值收缩为0,也就是说对因变量解释效果越小的群组变量的回归系数越容易收缩为0,于是回归系数不为0的群组变量即为选出的变量。基于选出的变量组可以构建最终模型,根据此模型的预测效果即可以评价变量选择及所建模型的准确度。

(二)有监督Group MCP方法稳健性研究的本质

成组变量选择方法的稳健性研究与单个变量选择不同。单变量选择方法的稳健性研究通常考虑当数据包含异常值时,该方法是否仍可以准确地选出显著的解释变量;成组变量选择方法的稳健性则多讨论因理论知识不完备、或数据包含测量误差造成解释变量的群组结构与真实结构不同时,亦即当群组结构不可避免地存在一定错误率的情况下,该方法仍然能够准确地选择有显著解释作用的变量,而且还能够得到良好预测效果的性质。

有监督Group MCP方法的稳健性研究的本质,在于讨论此方法对解释变量的群组结构错误率的容忍程度。所谓结构错误率或变量错分率,是指实际分析中被错误分组的变量个数占变量总个数的比例,即“结构错误率=被错误分组的变量个数/变量总个数”。有监督Group MCP方法对结构错误率的容忍度越大则稳健性越强。值得注意的是,对有监督Group MCP方法的稳健性进行研究时需要充分考虑现实环境的复杂多变,具体体现在解释变量类型的多样性、结构错误率的非确定性以及被错分变量的随机性等。变量类型的多样性是指解释变量可以是连续的、离散的、名义的或多种类型的混合;结构错误率的非确定性是指实际研究中解释变量群组结构的错误率是预先未知的,且在不同研究中结构错误率也不同;被错分变量的随机性是指各种类型的变量都可能被错误分类。

为了尽可能地贴近现实情况来研究有监督Group MCP的稳健性,本文参考国外学者的研究和模拟方法,模拟生成多套具有不同结构错误率且被随机错分的解释变量,这些解释变量可以是连续的、离散的或名义的[11-12]。对模拟数据进行分析的重点是,讨论有监督Group MCP方法在不同结构错误率下的变量选择和模拟预测效果。

三、模拟研究

(一)研究内容和步骤

模拟研究包括模拟生成数据、分析数据和结果讨论三个主要环节:模拟生成数据环节将模拟产生具有不同结构错误率的、包含离散变量和连续变量等不同类型的随机数据作为解释变量,基于真实模型对模拟生成的解释变量进行计算得到每个样本的因变量取值;分析数据环节将使用有监督Group MCP方法对模拟数据进行分析;结果讨论环节则分析讨论解释变量被选出的频率、模型的预测效果,即回归分析中以“预测偏倚=abs(预测值的期望-观测值的均值)”、“预测残差的方差=Var(预测值-真实值)”、“预测均方误差MSE=预测偏倚的平方+预测残差的方差”作为评价准则,分类判别中以灵敏度、特异度和AUC均值作为评价准则。在某一结构错误率下,有监督Group MCP方法若能高概率地选出对因变量有显著解释效果的变量,低概率地选出没有显著解释效果的变量,且所得模型预测效果较好,即可说明有监督Group MCP方法对此结构错误率有很强的容忍性。

(二)回归预测中有监督Group MCP方法的稳健性

表1 基于Group MCP回归模型预测效果汇总表

(三)分类判别中有监督Group MCP方法的稳健性

图1 基于Group MCP线性回归模型的变量选择频数图

图2 基于Group MCP的Logistic模型的变量选择频数图

表2 基于Group MCP的Logistic模型分类效果汇总表

表2中AUC是指ROC曲线下面积,AUC取值越高说明分类效果的准确度越高;灵敏度是指真实值为1且预测结果为1的概率;特异度是指真实值为0且预测结果为0的概率。

(四)小结

1.解释变量之间的关系结构准确可知时,Group MCP方法能够正确地选择变量组。从图1(a)与图2(a)可知,当解释变量之间的关系结构准确可知时,Group MCP方法在回归预测或分类判别中都能够以近100%的概率精准地选出对因变量有显著解释效果的变量组。

2.结构错误率在5%以下时,Group MCP方法具有较好的稳健性。分析图1(b)与图2(b)可知,当结构错误率在5%时,对因变量有显著影响的解释变量可以被以高于98/100=98%的概率被选出,其他非显著解释变量会被以不高于60/100=60%的概率选出。比较分析图1和图2以及表1和表2发现,结构错误率越高选出无解释效果变量的可能性就越大,而选择具有显著解释效果变量的准确度就越低。由于选出的解释变量较多,模型预测效果没有受到明显的影响,于是可知当结构错误率在5%以下时,有监督Group MCP方法具有良好的稳健性。

3.忽略解释变量内部结构将不利于准确选择变量及变量组。比较分析图1(d)与图2(d)可知,忽略解释变量的群组结构会遗漏许多重要的解释变量,同时也会选出一些不重要的解释变量,不利于找出对因变量有显著解释效果的变量及变量组。

四、实例分析

(一)研究背景和目的

证候是中医领域的一个重要概念,是指疾病过程中一定阶段的病位、病因、病性、病势及肌体抗病能力的强弱等与本质有机联系的反应状态,由多个证素单元组成,而每个证素具体表现为临床可被观察到的一系列症状。亚健康状态是介于健康与疾病之间的一个物理状态,主要表现有身体不太舒服、虚弱、无精力,具体表现为精力衰退、肢体功能和能动性衰弱,但是还达不到疾病诊断的严重程度。中医善于“治未病”,认为亚健康是阴、气、血、脏、腑出现不均衡所致,并认为与虚、火、瘀阻、湿四个证素有关[13](见表3)。由于患者的体质不同,即使都是亚健康人群,不同患者的主证不同,起关键作用的证素也不同。准确判断患者的证素有助于深度了解患者的体质和疾病状态,是后续治疗的基础。本研究将对影响肝郁脾虚证的亚健康人群的关键证素及相应症状进行探索分析。

(二)数据说明

此研究采用分层抽样的方法,从6家临床中心随机选取了307个亚健康受试者,剔除缺失诊断结果的4人,共有303个受试者进入研究,其中57人为肝郁脾虚证的亚健康患者,占18.81% 。纳入模型的解释变量及其结构见表3。

从表3的描述统计结果可知,这些症状在肝郁脾虚证的亚健康人群中的分布概率大于非肝郁脾虚人群中的分布概率;瘀阻所包含的症状在两类分群中的分布差异更为明显;每个症状的发生频率都较低,因某个单一症状无法区分肝郁脾虚人群,故本文采用成组变量选择法进行分析。

表3 亚健康诊断研究关注的症状及证候结构表

(三)模型构建和参数估计

基于表3所列解释变量的群组结构建立Group MCP Logistic模型,分析得知对肝郁脾虚证的亚健康患者起重要影响的证素为瘀阻和湿证,这两个证素包含的症状及相应参数估计结果见表4。根据五折交叉验证方法,计算得AUC均值为0.737 7,标准差为0.085 7,平均灵敏度为0.857 1,平均特异度为0.760 4。

表4 基于解释变量群组结构的肝郁脾虚证诊断模型参数估计结果表

如果不考虑症状之间的群组结构而构建一般的Logistic模型,选出的症状指标及其相应参数估计结果见表5。使用五折交叉验证方法计算得AUC均值为0.753 1,标准差为0.082 9,平均灵敏度为0.824 7,平均特异度为0.717 1。

表5 不考虑解释变量群组结构时肝郁脾虚证诊断模型参数估计结果表

(四)结果分析

比较分析表4和表5的变量选择和参数估计结果可知:

第一,两类模型研究目的不同,导致了变量选择结果的不同。基于有监督Group MCP的Logistic模型的研究目的,在于合理处理变量之间的相关关系,选择有显著解释意义的变量组,此方法有效地指出了在本研究所调查的亚健康人群中,瘀阻和虚证(主要是肾阳虚)是影响肝郁脾虚证诊断的两大重要证素;传统Logistic模型在选择有显著解释意义单个变量时并不考虑变量之间的关系,于是在本实例分析中此方法可用于疾病预测,但不利于研究亚健康人群中对肝郁脾虚证影响显著的证素。

第二,基于有监督Group MCP的Logistic模型具有较好的解释性。比较表4和表5可知,基于Group MCP的Logistic模型选出对亚健康人群中肝郁脾虚证的诊断起显著作用的是瘀阻和虚证,且瘀阻类症状的系数符号都为正,虚证所包含症状的系数有正有负,说明本研究调查的亚健康人群中肝郁脾虚证的症状以肝郁为主,气虚的症状越重表明更偏向于单证的虚证,而非兼证肝郁脾虚证与中医理论相符。基于MCP的Logistic模型同时选出便秘和大便稀溏,且系数都为正值,不易于解释。

第三,解释变量具有内部结构时,基于Group MCP的Logistic模型对数据有更好的拟合及预测效果。从AUC、特异度、灵敏度等评价指标上看,基于Group MCP的Logistic模型的AUC均值为0.767 1,平均灵敏度为 0.851 4,平均特异度为0.74,高于基于Group MCP的Logistic模型,这是因为基于Group MCP的Logistic模型考虑了解释变量内部结构,充分使用数据信息,对数据有更好的解释和预测效果。同时,前者AUC的标准差为0.068 9,低于后者,说明Group MCP方法有更好的稳健性。

五、讨论与展望

成组变量的选择问题在经济、生物基因、医学诊断等实际问题研究中极为常见。有监督Group MCP是在给定解释变量的群组结构的基础上进行Group MCP分析的一种数据挖掘方法。此方法考虑变量的内部结构,提高了变量选择结果的准确性,有效降低计算量和计算偏差,具有良好的Oracle性质。但此方法的稳健性问题尚未得到充分研究,而一个方法的稳健性即对异常情况的容忍程度,是决定此方法能否被广泛使用的关键因素。为此,本文重点研究和讨论有监督的Group MCP方法的稳健性问题。

本文根据有监督Group MCP方法的相关理论,确定本次稳健性研究的目的、研究方法和评价标准,采用模拟研究讨论有监督Group MCP方法在不同结构错误率下进行变量选择和模型预测的稳健性,通过实例分析说明本研究的应用价值。

第一,基于Group MCP的Logistic模型合理地处理了变量之间的相关关系,能够准确地选择对因变量有显著解释意义的变量组或潜变量。例如本文的实例分析部分,选出了对亚健康人群中肝郁脾虚证的辨证起关键作用的证素有瘀阻和虚,这也是此方法与单变量选择方法在研究目的上的本质区别。

第二,解释变量存在群组结构时,有监督Group MCP方法在分类判别和回归预测中都可以准确地选择有显著解释变量的变量组,所得模型具有良好的解释和预测效果。

第三,解释变量结构的准确度越高,变量选择和模拟预测效果越精准。当解释变量的关系结构的先验信息出现略微错误时,若结构错误率不超过5%,有监督Group MCP方法仍然可以准确选出显著的变量组,模型预测效果也有很好的稳健性。

但是,有监督Group MCP方法仍存在局限性。例如有监督Group MCP方法会将显著的群组内的所有变量都选出,增加冗余变量个数,提高模型复杂度;此方法假定解释变量存在群组结构,但在实际问题中解释变量的内部结构可能是更加复杂的网络结构,此时Group MCP方法的群组结构假设将不再适用,需要引入Liu等人提出的基于网络结构的协变量研究方法进行分析[14];Group MCP方法的研究重点是显著变量的群组选择,而不是单个解释变量,当研究既关注解释变量的内部结构又关注单个变量时,此方法的使用效果不再完美,还有待于在未来的研究中进一步改进和完善。

[1] 薛薇,陈欢歌.文本聚类中罚多项混合模型的特征选择及其在互联网舆情分析中的应用.[J]统计与信息论坛,2012(1).

[2] Tibshirani R.Regression Shrinkage and Selection Via the Lasso [J].Journal of the Royal Statistical Society:Series B-Methodological,1996(1).

[3] Hastie T,Tibshirani R,Friedman J H.The Elements of Statistical Learning:Data Mining,Inference,and Prediction[M].New York:Springer Verlag,2001.

[4] 李扬,朱建锋,谢邦昌.变量选择方法及其在健康食品市场研究中的应用探究[J].统计与信息论坛,2013(10).

[5] Frank I E,Friedman J H.A Statistical View of Some Chemometrics Regression Tools[J],Technometrics,1993(2).

[6] Yuan M,Lin Y.Model Selection and Estimation in Regression With Grouped Variables [J].Journal of the Royal Statistical Society:Series B(Statistical Methodology),2006(1).

[7] Huang J,Ma S,Xie H,et al.A Group Bridge Approach for Variable Selection[J].Biometrika,2009(2).

[8] Zhang C.Nearly Unbiased Variable Selection Under Minimax Concave Penalty[J].Annals of Statistics,2010(2).

[9] Ma S,Sang X,Huang J.Supervised Group Lasso With Applications to Microarray Data Analysis[J].BMC Bioinformatics,2007(8).

[10]Breheny P,Huang J.Penalized Methods for bi-level Variable Selection[J].Statistics and Its Interface.2009(3).

[11]Koppula S H.Study and Improvement of Robustness of Overlay Networks[D].Department of Computer Science &Engineering.Indian Institute of Technology- Kharagpur,2008.

[12]John M M J,Lishout V F,Gusareva S E,et al.A Robustness Study of Parametric and Non-Parametric Tests in Model-Based Multifactor Dimensionality Reduction for Epistasis Detection[J].BioData Mining.2013(6).Published online.

[13]Wang L,Zhao X,Wu X,et al.Diagnosis Analysis of 4TCM Patterns in Suboptimal Health Status:A Structural Equation Modelling Approach[J].Evidence-Based Complementary and Alternative Medicine,2012.published online.

[14]Liu J,Huang J,Ma S.Incorporating Network Structure in Integrative Analysis of Cancer Prognosis Data[J].Genetic Epidemiology,2013(2).

Robustness of the Supervised Group MCP in Variable Selection

LI Song-lina,b,LI Yanga,b,c,YI Dan-huia,b,c
(a.School of Statistics;b.Center for Applied Statistics;c.Statistical Consulting Center,Renmin University of China,Beijing 100872,China)

The structure got from either the qualitative or the quantitative method is an approximation of the real one,and has a structural error rate.So whether or not the supervised Group MCP having robustness property is an urgent problem.In this paper,we simulate sets of data with different structure error rates in both regressions and classifications and analyze them by supervised Group MCP to discuss Group MCP method's robustness in selecting variables and model's predictions.And then a practical application is used to test this study's pragmatic value.These results show that selecting variables without considering the latent structure of the explaining variables will result in the omission of significant features,and that Supervised Group MCP takes the explaining variables'structures into consideration and evidently selects the important variables and reduce the probability of selecting redundant variables when the structural error rate is lower than 5%,which lay foundations for supervised Group MCP method's appropriate use.

supervised Group MCP;robustness;sub-health

O212.1∶F224.0

A

1007-3116(2014)05-0011-07

2013-11-23;修复日期:2014-04-14

国家自然科学基金青年项目《预测模型的结构化变量选择方法研究》(71301162);中国人民大学应用统计科学研究中心自主项目《高维异质性数据的特征选择方法研究》(26213800)

李淞淋,女,河南濮阳人,博士生,研究方向:预测与决策,数据挖掘;

李 扬,男,北京人,经济学博士,副教授,研究方向:相关型数据分析,潜变量建模;

易丹辉,女,湖南汩罗人,教授,研究方向:风险管理与保险,预测与决策。

book=17,ebook=200

(责任编辑:郭诗梦)

猜你喜欢
错误率稳健性群组
Boids算法在Unity3D开发平台中模拟生物群组行为中的应用研究
会计稳健性的定义和计量
小学生分数计算高错误率成因及对策
会计稳健性的文献综述
正视错误,寻求策略
解析小学高段学生英语单词抄写作业错误原因
货币政策、会计稳健性与银行信贷关系探析
Effect of Ammonia on the Performance of Catalysts for Selective Hydrogenation of 1-Methylnaphthalene
降低学生计算错误率的有效策略