方匡南,王秉权
(厦门大学 a.经济学院;b.数据挖掘研究中心,福建 厦门 361005)
正则化Beta回归及其应用
方匡南a,b,王秉权a,b
(厦门大学a.经济学院;b.数据挖掘研究中心,福建 厦门 361005)
随着计算机的飞速发展,极大地便利了数据的获取和存储,很多企业积累了大量的数据,同时数据的维度也越来越高,噪声变量越来越多,因此在建模分析时面临的重要问题之一就是从高维的变量中筛选出少数的重要变量。针对因变量取值为(0,1)区间的比例数据提出了正则化Beta回归,研究了在LASSO、SCAD和MCP三种惩罚方法下的极大似然估计及其渐进性质。统计模拟表明MCP的方法会优于SCAD和LASSO,并且随着样本量的增大,SCAD的方法也将优于LASSO。最后,将该方法应用到中国上市公司股息率的影响因素研究中。
Beta回归;变量选择;正则化;股息率
线性回归模型是最常用的回归模型,其假设因变量的取值区间为(-,+),但对因变量取值在(0,1)区间的比例数据时,直接线性回归建模就不合适了,因为其拟合值很可能会落在(0,1)区间外。而取值在(0,1)区间的比例数据在实际中是很常见的,比如股息率、升学率、电视收视率、环境效率等。对于这种比例数据的因变量,传统的方法是将因变量转换到实数区间上,用自变量与转换后的因变量的均值建模。然而,这种方法的回归系数难以解释,而且比例数据通常具有非对称性和异方差性,基于正态分布假设下做出的推断可能会导致预测失误。为解决传统回归所存在的问题,Ferrari和Cribari-Neto提出了Beta回归[1]。由于Beta分布的密度函数形状变化十分灵活,能够描述各种各样的分布,且回归系数具有较好的解释意义,因此广受欢迎。
高维模型中噪声变量多,一个最重要的问题之一就是模型选择。在回归分析中,往往先引入大量的自变量,然后筛选对因变量影响显著的自变量,这样可以减少模型的设定误差。关于变量的选择,计量经济学中常用的方法有最优子集法、逐步(向前、向后)回归法、逐段法等[2]。但是这些方法存在许多缺点,Fan和Li指出最优子集法遍历所有子集搜索最优解,因此计算成本高,特别是p很大时,基本不可能实现求解[3];Breiman指出逐步回归法缺乏稳定性,对数据的微小变动非常敏感[4]。惩罚函数法是目前高维数据研究领域广受欢迎的一类方法,它通过对模型的回归系数进行约束,使部分系数压缩为零,实现变量选择,克服了传统方法计算量大和稳定性差等缺点。常用的基于最小二乘方法的惩罚回归有LASSO、SCAD和MCP等[5-7]。这种方法随后也被推广到极大似然估计中。与传统的变量选择方法不同,基于惩罚函数的极大似然估计具有很好的理论性质,当调和参数选择适当时,基于非凹惩罚函数的极大似然估计在变量选择方面具有oracle性质,即当真实的回归系数为0时,参数估计值依概率收敛到0,而非0系数的估计值与只用非0系数的变量进行回归时具有相同的表现。简而言之,基于非凹惩罚函数的极大似然估计好像提前知道了哪些系数为0,哪些系数不为0,该种性质被称为Oracle性质。
本文的研究主要是提出了针对因变量为(0,1)比例数据的正则化Beta回归,并探讨其在股息率影响因素分析中的应用。
Beta回归假设因变量服从Beta分布,其概率密度函数为:
其中,0
其中,0
设y1,y2,…,yn相互独立,其中yt(t=1,2,…,n)服从均值为μt,方差为φ的Beta分布。模型假设yt的均值满足:
其中,β=(β1,β2,…,βk)T是未知的回归系数向量,xt1,xt2,…,xtk为k个自变量的观测值,在模型中被假设为固定且已知。g(·)为严格单调且二阶可导的连接函数,可以将(0,1)区间映射到实数域上。注意到yt的方差是ut和φ的函数,因变量的方差变换也被考虑到了模型中。
var(g(yt))≈var{g(μt)-(yt-μt)g′(μt)}
=var(yt){g′(μt)}2
基于惩罚函数的极大似然估计需在似然函数后添加惩罚项,即为:
其中Pλ(·)为惩罚函数,LASSO的惩罚函数为Pλ(θ)=λθ,SCAD的惩罚函数为:
其中λ≥0且γ>2,MCP的惩罚函数为:
接下来,我们可以证明上述结论(由于篇幅限制,本文只列出主要结论,具体的证明过程在此不再赘述)。为了证明上述结论,先假设概率密度函数满足三个正则条件。
表1左侧给出了当精度φ=120,样本量n=50,100,200时100次模拟中系数被正确估计为0的平均个数。可以看出随着样本量的增大,三种惩罚方法变量选择的精度都在提高。当样本量为50时,三种方法的变量选择效果差不多,被正确估计为0的变量平均有3.3个,比真实的0系数变量数少;当样本量为100时,LASSO和SCAD方法被正确估计为0的变量平均有3.54个,而MCP比前两者都要好,平均个数为3.92;在样本量为200时,SCAD的效果比LASSO好,而MCP的效果又比SCAD的效果好。说明MCP的方法会优于SCAD和LASSO,随着样本量的增大,SCAD的方法也将优于LASSO。
表1 模拟结果表
表1~2右边给出了样本量n=100,精度φ=60,120,240时100次模拟中被正确估计为0的平均个数。可以看出当精度φ=240时,三种方法的效果差不多;在φ=120时,LASSO和SCAD的效果差不多,而MCP比前两者的效果要好;在精度φ=60时,SCAD的效果比LASSO好,而MCP的效果又比SCAD的效果好。由此可以说明,在精度较大时,三种方法的选择效果差不多;随着精度的降低,MCP的方法会率先优于前两者。
例2.在该例中,假设除了截距项外,所有变量的系数均为0的特殊情形,即β=(0.2,0,0,0)T。设样本量n=100,精度φ=120,重复模拟100次。表2给出了100次模拟中系数被正确估计为0的平均个数。从表2可以看出,MLE的变量选择效果很差,三种惩罚方法的变量选择效果都很好,系数被正确估计为0的平均个数都很接近真实模型中0系数个数。说明这三种惩罚方法都可以很好地识别出不显著的变量。
表2 模拟2的结果表
例3.在该例中,模拟了模型中仅截距项为0,其他回归系数均不为0的特殊情形,即β=(0,0.2,0.3,0.2)T。设样本量n=100,精度φ=120,重复模拟100次。表3给出了100次模拟中系数被正确估计为0的平均个数。从表3可以看出,三种惩罚方法的变量选择效果都很好,系数被正确估计为0的平均个数都很接近真实模型中0系数个数,相对来讲,MCP的方法略好于LASSO和SCAD方法。说明这三种惩罚方法都可以很好地识别出不显著的变量。
表3 模拟3的结果表
影响上市公司股息率的因素很多,根据财务金融相关文献,选取了19个变量(详见表4),这些变量从上市公司的基本信息、市场表现、成长能力、营运能力、风险系数、偿债能力等角度反映公司的情况[12-13]。由于变量众多,包含过多变量的beta模型往往会因为多重共线性导致部分变量的检验统计量不显著,这往往会降低模型的解释性并且影响模型的预测准确性。此外,模型一旦确定并选入一些无关的自变量,不仅干扰了对变量间关系的理解,而且浪费人力物力搜集这些变量信息,因此有必要进行变量筛选。利用本文提出的基于三种惩罚方法下的Beta回归变量选择方法筛选对股息率有影响的变量。
表4 变量解释及说明
表5给出了三种方法的变量选择和参数估计结果。从表5中可以看出,三种方法的选择结果比较一致,Lasso选择的变量比SCAD和MCP的多,这与很多研究结论一致,即认为Lasso往往过于保守,选择的变量会偏多[5]。市净率、风险系数、综合评级、每股收益、税后每股股利、年度分红总额等变量对股息率的影响较大;而年成交量、年成交额、每股营业收入、每股收益同比增长率、净资产同比增长率、三年累计分红占比、每股现金流量净额、总股本等变量对股息率的影响不显著。另外,把数据按照3∶2分为训练集和测试集,根据训练集建模,用测试集计算预测均方误(PMSE),重复100次计算得到平均PMSE和对应的标准误。从表5可以看出,MCP的平均PMSE最小,Lasso的最大。
表5 回归结果表
本文基于大数据背景下,提出了对因变量为(0,1)区间的比例数据的正则化Beta回归及其在我国上市公司股息率影响因素分析中的应用。在极大似然函数基础上分别添加LASSO、SCAD和MCP三种惩罚项,同时实现变量选择和参数估计。用五折交叉验证(CV)方法选择调整参数,并从理论上证明了基于LASSO方法的极大似然估计不具有Oracle性质,而基于SCAD和MCP方法的极大似然估计具有Oracle性质。统计模拟表明,随着样本量的增大,三种惩罚方法变量选择的准确率都在提高,MCP的方法会优于SCAD和LASSO,并且随着样本量的增大,SCAD的方法也将优于LASSO;在精度参数较大时,三种方法的选择效果差不多,随着精度的降低,MCP的方法会率先优于前两者。对于仅截距项为0和仅截距项非0的特殊情形,三种方法的变量选择效果都很好。最后,将本文提出的方法应用到中国上市公司的股息率影响因素分析中,研究发现,市净率、风险系数、综合评级、每股收益、税后每股股利、年度分红总额等是影响股息率的主要因素。
[1]FerrariS,Cribari-NetoF.BetaRegressionforModelingRatesandProportions[J].JournalofAppliedStatistics,2004(31).
[2]方匡南,章贵军,张慧颖.基于lasso-logistic的个人信用风险预警方法[J].数量经济技术经济研究,2014(2).
[3]FanJ,LiR.VariableSelectionViaNonconcavePenalizedLikelihoodanditsOracleProperties[J].JournalofAmericanStatisticalAssociation,2001,456(96).
[4]BreimanL.HeuristicsofInstabilityandStabilizationinModelSelection[J].TheAnnalsofStatistics,1996,6(24).
[5]TibshiraniR.RegressionShrinkageandSelectionViatheLASSO[J].JournalRoyalStatisticalSociety,SeriesB,1996(58).
[6]ZhangC.NearlyUnbiasedVariableSelectionUnderMinimaxConcavePenalty[J].AnnalsofStatistics,2010,2(38).
[7]赵明涛,许晓丽.半参数纵向模型的惩罚二次推断函数估计[J].统计与信息论坛,2014(8).
[8]AtkinsonAC.Plots,TransformationsandRegression:AnIntroductiontoGraphicalMethodsofDiagnosticRegressionAnalysis[M].NewYork:OxfordUniversityPress,1985.
[9]McCullaghP,NelderJA.GeneralizedLinearModels[M].London:ChapmanandHall,1989.
[10]BreimanL.BetterSubsetRegressionUsingtheNonnegativeGarrote[J].Technometrics,1995,4(37).
[11]FuWJ.PenalizedRegression:TheBridgeVersustheLASSO[J].JournalofComputationalandGraphicalStatistics,1998,3(7).
[12]阎大颖.中国上市公司控股股东价值取向对股利政策影响的证研究[J].南开经济研究,2004(6).
[13]王化成,李春玲,卢闯.控股股东对上市公司现金股利政策影响的实证研究[J].管理世界,2007(1).
RegularizationBetaRegressionandItsApplicationforBigData
FANGKuang-nana,b,WANGBing-quana,b
(a.SchoolofEconomics;b.DataMiningResearchCenter,XiamenUniversity,Xiamen361005,China)
Withtherapiddevelopmentofcomputer,greatlyfacilitatethedataacquisitionandstorage,especiallyintheeraofbigdata,manyenterpriseshaveaccumulatedalargeamountofdata.Atthesametime,thedimensionofdataishigherandhigherwithmoreandmorenoisevariables,thereforeoneofimportantproblemwhenmodelinganalysisistoselectsignificantvariables.ThisarticleproposearegularizedBetaregressionforproportionalresponsewithvaluein(0,1),givingmaximumlikelihoodestimationwithLASSO,SCADandMCPpenaltymethods,thevariableselectionandestimationofcoefficientscanbeconductedsimultaneously.Wealsogivetheproofofitsasymptoticalandoracleproperties.SimulationresultsshowthatMCPpenaltyisthebestmethod,andSCADperformbetterthanLASSOasthesamplesizeincrease.Finally,weapplythismethodtoselectsignificantfactorsfordividendrate.
Betaregression;variableselection;regularization;dividendrate
2015-12-11;修复日期:2016-03-20
国家自然科学基金项目《广义线性模型的组变量选择及其在信用评分中的应用》(71471152);国家社会科学基金重大项目《大数据与统计学理论的发展研究》(13&ZD148);国家社会科学基金项目《大数据的高维变量选择方法及其应用研究》(13CTJ001);全国统计科学研究重点项目《大数据下的信用评分研究》(2015629)
方匡南,男,浙江台州人,教授,博士生导师,研究方向:数据挖掘,计量经济;
O212∶F224.0
A
1007-3116(2016)08-0014-07
(责任编辑:张爱婷)
王秉权,男,福建漳州人,硕士生,研究方向:数据挖掘。
【统计理论与方法】