杨茜麟
摘 要:在本文选取2014.8.25—2014.11.18的60分钟线ESG40的指数走势与其40支成分股的数据并以“收盘价”作为主要关系指标。本文主要考虑两部分内容:第一,使用不同的估计方法来获得ESG40股指与其成份股之间的模型关系。主要考虑了两类有偏估计。同时,对所建立的模型进行了显著性检验,误差分析及其预测能力的考察。第二,考虑到各成分股之间可能存在较强的相关性,我们首先对数据做了聚类分析,又因为不同变量之间可能存在有依赖关系,所以利用LASSO估计和弹性网估计做了变量选择,以期望能利用较少的变量,进行低复杂度的运算,获得一个具有良好预测能力的模型。
关键词:主成分估计 岭估计 变量选择
本文以ESG40股指以及其成分股作為为研究对象,一方面研究该股指与其成分股之间的关系,另一方面以较少的成分股的组合,来跟踪指数,为基金管理者这类投资者提供以风险对冲为目的的投资选择。选取2014.8.25—2014.11.18的60分钟线ESG40的指数走势与其40支成分股的数据,并以“收盘价”作为主要关系指标。从成份股的变更时间来看,在我们选取的时间段内并没有成份股的变更。因此不需要对选取的数据进行处理。
一、模型估计
笔者首先利用正回归模型来估计参数,但相关系数矩阵的条件数为16506.84,即存在严重的共线性,且最大以及最小的特征值间差异巨大,这会使得正回归得到的模型具有很大的均方误差,因此考虑有偏估计进行统计分析。
1.主成分估计。由于变量间的相关性较高,主成分法就是通过降为将变量转化为能解释大多数变量的不相关的新变量,该方法由Pearson,K. 以及Hotelling, H. 分别在非随机变量以及随机向量情况下进行的讨论。在实际使用中,注意首先要利用scale函数对数据进行标准化处理,然后利用R软件中的pr=princomp()命令即可得到主成分分析结果。首先选取四个主成分做最小二乘估计,发现:模型与每一个主成分的系数都是显著的。于是,我们利用坐标变换之后,我们得到每个成分股所对应的参数。此时我们得到主成分估计的残差为2603.218,在我们选取的4个主成分时,虽然在指数的走势上主成分估计和真实值是一样的,但是预测值在估计的精度上还是比较差的。为了减小估计的残差,我们采取增加主成分的方法,通过对协方差矩阵特征值的计算,我们设定阀值为0.1,发现前14个主成分满足要求。重复上面的步骤,可以得到得到估计残差平方和为360.7032,出现了不显著的主成份的系数,但是模型依旧通过了显著性检验。同时我们还利用R软件画出了残差图及预测图是的我们的结果更为直观的展示出来。 下图为4个主成分与14个主成分拟合的对比图。
2.岭估计。另一种有偏估计就是岭估计。因为这里我们要使用岭估计(使用MASS程序包)。通过lm.ridge建立岭估计,涉及到岭参数lambda的选择,首先我们利用R软件画出数据的岭迹图。
岭迹图中我们可以发现虽然调节参数lambda的值在5之后有了趋于稳定的趋势,但是我们看到在10的时候还是出现了交叉的现象。因此,我们使用R软件中的select()函数选取岭参数而不是从岭迹图中选取,利用select函数选取岭参数,选取在命令中自带的几个统计量(modified HKB estimator, Lawless-Wang, Generalized Cross Validation)中较小的modified HKB estimator 结果,为:0.1698289,选取该参数,得到的岭估计的残差平方和为88.42984,而对应的拟合图(图2)如上。从该拟合图看来预测值与实际值之间差异已经很小了。
二、变量选择
在利用最小二乘估计对模型的参数进行估计时我们发现,虽然拟合效果很好,模型也通过了显著性检验,但是,较多的系数是没有通过显著性检验的。而且,利用主成分估计来计算模型参数的时候,我们可以发现当我们选取四个主成分的时候得到每个主成分的参数是显著的,随着主成分的增加模型的预测值与真是值之间的差距越来越小,但是主成分的系数也就变得不再都是显著的。另外,从相关系数矩阵我们也可以发现数据是存在严重的共线性的,这说明变量之间存在这较为严重的相互性、关联性。因此,这里我们考虑变量选择问题,利用较少的变量来来做预测。这样就在保证模型较好的预测能力的前提下,大大的降低计算量。由于变量选择是为了选取几个相关性较强的变量中的具有代表性的变量,而相关性强的变量是可以被看作是属于一类的。于是,在做变量选择之前,我们先对数据做一个简单的聚类分析。通过聚类来观察各个变量之间在某个准则下的相关性关系。我们按照离差平方和的标准,分成两类,这里为了分析表述的方便,我们称最底层的括号为一级分类,第二次的括号为二级分类,依次我们可以得到七级分类。事实上我们在进行变量选择时主要观察哪一些变量被分离出来,而这些变量又是分属于不同的级类的。一级分类如下:
1:广汇能源。2:北京银行,长江电力,大庆铁路。3:招商银行,兴业银行。4:驰宏锌锗。5:浦发银行,特变电工。6:华能国际,民生银行。7:保利地产,中国重工。8:中国交建。9:中国铁建。10中国北车,中国南车。11:宝钢股份,交通银行。12:上港集团,中信银行。13:光大银行,中国银行。14:中国中铁。15:中国铝业。16:中国建筑,中国联通,工商银行。17:天士力,青岛啤酒。18:中国神华。19:青岛海尔。20:海正药业,国电南瑞。21:包钢稀土。22:上汽集团,万花药业。23:中国太保。24:宇通客车,复星医药。
但是按照不同的准则是有很多的变量选择标准的,我们这里主要考虑以下两类基于最小二乘估计带有不同惩罚项的变量选择方法:1. 绝对约束估计(LASSO); 2. 弹性网约束估计。
1.绝对约束估计(LASSO)。LASSO(the least absolute shrinkage and selection operator)方法是由Tibshirani在1996年提出来的,近几年在大批优秀统计学家的努力下有了长足的发展。这也使得LASSO方法日益成熟,在R软件中也逐渐形成了专门的软件包来做实现变量选择,其中比较优秀的算法应该是有Efron等人提出的最小角回归方法(LARS), 我们这里也直接采用LARS算法来求解LASSO估计。在LARS软件包中可以通过Cp准则和BIC准则等来实现变量选择,在我们的实际数值实验中,我们发现如果采用Cp准侧,我们只是从40个变量中选取39个变量,并没有很好的实现变量选择。因此,我们这里只列出采用BIC准则做变量选择的结果,并对结果进行分析。首先,我们使用LARS中的predict函数给出参数s与BIC值之间的关系,并给出合适的s使得BIC达到最小。直接利用程序我们可以得到s=1.73时,我们得到最小的BIC值为7.518394。当BIC的值为7.518394是我们利用LASSO估计选取了26个变量,且得到线性模型结果如下:
Y=6.888*浦发银行+7.093*华能国际+0.7099*上港集团+7.128*中国联通+2.308*宇通客车+5.146*特变电工+1.483*上汽集团+2.418*复新医药+2.252*万华化学+0.858*国电南端+0.726*驰宏锌锗+0.205*青岛海尔+2.192*长江电力+2.714*大秦铁路+5.384*北京银行+1.783*中国铁建+0.559*中国北车+11.787*中国中铁+12.538*工商银行+5.78*中国铝也+3.024*中国太保+10.362*中国建筑+2.659*中国交建+4.79*中国重工+10.152*中信银行。然后我们得到利用LASSO估计得到的的残差为159.4559。我们发现无论是从残差或者模型预测的角度,我们得到的LASSO估计与真实值之间具有良好的拟合程度。
2.弹性网估计。鉴于LASSO估计的一些缺陷,例如,在一组相关性较高的数据中LASSO估计只能从其中选取一个变量,而舍弃了其他相关性较高的变量。我们这里再使用弹性网估计来实现变量选择。该估计是合并考虑岭估计以及绝对约束估计得到的。在R软件中,使用glmnet程序包,首先我们利用交叉验证实现(cv.glmnet)参数的选择,并得到最小的调节参数为0.1616009。具体的可以直接利用cv.glmnet函数直接实现CV交叉验证。我们发现利用弹性网估计可以选择出的26个变量,得到估计的残差:210.2164。建立的线性模型为:
Y=6.887*浦发银行+7.095*华能国际+0.710*上港集团+7.129*中国联通+2.306*宇通客车+5.146*特变电工+1.482*上汽集团+2.418*复新医药+2.253*万华化学+0.858*国电南端+0.725*驰宏锌锗+0.204*青岛海尔+2.195*长江电力+2.717*大秦铁路+5.384*北京银行+1.778*中国铁建+0.557*中国北车+11.793*中国中铁+12.534*工商银行+5.779*中国铝也+3.024*中国太保+10.379*中国建筑+2.656*中国交建+4.786*中国重工+10.155*中信银行
我们可以发现弹性网估计和LASSO估计选取的变量是相同的,但是被选取的变量的系数还是不一样的。LASSO估计和弹性网估计拟合图对比如下:
最后,与前面的聚类分析对比我们可以发现:一级分类里面1中的变量被踢出了;2中的变量都得到了保留;3中的变量都被踢出了; 4中被保留;5中只有浦发银行被保留;6中只有华能国际被保留,依次进行下去,我们可以发现在离差平方和的准则下和BIC的准则下,变量选择和聚类分析之間并没有很大的关联性。 这其中的主要原因就是因为我们在做聚类分析是选取的离差平方和准则,在做变量选择是用的BIC准则,我们猜测根据合适选择标准,在做变量选择时应该与聚类分析中的一级聚类有很高的关联性,但是这需要进一步的验证,我们就不再这里赘述了。
三、结语
在本文中我们首先应用最小二乘估计研究了ESG40股指及其成份股之间的模型建立问题。考虑到实际问题中成份股与股指之间的对应关系,我们借助主成分回归和岭回归这种有偏估计方法建立了有偏估计的模型,对相应的模型进行了检验分析。另外,在数值例子中我们发现相关系数矩阵有着很高的共线性,同时,我们在对最小二乘回归的模型做显著性检验是可以发现,有些变量的系数是不显著的。因此,我们首先做了依据离差平方和准则做了聚类分析,从40支股票中的到了24个一级聚类,这说明在离差平方和的准则下,40支股票中是存在相关性很强的股票的。然后,我们利用LASSO估计和弹性网估计做了变量选择。从我们的数值例子中可以发现,尽管LASSO估计与弹性网估计两种方法选出了相同的26支股票,但是对应变量的系数还是不同的。而且从残差的角度来看,LASSO估计的残差要跟小一些。另外,当我们使用LASSO估计(弹性网估计)选取的变量跟聚类分析中的一级分类之间看上去是没有什么关系的。我们猜测这里导致这个结果的主要原因是我们选取的标准的问题(聚类分析:离差平方和;LASSO: BIC; 弹性网:CV),如果选取合适标准,我们认为变量选择选取的变量是应该在一级分类里面的,至少应该存在某种合适的对应关系,这方面的探索就不再这里赘述了。
参考文献:
[1]Pearson K. On Lines and Planes of Closest Fit to Systems of Points in SpacePhilosophical Magazine[J],1901,2 (11): 559-572.
[2]Tibshirani R.Regression Shrinkage and Selection via Lasso[J].Journal of the Raoyal Statistical Sosiety.Series B,1996,58(1):267-288.
[3]Zou H,Hastie T.Regularization and variable selection via the elastic net.Journal of the Royal Statistical Society,Series B,2005,67:301-320.
[4]Hotelling H. Analysis of a complex of statistical variables into principal components[J]. Journal of Educational Psychology,1933, 24, 417–441, and 498–520.