摘 要:统计至2021年12月9日,我国A股共计拥有4 652家上市公司,股票市场投资者对于如何从其中挑选优质股票,购买具备投资价值的低估值股票关注度高升。基于此,借助Fama-French经典五因子模型作为抓手进行研究,首先在中国A股市场选取数据,进行数据清洗;其次进行因子构建,再次进行因子一系列有效性检验,并且进行一定的因子修正以便更符合我国A股市场行情;最后通过实证分析,分析二维交叉组合时的因子模型:规模—账面市值比组合的因子模型检验,从而进行验证Fama-French五因子经典模型是否适合我国A股市场。
关键词:量化投资;因子选股模型;A股市场;适用性验证
中图分类号:F832.51 文献标志码:A 文章编号:1673-291X(2024)16-0064-06
一、研究思路
本文的主要研究方向参考中国A股市场定量选股策略,利用据A股市场修正后的Fama- French五因子模型选出的投资组合进行实测观察,采用股票市场的历史数据分析Fama五因子模型在A股市场是否具有解释力度,以及查看将选出的投资组合与大盘指数对比,观察其是否具有跑赢大盘的性质。本文统计数据分析均由stata软件实现。
本文结合定性分析法和定量分析法,首先通过锁定A股市场板块范围确定库存股票池,然后根据一定要求选取候选因子,测量因子的有效性并消除因子之间冗余情况。本文筛选及确定因子的方法为定量选股和工具,进一步考虑、评估并改进模型。具体为,首先确定A股市场板块范围用以确定库存股票池;其次根据相应的要求选择候选因子,并测试所选择因子的有效性。如果所选择因子的有效性较弱则表明所选择因子为冗余因子,进行删除。将以上因素完成筛选后,建立一个模型完成库存筛选因子模型进行评估,从而改进已有模型。最常见的模型构造方式为通常,我们使用构建多元线性回归建模来评估因子与未来收益的关系。鉴于线性回归后的多因素模型具有数据挖掘的特征,因此可以从历史数据中挖掘出有效因子组合。其中,线性回归法使用过去的股票收益获得基础的回归方程,从而利用回归方程代替最新的因子值预测未来的股票收益。因此,本文选取具有过去股票收入的多个因素以产生回归方程,然后替换最新的方程式而不是最新方程,找到价值,预测未来的股票收入。从上述预测中获得的数据对股票进行分类,最好选择最有效的具有较高预测值的目标股票的投资组合。其中,回归方程系数的选择可以采用选股因子的权重,重量选择因子重量的确定基于回归方程序的系数。假设这种回归关系在下一个周期仍然有效,因此将回归方程替换为最新因子值,以便获得回归方程的预测值。随后根据预测值排序,重复上述操作,对最终得出的股票排序并选取较高的值,将建立一组排名较高的股票。将来会进行长期观察,以评估投资收入的稳定性和盈利能力。
二、多因子选股模型介绍
在量化定量投资领域,因素的概念具有广泛的定义,包括基于宏观经济数据的宏观指标,以及基于资本市场的指标(例如,换手率、定量比率、资本流量比等)和反映上市公司的运营条件的财务指标(例如净利润增长率、每股增长率等)以及资本市场和上市公司的重大事件。以上这些因素均可以被认为是因子。通过量化思维,多因子选股模型将众多因子联系起来,筛选出对资本市场中大多数股票普遍有效的因子因素。
多因子量化选股模型有两个关键步骤,其一是因子的筛选,其二是筛选因子建模从而得到最终所需股票的结果。因子筛选的步骤需要通过筛选影响公司股价、公司价值以及公司股票收益率的重要影响因素,并且将筛选出的上述影响因素量化形成因子选股模型。这些重大的影响因素包括众多方面,如公司基本面指标市销率、市盈率、资产负债率等,二级市场技术面指标,如成交量、波动率、换手量等。
三、模型描述及因子构造
(一)样本描述与数据选取
本研究采用来自A股市场,包括沪深A股和创业板市场的所有上市公司作为研究对象。考虑到样本周期可涵盖股市所有周期与可能的趋势,样本周期设定为2000年1月1日—2020年12月31日。考虑到样本周期可涵盖股市所有周期与可能的趋势,数据来源为WIND数据库。
本文的分组方法是:根据t年5月至t+1年4月(考虑到财报滞后性)为一个周期,剔除IPO前后6个月的股票、直接剔除ST、*ST股票,剔除属性为金融的股票,剔除单个周期内停牌天数累计超过200天的股票。
(二)变量选取
本文依据现有的研究内容,选取相应的解释变量为超额收益率(简称MKT)、规模因子(简称SMB)、价值因子(简称HML)、盈利因子(简称RMW)、投资因子(简称CMA),采用2*3的构建方法。具体解释变量与指标的计算方法如表1所示。
(三)因子构建
因子构建方法按照Fama-French的2*3分组法进行构建,将上述18个组合的流通市值加权平均收益,利用不同组合的收益率之差构造规模因子(SMB)、价值因子(HML)、盈利因子(RMW)和投资因子(CMA)4个因子。具体计算方法如表2所示。
四、Fama- French五因子模型在中国股票市场的适用性检验以及修正
(一)因子的描述性统计分析
表3罗列了均值、标准差、p统计量、最大值、最小值。MKT、SMB、RMW指标均显著,而HML、CMA不显著。
分析上述描述性统计可知,MKT标准差为0.079 70,数值上远高于其他4个因子,说明我国股票市场不稳定,波动性强。除此之外,其余4个因子的标准差保持在4%以下,说明波动平稳。
(二)因子的相关性分析
表4给出了各因子之间的相关系数,发现仅有SMB因子与HML、RMW之间具有较高相关性(系数绝对值>0.45且绝对值最高),其余因子之间的相关性较低,系数绝对值在0.45以下,因此可以判断各因子之间不存在高度相关性。
(三)冗余因子的检验分析
本文的冗余因子分析也是利用其他4个因子回归解释第5个因子,过程由stata实现。
根据表5分析,我们观察到RMW因子在其他因子的影响下得到了较好的解释。回归截距项在此情境下扮演着关键的角色,它代表了在经过其他4个因子风险调整后RMW因子所呈现的风险溢价。在2000—2020年的研究期间,即使调整了其他风险因素,A股市场仍然具有明显的市场风险、规模效应、账面价值比效应和投资能力效应。对于5个因子模型,RMW因子的返回和其他4个因素未能否认0的原始假设,这表明RMW因子在解释库存投资组合特征的产量时显示出“冗余”。
(四)GRS检验
GRS测试是学术界广泛使用的方法,用于验证定价模型的有效性。该测试是由Gibbons等人提出的。1989年,它主要用于检查所有截距项目是否同时为零。当定价模型可以完全解释横截面上所有库存投资组合的超额收益率时,不应同时拒绝所有组合的回归截距进入组合测试。
根据表6结果可以发现,Size-BM组合下,五因子模型?鄣为11.5%,表明SMB因子有较大贡献量;Size-OP组合下,五因子模型?鄣仅11.4%,则表明CMA因子具有较大的贡献;Size-Inv组合下,五因子模型?鄣为10.8%,表明RMW因子也具有较大贡献。
五、五因子模型对A股截面收益变化的实证分析
在进行了因子的实证分析之后,本文将分组计算回归系数,并且使用1deb004811d3e849c4482e8b5a5eec3fNewey-West t统计量。
(一)Newey-West T检验
在传统的多因子模型中,由于收益序列存在异方差和自相关,这使得对标准差的估计产生偏差,从而对因子显著性检验的结果造成失真。为应对这一问题,Newey-West调整应运而生。其主要改进在于在计算协方差矩阵时引入了自相关调整项,从而有效规避了序列自相关对协方差矩阵估计的负面影响。通过蒙特卡洛模拟进行的应用测试显示,当序列存在自相关时,经过Newey-West调整后计算得到的序列标准差估计与真实方差之间存在着极高的相关性。具体而言,当残差项自相关系数大于0时,调整后的序列标准差估计较传统OLS估计结果更大;反之,当自相关系数小于0时,Newey-West调整估计得到的标准差则相对于OLS估计结果较小。这一调整方法为因子模型的应用提供了更准确、更鲁棒的估计结果,特别是在面对序列中存在自相关的情境下。
基于实证角度,因子有效性的评估方法是执行t检验并分析因子产量的实际序列。t检验的过程是,根据每个截面回归后所获得的t值部分的返回来获得t值,以获得t值,并为t值序列,取得绝对值序列的平均值。 根据t值是否不显著等于0,可以认为因子与收益率之间是否存在明显的相关性;相关性存在两种可能,即正相关和负相关。若是因子之间存在正负相关性,会出现正负抵消的现象,从而导致风格因子数值受到影响,因此需要对t的数值进行绝对值化处理。进行绝对值化处理后,如果t的数值绝对值大于2,则会被认为该t值相对理想;如果t值的绝对值的值比大于2的比例达到一定数量,则可以将其视为序列的平均值在统计中具有显著水平。最后,需要对因子产量序列进行t检验。t检验的原因是对每个截面产生的因子收益率,组合一个因子收益率序列,对该序列进行t检验,从而判断因子的收益率是否显著不为0,进而确定因子的产量是否不是显着零。t检验还能判断因子收益率的正负情况,这是基于因子产量的每个部分确定其产量并确定因素的正负性。
(二)回归结果以及分析
由于规模限制,本文主要描述二维交叉组合时的因子模型检验:规模—账面市值比组合的因子模型检验。
本文选择25个比例书籍价值比率回报规模——账面市值比组合回归:2000年1月—2020年12月,每个季度是一个周期。在4月底,股票的市场价值按从小到大分组为5个规模组的5级分为5级。然后独立使用该书的账面市值的五等分位数价值的五个平等划分,以及根据账面市场价值从低到高到5的排序。采用这两种方法分组,账面价值比的股票市场价值比率从低到高到5账面价值。根据5个规模组乘以5个账面市值比组,得到25个规模—账面市值比组合,并且将每个规模-账面市值比组合一一对应一组回归。
Ri-Rf=?鄣i+β1i×(Rmt-Rft)+βi,2×SMBt+βi,3×HMLt+βi,4×RMWOt+βi,5×CMAt+εitr
回归中,等式左边变量是组合的月度超额收益率,等式右边是市场因子MKT(-)、规模因子SMB、价值因子HML、正交化因子利润因子RMWO、投资因子CMA。表10中面板是五因子回归截距项、规模因子SMB、价值因子HM、正交化因子利润因子RMWO、投资因子CMA的系数,以及这些回归系数的t统计值。
根据得出的面板数据结果可知,Fama-French五因子模型回归截距项?鄣仅有5个不显著为零,表明此修正后的五因子模型对于A股市场横截面收益的变化解释力度较强。规模因子SMB的系数具有23个显著不为零,系数的大小与规模和账面市值比都存在大体上的线性关系,从小市值-低账面值比向大市值-高账面值比变化,表明了变小的趋势,表明随着规模的增加和市场价值比的增加,量表因子SMB解释了在回报中连续解释的能力。HML与SMB相似,但是HML与规模-账面市值比有积极的线性关系。
投资因子CMA系数仅为8个显著不为0显著而不为零,表明CMA总体上是不显著的。可以发现,大规模企业的5个系数都显著不为零,表明投资因素对大规模公司的横截面收益变化有一定的解释。
六、总结
本文的核心目的是对A股市场4 652家上市公司,周期位于2000年1月1日—2020年12月31日的数据,通过实证分析验证Fama-French五因子模型在中国A股市场上的适用性。所用的实证方法为最小二乘回归法,以验证五因子模型对于A股市场股票横截面收益率变化的解释力度。实证研究结果表明:
1.市值层面,通过对不同市值进行规模分组,可发现五因子模型具备大规模市值股票的解释性。
2.因子回归层面,通过在因子回归时检验股票横截面收益波动,截距项?鄣的绝对值较大时波动显著,发现我国A股市场收益波动性较大,一方面降低五因子模型的实操度,另一方面不利于A股市场长久稳健发展。
3.综合分析层面,考虑因子及其回归系数大小和显著性,发现五因子模型最主要的解释驱动因素为规模因子,鉴于其自身及回归系数都较大。反之,市场因子本身太小,回归系数稳定在1附近,解释力度一般。在进行回归检验时,发现截距项?鄣的绝对值整体上较大。由此可以说明五因子模型未囊括中国A股市场所有影响因素,还有其他效应未被解释,因此未来还须加入其他因子以解释A股市场的波动。
参考文献:
[1] 张宇.基于五因子修正模型的A股生物医药行业超额收益率研究[D].郑州:河南财经政法大学,2023.
[2] 杨冬冬.中国A股房地产业股票收益率的实证研究:基于Fama-French多因子模型[J].现代商业,2023(18).
[3] 焦建玉.Fama-French五因子模型在中国创业板市场有效性的实证检验[D].济南:山东大学,2020.
[4] 李志冰,杨光艺,冯永昌,等.Fama-French五因子模型在中国股票市场的实证检验[J].金融研究,2017(6).
[5] 赵胜民,闫红蕾,张凯.Fama-French五因子模型比三因子模型更胜一筹吗:来自中国A股市场的经验证据[J].南开经济研究,2016(2).
[6] Size,Value,Profitability,and Investment.Evidence from Emerging Markets[J].André Luis Leite,Marcelo Cabus Klotzle,Antonio Carlos Figueiredo Pinto,Aldo Ferreira Da Silva.Emerging Markets Review,2018.
[7] International Tests of A Five-factor Asset Pricing Model. Eugene F. Fama[J].Kenneth R. French.Journal of Financial Economics,2017.
[8] The Evolution of Stock Market Efficiency in the US:A Non-Bayesian Time-Varying Model Approach[J].Ito,Noda,Wada.Applied Economics,2016.
[责任编辑 柯 黎]