基于因子IC的多因子量化选股模型及绩效分析

2019-12-19 13:42董晓波常裕琦
关键词:成指市值残差

董晓波,常裕琦

(1.安徽财经大学中国合作社,安徽蚌埠,233030;2.安徽财经大学金融学院,安徽蚌埠,233030)

股票市场是一个“高风险、高收益”的领域,加之我国股票市场复杂多变的特征,传统的基本面分析和技术分析很难获得预期和稳定的收益。如何有效地规避风险,从繁多的市场股票中筛选出未来具有超额收益的股票,是投资者一直以来关注的问题。因此,对股票收益率波动的分析、构建投资组合具有重要的意义。在此背景下,系统高效的量化投资策略可以帮助投资者进行更加理性和准确的投资。

一、文献综述

股票量化投资策略是股票合理投资的重要基础,国内外已有诸多学者对其进行了较为深入的分析和研究。

外国的学者对量化投资领域的研究较早。马科维茨发表的“Portfolio Selection”中推导出的投资人的决策问题公式,说明了投资人资产分配的原则是在达成投资目标的前提下,将资产组合的风险最小化。[1]该文奠定了现代投资组合理论的基础。Fama和French针对包括美国、EAFE国家成熟市场以及16个新兴市场国家的股票市场进行了实证研究,根据B/M,C/P,E/P和D/P区分价值股和成长股,从而形成投资组合。[2]

国内对量化投资的研究发展较慢,且大多应用于业界。江方敏通过选取上市公司财务报表中的6个财务因子,给出了高出市场基准的12个组合。[3]由于选取的因子过于单一,获取信息片面,无法科学地分析股市行情,给出科学的建议。王昭栋更偏重于多因子模型的应用与实践,对三种多因子模型的绩效表现作以充分的实证和分析,讨论了收益率的稳定性和多因子的冗余性检验。[4]但是为处理数据方便,没有考虑股票市场交易的流动性和流动性风险。

综上分析,多因子模型相对来说比较稳定,是量化投资领域应用最广泛的一种选股模型。尽管研究成果颇丰,但仍存在以下两点不足:一是没有考虑到我国股市相较于外国股市波动幅度和风险程度更大,只选用传统的因子,忽略了流动性影响因素;二是没有对建立的投资策略进行历史回测,以及对行业的归因分析。

基于此,本文通过因子IC优化复合因子IR的方式来配置因子权重构造多因子模型,考虑到市场的流动性问题,在选取了6个传统因子的基础上,采用成交量和价格变动联系起来的方式观测流动性,即通过构建非流动性因子ILLIQ来寻找市场对弱流动性的收益补偿;最后为考察构建的投资组合中合成因子的选股能力,进行了历史回测和行业归因分析,以给出更加精准科学的投资策略。

二、基于GARCH模型的沪深股市收益率波动性分析

一般来说,我们用收益率波动性指标来衡量股票市场的质量。在一定的波动范围内,股票收益率的波动有活跃股票市场的作用,超过一定幅度会使市场风险暴露,不利于股市的正常运行。投资者通过研究收益率波动性可以较为合理地预测股市风险,而上证指数和深证成指是我国金融市场的晴雨表,反映我国证券市场的走势,投资者能否获利与其波动性关系紧密。

(一)样本范围

选取2016年1月1日至2019年3月31日的交易日的上证指数和深证成指的收盘价,使用金融时间序列的计量经济方法估计参数的结果并给出实证结论。用SH表示上证指数收盘价,SZ表示深证成指收盘价,RSH表示沪市收益率,RSZ表示深市收益率。收益率定义为Rt=(Pt-Pt-1)/Pt-1×100%,其中Pt、Pt-1分别表示第t日、t-1日的收盘价。数据来源于iFinD。

(二)模型选择

在选择模型时,考虑到在ARCH(p)建模过程中,如果p很大,会导致方差随着之前时刻的变化量而变化,在这种情况下,方差方程中的参数可能会出现负值的情况,不符合理论依据。因此,我们避免使用这种方法。

而GARCH模型是一个专门面向金融数据的回归模型,在条件方差的方程中加入滞后项,对误差的方差有更进一步的解释,所以被广泛应用于分析和预测波动性。其中,最常使用且通常也很适合金融时间序列的GARCH模型是GARCH(1,1)。本文以2016年1月1日至2019年3月31日的上证指数和深证成指为研究对象,建立GARCH模型。

(三)实证分析

1.描述性统计分析

对上证指数收益率和深证指数收益率进行描述性统计,得到基本统计特征值。其中,上证指数收益率在样本期内的平均值为0.00059,略高于深证成指收益率的平均值0.000419。同时,两个收益率的偏度都小于0,都为左偏;上证指数和深证成指的峰度分别为8.058682和6.273822,都大于正态分布的峰度值3,故两个指数收益率都呈现尖峰厚尾的特征。另一方面,从标准差来看,深证成指的标准差为0.020462,高于上证指数的标准差0.018068,说明深证成指的波动性要大于上证指数。

2.平稳性检验

根据前期描述性统计分析的结果,我们推测沪深两指的收益率序列可能存在ARCH/GARCH效应,而时间序列的平稳性是构建模型分析预测的前提。因此,对该序列进行ADF检验,以考察序列的平稳性。

首先,为了直观分析两个指数收益率序列的平稳性,绘制了沪深两指的收益率时序图,如图1、图2所示。

图1 上证指数收益率时序图

图2 深证成指收益率时序图

通过以上图形可以看出,上证指数收益率和深证指数收益率序列基本都是围绕在0附近上下波动,直观上判断应该都是平稳的。以下进一步采用ADF单位根检验法进行判断,利用EVIEWS软件得到结果汇总,如表1所示。

表1 ADF单位根检验结果

从回归结果来看,上证指数收益率单位根的ADF统计量为-19.66081,分别小于显著性水平为10%、5%和1%的临界值。因此,RSH和RSZ都是平稳的,可以直接利用上证指数收益率和深证成指收益率序列进行建模分析。

3.确定均值方程及残差序列自相关检验

一般情况下,金融市场的收益率序列都存在自相关现象。故首先根据收益率序列的自相关图来判断其均值方程。通过绘制上证指数收益率的自相关图可知,在滞后4期时的自相关系数最大且显著,故初步判断存在滞后4期的自相关。再次绘制残差的自相关图,可知仍然存在自相关现象,故需要进一步调整。经过不断修正,最终得到的上证指数收益率均值方程为:

同理,得到的深圳成指收益率均值方程为:

分别对以上方程估计的残差和残差平方序列进行自相关检验,取滞后10阶,观察沪市和深市残差及残差平方的自相关系数及P值。可知无论沪市还是深市,其残差序列都不存在自相关,但残差平方的序列却都存在显著的自相关性,两个残差平方的波动具有明显的时间可变性和集簇性,初步判断适合采用GARCH模型来进行建模分析。进一步采用ARCH-LM法进行检验,得到的结果如表2所示。

可以看出,检验的P值都为0,故应该拒绝模型不存在ARCH效应的假设。因此,两个均值方程的残差都存在显著的ARCH效应,适合采用GARCH进行建模。

4.GARCH建模分析

在以上得到均值方程的基础上,继续建立GARCH(1,1)模型对两个股票市场的波动性进行分析。首先,运用EViews软件得到的两个市场GARCH(1,1)模型初步估计结果。可以得到,此时两个市场GARCH模型的均值方程中存在变量估计系数不显著的情况;故进一步进行调整,修正后,除部分常数项,模型中的各变量估计系数在10%水平下都是显著的(P<0.1);再次对两个GARCH模型的残差及残差平方进行自相关检验,取滞后10阶得到的结果如表3所示(以沪市为例,深市同理)。

表2 沪市及深市收益率自相关模型残差的ARCH-LM检验结果

表3 沪市GARCH模型残差及残差平方的自相关系数及p值

可以看出,此时,两个模型的残差及残差平方都不存在显著的自相关现象,ARCH效应已经消除。因此,模型的估计结果是理想的。从而得到的估计方程为:

I上证指数收益率GARCH(1,1)模型:

均值方程:

条件方差方程:

II深证成指收益率GARCH(1,1)模型:

均值方程:

条件方差方程:

但是,仅仅从这三个方面选取因子,存在一些不足。相较于国外成熟的股票市场,我国股市的波动幅度和风险程度很大,存在较大的不确定性。成熟稳健的股票市场必须具有良好的流动性,在一定程度上,流动性衡量着一国股市的发展水平,是资产组合过程中一个重要因素。流动性好的股票市场资源配置效率高,证券变现能力强,反之则不利于股市的正常运行。

2.非流动性因子(ILLIQ)构建

按照风险与收益相匹配的特点,理论上市场会赋予流动性差的证券一定的收益补偿。考虑中国股票市场的流动性因素有助于认识投资者的风险厌恶水平和理解中国证券市场的基础结构,通常会采用流通市值、买卖价格差额、换手率来观测流动性。但这些指标无法描述流动性差导致的价格让步,因此本文采用成交量和价格变动联系起来的方式观测流动性,即通过构建非流动性因子ILLIQ,来寻找市场对弱流动性的收益补偿:率模型的估计系数为0.929122,小于深证成指的估计系数0.939136,这说明两个市场的当期波动都会受到其前期波动水平的正向影响,并且深证成指所受的影响更大。

三、基于因子IC的量化投资策略分析

(一)因子的获取与处理

1.传统因子选取

在采用传统的多因子模型进行选股时,主要从

该指标计算某一时间段内(本研究设N为5日)每天价格变化幅度的绝对值比上成交额的平均数,衡量单位成交额下证券价格波动的幅度。ILLIQ值越小,表明相同成交额下,证券价格浮动较小,流动性好;ILLIQ值越大,流动性越差。最终,从4个方面选取7个因子,分别是成长因子ROE和Net-ProfitGrowRate;估值因子PE和PB;市场因子BR和AR以及一个流动性因子ILLIQ。

(二)基于因子IC的信号合成

对选取的7个因子进行标准化、去极值和残差正交化调整后,计算出了每个因子的IC时间序列。之后需要按照滚动窗口计算因子IC的均值向量和协方差矩阵,进一步得到各个因子的权重。当有多个信号时,通常需要对多个信号进行合成,等权合成信号是最简单的方法。

设共有M个因子,其IC的均值向量为的协方差矩阵为Σ。如果各因子的权重向量为则可以证明:

其中IR为因子IC的均值与因子IC的标准差的比值,因子IR值越高,代表因子综合考虑区分度和稳定性后效果越好。为了使IR达到最大,对V求偏导数,可得:

本文使用的构建多因子模型的方法以最大化复合因子的因子IR值为权重配置的目标,并运用Python的优化函数求解。

在计算权重的时候,首先需要得到因子IC协方差矩阵,使用前6个月的IC时间序列来计算IC均值向量和IC协方差矩阵计算每一天的因子权重。在计算出各因子权重后,按照权重对各因子进行加权求和,即得到了所求的合成因子。

(三)合成因子的简单分析

1.合成因子的分布状况

通过绘制因子数据分布图,可以大致看出合成因子的分布情况。在经过标准化、去极值等一系列的处理后,合成因子近似呈现出正态分布的状况,整体分布较为合理。

2.合成因子截面特征

图3给出了2014年~2017年间,在不同时点,将市场上所有股票按因子分成10组,选取第1组(Q1)、第5组(Q5)以及第10组(Q10)股票因子的均值情况进行观察。

图3 合成因子截面特征图

可以看到:第一组因子值在-1至-0.5之间变化,第五组的因子值在-0.5上方小幅波动,第十组则在0.5至1.0区域内波动。这几组整体的因子均值波动范围较小,因此我们认为因子的截面特征较为稳定。

3.合成因子选股的分组超额收益

图4给出了从2016年开始,每天进行合成因子十分位选股后,在未来一个月各个分组的超额收益(时间序列求平均),在十分位分组中,合成因子由小到大排序,即第一组为合成因子最小的组。

图4 合成因子十分位超额收益图

可以发现:第一组到第六组合成因子超额收益为负,第七组到第十组超额收益为正。因子多空收益明显,分位数由小到大,组合超额收益由负到正,分组收益单调性很好,显示出因子有着很好的选股能力。在下面的研究和回测中,将选择合成因子较大的股票。

4.合成因子选股的市值分布特征

对合成因子十分位分组的市值特征进行分析,在之前的单因子中性化中后,市值分布较为均匀,合成因子理应无市值暴露,但是第10组相对其它组来说还是较为偏高,所以在策略实际运行中有可能会出现市值较高的情况。具体市值的分布状况,在合成因子后真实回测过程中再进行观察。

图5 合成因子十分位市值分布特征

(四)合成因子的回测

1.回测结果

为了考察因子选股能力的回测效果,历史回测的基本设置如下:回测时段为2014年1月1日至2018年1月1日,股票池为A股全部股票,策略参考标准为沪深300指数,组合每5个交易日调仓,交易费率设为双边万分之二。

由回测结果可知,运用多因子策略得出的投资组合在2014年1月1日至2018年1月1日之间,策略的收益和年化收益率分别达到了67.67%和19.33%,分别远高于基准收益和基准年化收益的10.69%和3.53%。阿尔法值为0.16,贝塔值仅为1.03,夏普比率达到0.49,信息比率达0.83,这些指标表现出色。但是最大回撤相对偏高,为45.68%。结合基准收益、策略收益和超额收益在这三年内的走势和对比,综上可以认为策略运行较好。

2.回测持仓平均市值

回测之后,对该策略选股的持仓市值分析。在之前的合成因子选股市值的分布特征中,已经对该策略选股的持仓市值进行了简单的分析,真实回测的持仓市值结果如图6所示。图6展示了全市场股票市值25%分位数、全市场股票市值75%分位数以及策略持仓股票平均市值的时间序列。2014年至2015上半年,策略持仓的平均市值在全市场股票市值75%分位数附近波动,而2015年下半年至今,策略持仓股票平均市值相对偏高,远超全市场股票市值75%分位数。总体来看,该策略的持仓市值相对较高。

图6 策略持仓平均市值图

四、结论与建议

从研究成果出发,对股票市场投资提出以下建议:

一是要不断提升量化投资技术水平。特别是要将计算技术与各类统计数学模型进行有效结合,在“大数据”时代对复杂的投资相关数据进行挖掘与分析;同时还要高度重视技术分析体系的建设,[5]特别是要对基本面分析指标、股票估值指标、交易趋势等进行有效分析。

二是要时刻保持风险意识,注意风险防控。由GARCH模型分析结果可知,股票市场易受外部因素的干扰,收益率波动较大。这种波动性在一定程度上会加剧股票投资的不确定性,会给投资者带来丰厚的收益,也可能会带来巨大的损失。因此在进行量化投资策略分析时,也应将投资风险考虑在内。

三是要加强对大数据的利用能力,做到科学投资。在投资策略分析过程中,存在大量的数据,要增强投资策略的科学性,就必须对“大数据”进行有效利用,常用的方式主要是建立适合的统计模型,并对模型进行深入分析和检验。

猜你喜欢
成指市值残差
基于双向GRU与残差拟合的车辆跟驰建模
从千亿市值到万亿市值,行业大佬通威正在做哪些准备?
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
华夏战略新兴成指ETF剑指“风口”布局未来
基于GARCH族模型的深证成指波动特征实证分析*
王怀南:奔向亿级市值
深证成指
综合电离层残差和超宽巷探测和修复北斗周跳
转型4个月,市值翻了6倍