多因子量化选股模型与择时策略

2018-11-26 03:30王春丽
东北财经大学学报 2018年5期
关键词:股票收益率因子

王春丽,刘 光,王 齐

(东北财经大学 统计学院,辽宁 大连 116025)

一、引 言

自1952年量化投资理论兴起,以量化投资作为核心概念的投资基金在海外金融市场已经风行六十多个年头。截至2016年底,量化基金在全球投资总规模已经突破3万亿美元,其在全球基金规模所占比重更是接近1/3,量化基金已经成为全球资产管理公司最重要的一种投资工具。与传统投资相比,量化投资更具有风险控制相对精准且超额收益相对稳定的特点,受到基金市场越来越多的关注。量化基金在中国基金市场的应用,起源于2004年光大量化核心的发行,由于当时股票市场缺少量化对冲工具,致使量化基金在随后几年发展缓慢。2010年沪深300股指期货的推出,使中国基金市场具备了可对冲的量化工具,各大基金研究机构纷纷建立量化投资策略,如alpha策略、股指期货套利策略等,中国基金市场正式进入量化投资元年。之后在2015年启动的大牛市行情中,量化基金产品迎来大爆发,几乎所有的量化投资产品都获得较好收益,量化基金进入快速发展阶段。

国外量化投资经过六十多年发展,从投资策略上来看,几乎覆盖了投资者的全部投资过程,主要包括量化选股、量化择时、股指期货套利、商品期货套利、资产配置、风险控制等六个方面。然而,目前国内基金市场所使用的量化方法,大多数仅涉及到量化选股这一环节。围绕量化选股,国内许多学者通过借鉴国外先进的量化模型,构建了许多不同类型的量化选股模型。骆桦和秦艳艳[1]对中国股票市场的动量效应和反转效应进行研究,认为利用动量选股模型可能获取超额收益。林德发和杨潇宇[2]利用沪深300指数各成分股的基本面数据和行情数据,构建多因子量化选股模型,试图构建出跑赢市场基准的投资组合。柯原和郑双阳[3]把价值投资和行业轮动模型相结合进行量化选股,在投资的稳健程度和收益率之间找到更加有利的均衡点。巨红岩等[4]对股票资金流强度进行实证研究及评测,认为股票资金流强度与股价环比增长率呈线性趋势,利用资金流选股模型可以很好地进行选股。田凯和刘永睿[5]利用logistics模型进行量化选股,认为该模型能够有效地提高投资组合的超额收益率,并能适当地规避投资者风险。在上述众多不同类型的量化选股模型中,多因子选股模型无疑是其中应用最广泛并且最重要的量化选股模型,国内外的许多学者为此也做了大量的研究。Fama和French[6]使用市场风险溢酬因子、公司市值因子以及账面市值比因子对股票收益率进行回归,对股票收益率进行解释。范龙振和王海涛[7]在三因素模型的基础上,在模型中加入市盈率因子,使多因子量化选股模型更好地解释了股票市场上经常出现的市值效应、账面市值比效应、市盈率效应和价格效应。陈德华等[8]将代表股票资产特质的30个指标划分为8 类风险因子,并以股票月收益率为因变量,以各风险因子的敏感系数为自变量,建立基于多元横截面回归的量化选股模型。刘洋和夏思雨[9]则是将符合GARP策略(GARP策略是将价值策略和成长策略相结合,提出价格会按合理价值成长)的公司基本面指标作为候选因子,利用多因子模型对股票的收益情况进行研究,认为市盈率(PE)、市净率(PB)、市销率(PS)、市现率(PCE)、基本每股收益同比增长率和营业利润同比增长率等6个因子与股票的收益率相关。

二、研究设计

(一)理论基础

在“上市公司基本面决定企业价值,企业价值决定其股票价格”的投资逻辑下,基本面分析是筛选中国股市质地优良上市公司的重要利器,而构建回归法的多因子量化选股模型是基于公司基本面的全面分析,通过模型数据信息的处理和挖掘,帮助投资者进行理性选股,从而获得超过市场基准的稳定收益。同时,由于中国股市常出现涨跌无序、随机性较强等问题,将量化选股模型与量化择时策略相互结合,使之从精选个股到优化仓位控制,从判断投资组合的风险到执行交易买卖,每一个环节都有效地控制人为干预的一些因素,不仅可以降低投资风险、获得相对稳定的投资收益,而且能够促进股票市场平稳健康可持续发展。此外,从国外成熟金融市场的发展经验来看,利用量化方法进行投资,可以有效地提高金融市场流动性。在国外许多证券交易所,量化基金产品的交易量能达到整个交易所总交易量的30%—40%,通过频繁的程序化交易,及时有效地释放大量现金流,提高整个金融交易市场的资金流动性。

但值得注意的是,在量化基金取得快速发展的背后,仍然存在诸多隐患,如目前国内量化基金所使用的量化策略多是从国外引进,是国外量化投资基金过去使用过的量化选股模型及策略,不能很好地适应中国A股市场。为了探索适应中国A股市场的量化模型和策略,本文建立基于回归法的多因子量化选股模型,并设计了相应的量化择时策略控制投资者风险。

(二)研究思路

针对多因子量化选股模型现有研究之间的差别,本文采取以下办法进行处理。一是影响股票价格波动的因子存在差异。股票价格波动受很多因素的影响,且不同因子之间可能存在极强的相关性。因此,在多因子量化选股模型的实证研究中,由于不同学者建立模型时选取的候选因子不同,得到的最终结果可能存在一定差异。为了避免发生这种差异,本文将不同学者最终确定的候选因子尽可能地纳入到多因子量化选股模型中,并通过主成分分析,将众多的候选因子聚合形成少数几个公共因子进行实证研究。二是收益率选取的时间跨度不同。股票收益率在不同研究中主要分为长期收益率、中期收益率和短期收益率。其中,长期收益率以5年或3年累计收益率为代表,中期收益率主要是指年度收益率和半年度收益率,而短期收益率包括季度收益率、月收益率和周收益率等。由于量化基金投资过程较长,为了尽可能地控制投资过程中产生的风险,充分挖掘各上市公司公布的信息,及时有效地找出具备增长潜力的股票,本文选择中期收益率中的年度收益率进行实证研究。三是模型的判别方法不同。多因子选股模型有打分法和回归法两种判别方式,与打分法相比,回归法能够根据股票市场上的突发情况,比较及时地调整模型对各个因子的敏感性,而且简单、快捷,更有利于程序化交易。因此,本文决定采用回归法对多因子模型进行判断,并设计出相应的量化择时策略,即建立基于回归法的多因子量化选股模型及择时策略进行实证研究。

(三)回归模型的设计

本文在研究多因子变量与股票收益率关系及量化预测股票收益率的过程中采用多元线性回归模型。

Y=β1Xi1+β2Xi2+β3Xi3+…+βjXij+ε

(1)

其中,Xi1,Xi2,…,Xij分别表示第i只股票的j个变量X1,X2,…,Xj的取值,β1,β2,…,βj分别表示模型中j个变量的系数,ε为随机误差项。被解释变量为股票收益率Y,股票收益率有单利和连续复利两种计算方式。假设某只股票在t时刻的价格为pt,则股票收益率在这两种方式下分别表示为(Pt-Pt-1)/Pt-1与ln(Pt/Pt-1)。由于本文度量的收益率实际上为年收益率,时间区间较长、价格变动较大,若采用单利方式度量股票收益率,因其不具备可加性的特点,会导致两种方式的计算结果差别很大,为保证实际收益率的科学性和合理性,本文采用连续复利收益率度量股票投资收益,即对数收益率。

三、数据选取与处理

(一)研究对象选取

本文以中国上证180指数成分股为研究对象,样本研究区间为2007年1月4日至2016年12月30日,共计10年的样本数据。在该样本研究区间内,基本包含了股票市场每年可能出现的全部行情趋势。根据上市公司每年公布的年度报告数据和上证180指数年度行情趋势,对上证180指数成分股在2007—2015年分别建立基于回归法的多因子量化选股模型,并按照价值投资的思想,通过逐年构建的量化选股模型对投资者的证券组合不断进行调整,以2007年年报为起点、2015年年报为终点,共历经9次调仓。本文数据来源于东方财富Choice数据库,数据分析软件和编程软件为SPSS和Python。

(二)变量选取

在模型构建过程中,解释变量的选取主要包括公司基本面指标、财务指标、技术指标以及其他指标。通过借鉴国内外学者关于多因子量化选股模型的研究,对研究对象的各指标数据进行研究归纳后,得到21个在股票市场中常用的重要指标(如表1所示),将其作为多因子量化选股模型的指标进行实证研究。

表1多因子量化选股模型中的指标

(三)数据标准化处理

(四)数据相关性分析

由于多因子量化选股模型选取的众多指标之间可能存在一定的相关性,若直接对这些数据进行建模分析,可能会造成量化选股模型的多重共线性。实证研究发现,多个变量指标之间存在较强的相关性,这与其指标的计算方式和所代表的经济含义有一定的关系。为了解决各指标数据的相关性问题,尽可能保留原始变量的信息,本文对选取的各指标数据进行主成分分析处理。

四、量化选股模型的构建与检验

利用上证180指数成分股在2007—2015年各指标数据,以股票收益率为因变量,以各指标数据标准化后的主成分因子得分系数为自变量,建立不同行情下基于回归法的多因子量化选股模型,并通过模型的实际投资效果对模型进行适应性检验,其具体研究过程如下:

(一)因子分析可行性检验

在进行模型构建前,利用SPSS软件对2007—2015年上证180指数成分股标准化后的各变量数据进行KMO检验和Bartlett检验,判断其是否适合做因子分析。以2007年数据为例KMO检验统计量为0.562,偏相关系数大于0.5,因子分析效果较好,且Bartlett检验对应的P值小于0.05,拒绝原假设,各解释变量之间存在相关关系,可以进行因子分析。

对数据进行因子分析,计算2007年上证180指数成分股标准化后各变量数据的主成分贡献率和累计贡献率。累计贡献率为77.414,共确定了9个主成分因子。

(二)量化模型构建

以股票收益率为因变量,以主成分因子F1、F2、F3、F4、F5、F6、F7、F8和F9的得分系数为自变量,建立基于回归法的多因子量化选股模型。在95%的置信度水平下,主成分因子F5、F6、F7、F8和F9的系数不显著,说明在2007年牛市行情中,与其他因子相比,资本结构指标、盈利能力指标、现金流量指标和营运能力等指标聚合形成的主成分因子对股票投资收益的影响有限。因此,决定剔除不显著因子,以股票收益率为因变量,对剩余的4个主成分因子重新建立多因子量化选股模型。在新模型中,主成分因子F1、F2、F3和F4的t统计量在95%的置信度水平下均显著,并且模型参数没有显著变化,R2为0.805,AIC值和BIC值下降。因此,以4个主成分因子对2007年上证180指数各成分股的收益率进行估计,模型的估计方程为:

Y=1.020+0.045F1+0.379F2+0.086F3+0.054F4

(2)

(三)模型适应性检验

将2007年各变量聚合形成的主成分因子得分系数代入式(2)中,计算各只股票收益率的估计值和增长潜力(股票收益率估计值与真实值的差值)。并对各只股票的增长潜力进行排序,筛选出排名靠前的前10只股票,构建2008年股票投资的证券组合。通过检验该投资组合在2008年1月2日至2008年12月31日的下跌趋势中是否相对稳定地跑赢上证180指数,以检验多因子量化选股模型的实际投资效果,其结果如表2所示。

表2证券组合在2008年的投资表现 单位:%

从表2可以看出,利用多因子量化选股模型筛选出的投资组合在2008年获得的平均复合收益率跑赢上证180指数基准年收益率,超额收益率为17.09%。因此,2007年构建的多因子量化选股模型通过模型适应性检验。对上证180指数成分股在2007—2015年标准化后的各变量数据重复上述多因子量化选股模型的建模过程,得到其在不同年份的量化选股模型,然后根据各年的多因子量化选股模型构建股票池,并结合2007年多因子量化选股模型的选股结果,得到股票池在2008—2016年的实际投资收益率,其结果如表3所示。

从表3可以看出,利用多因子量化选股模型进行数量化选股,筛选出具有增长潜力的股票构建股票池,能够使得整个投资组合在各年的平均复合收益率稳定地跑赢当年市场基准,累计超额收益率高达211.38%,说明通过量化选股模型挖掘具备增长潜力的股票是可行的,也是非常有效的。值得注意的是,跑赢市场基准并不总是给投资者带来正向收益,如股票池在2008年、2010年和2011年的实际投资收益率皆为负,但是投资组合在2008—2016年的实际累计收益率却高达247.18%,说明量化投资是一个长期的投资过程,投资者要想获得较高的超额收益,需要长期以往地投资下去,不要计较局部的得失。

表3股票池在2008—2016年实际投资收益 单位:%

五、量化择时策略的设计与回测

(一)量化择时策略理论基础

在单边做多的股票市场行情中,投资者的资产收益往往容易受到市场波动较大的影响。在非理性市场中,这种价格波动所带来的风险尤其难以规避。前文构建的基于回归法的多因子量化选股模型虽然采用积极型投资管理方式,能够在股票投资中稳定地跑赢市场基准,形成股票超额收益,但仍然无法规避股票市场波动较为频繁、价格回撤幅度较大等问题。因此,本文进一步设计出量化择时策略,以期控制投资者风险,帮助投资者保持相对稳定的投资回报。在股票市场中常用的量化择时策略有配对交易策略、动量交易策略、均线系统策略、通道突破策略、随机指标交易策略和OBV指标交易策略等。本文在均线系统交易策略、OBV指标交易策略和随机指标交易策略的基础上,建立多种交易策略互相配合的量化择时策略,用来降低证券投资组合的系统性风险,维持相对稳定的投资收益。

(二)量化择时策略指标计算

本文结合这三种择时策略的优缺点,建立以均线系统策略为主、随机指标交易策略为辅、OBV指标交易策略为参照的量化择时策略。具体构建过程如下:首先,通过均线系统策略,计算股票平均价格,并根据其短期移动平均线和长期移动平均线的黄金交叉点,对股票买入时机进行识别。其次,计算随机指标策略中的KDJ指标,主要参考KDJ指标中的J值,利用J值对市场上的超买现象进行判断,进而识别出股票卖出时机。最后,计算OBV指标,通过观察成交量的变化来对股票交易时机进行进一步的判断。

(三)量化择时交易规则

在股票交易时机识别过程中,为了减少人为因素的干扰,根据以下情况对量化择时策略制定相应的股票交易规则:

第一,对于均线系统策略判断出的买入时机,只有当移动能量潮曲线处于上升趋势,才能够进行股票交易。与此同时,为了控制投资者风险,对于股票价格处于震荡趋势的买入交易信号不予识别。

第二,股票买入时机和卖出时机重合,如果随机指标交易策略仅连续两个或三个交易日发出卖出信号,则保留仓位,对股票行情做进一步的观察。若是随机指标交易策略连续四个或四个以上的交易日发出卖出信号,则在第五个交易日进行清仓。

第三,买入时机和卖出时机不同,但仅相差一个或两个交易日。若买入时机在前,且随机指标交易策略仅连续两个交易日发出卖出信号,则保留仓位,否则进行平仓。若卖出时机在前,并在接下来的交易日随机指标交易策略连续发出卖出信号,则在第三个交易日进行平仓,否则保留仓位。

第四,买入时机和卖出时机不同,且差别很大,在随机指标策略发出卖出信号的第二个交易日进行清仓。

(四)量化择时策略模拟回测

对新设计的量化择时策略进行回测,将其应用到2007—2015年利用多因子量化选股模型筛选出的证券组合中,计算不同年份采用量化选股及择时策略股票池的投资收益,并与单独使用量化选股策略以及上证180指数基准年收益率进行对比,其结果如图1所示。

从图1可以看出,当股票市场行情整体表现较差时,使用量化选股及择时策略,获得的收益率能够稳定地跑赢上证180指数基准年收益率,并帮助投资者取得正向收益。而当股票市场行情整体表现较好时,使用量化选股及择时策略获得的收益低于单独使用量化选股模型获得的收益以及上证180指数基准年收益率。这一点并不难理解,当股票市场整体处于上升趋势时,使用量化择时策略在控制股票投资组合风险的同时,必然会损失一部分收益,致使整个投资组合的收益降低。但使用量化选股及择时策略可以帮助投资者在各年获得正向收益,并且从长期来看,其获得的累计收益率高于单独使用量化选股模型获得的收益率,并且远大于市场基准(量化选股及择时策略的累计收益率为248.63%,单独使用量化选股策略的累计收益率为247.18%,市场累计收益率为35.81%)。因此,在中国股市熊市多、牛市少的情形下,量化选股及择时策略在股票市场中具有非常广阔的应用前景。

图1 量化选股及择时策略的投资业绩比较

六、研究结论

通过对比逐年构建的多因子量化选股模型以及量化择时策略研究,本文得出以下主要结论:

第一,基于回归法的多因子量化选股模型和量化择时策略是可行的,也是非常有效的。基于多因子模型进行量化选股,可以充分挖掘上市公司的价值信息,筛选出具备增长潜力的股票。通过模型逐年构建的证券组合,在不同的股票市场行情中均稳定地跑赢市场基准,并且通过结合量化择时策略,可以帮助投资者在获得正向收益的同时取得较高的投资回报,投资者在2008—2016年通过量化选股及择时策略获得的累计收益率高达248.63%,由此可见,本文设计的多因子量化选股模型和择时策略在中国股票交易市场是可行的,也是非常有效的。

第二,在不同的股市行情中,影响股票收益率的变量以及变量之间的相关性也随之变化。通过对比2007—2015年逐年构建的多因子量化选股模型,可以发现多因子量化选股模型在各年最终保留的公共因子存在差异,说明股票市场行情不同,一些影响股票收益率的变量聚合形成的主成分因子对投资者的收益无显著影响。而且各年变量数据经过因子分析聚合形成的主成分因子个数也存在一定的差异,如2007年聚合形成9个公共因子,2008年聚合形成8个公共因子,而2011年聚合形成7个公共因子,说明股市行情不同,影响股票收益率的变量之间相关性也存在一定的差异。因此,试图通过股票多年的累计超额收益率或年化复合平均收益率,筛选出影响股票收益率的固定因子,是既不科学又不合理的,应根据不同的股票行情分别建立量化选股模型进行研究。

第三,量化选股与量化择时策略密不可分,投资者为了控制投资风险,获得相对稳定的正向收益,应当实施量化择时策略。虽然在股票行情较好时,量化择时策略在控制股票投资风险的同时,降低了投资者收益。但这一点并不难理解,降低风险的同时必然会损失一部分收益,致使证券组合的整体投资收益降低。如在2009年、2014年和2015年的股市行情中,投资者单独使用量化选股策略获得的年化复合平均收益率分别为130.47%、80.39%和65.12%,而使用量化选股及择时策略获得的年化复合平均收益率仅为67.66%、44.54%和46.97%。但量化择时策略在股票市场上仍然具有非常广阔的应用前景,其优越性主要体现在牛市很少、而熊市和震荡行情居多的股票市场中,量化择时策略在股票行情不好时,仍然可以保证较为稳定的正向收益。以2008年、2010年和2011年的股市行情为例,单独使用量化选股策略,投资组合在各年的年化复合平均收益率分别为-49.46%、-12.52%和-1.20%,而使用量化选股及择时策略,投资组合在各年的平均复合收益率分别为8.87%、15.24%和10.87%,量化择时策略使证券组合的整体投资收益由负变正,效果显著。

第四,量化选股及择时策略并不是万能的,仍然存在投资损失的可能性,投资者若想获得较高的超额收益,应当进行长期投资。如单独使用量化选股策略,投资者在2008年、2010年和2011年获得的投资收益虽然战胜市场基准,但整体投资收益皆为负,说明投资者在这三年的资产实际上遭受了损失。而通过结合量化择时策略,虽然成功地使投资组合在这三年的整体平均复合收益率由负变正,但在各年的投资组合中,仍然有部分股票的收益率为负值。如2008年投资组合中的山西汾酒、上港集团和小商品城,2010年投资组合中的隧道股份,2011年投资组合中的太平洋和中国石化,说明使用量化择时策略并不能完全规避投资者可能遭受的损失。但从长期来看,单独使用量化选股策略或量化选股与量化择时策略相结合,都能给投资者带来较高的超额收益,投资者在2008—2016年使用这两种策略获得的累计收益率分别为247.18%和248.63%,说明投资者在实际投资过程中若想获得较高的超额回报,不应局限于眼前的得失,应当按照量化选股模型及择时策略进行长期投资。

猜你喜欢
股票收益率因子
山药被称“长寿因子”
直径不超过2的无爪图的2—因子
巧解难题二则
2016年10月债券平均久期、凸性及到期收益率
2016年10月底中短期票据与央票收益率点差图
本周创出今年以来新高的股票
本周创出今年以来新高的股票
2016年9月底中短期票据与央票收益率点差图
2016年9月债券平均久期、凸性及到期收益率
本周连续上涨3天以上的股票