沈宇君
量化投资 多因子模型 夏普比率 年化收益率 IC值
引言
股票市场的诞生以来,人类对于股票市场波动逻辑的认识,一直是一个令所有投资者和研究人员所为之着迷的神秘领域。在世界上,出现了很多有名的投资大师,例如巴菲特,索罗斯,皮特林奇,威廉江恩等。这些投资大师依靠自己独特的对资本市场的认知以及人格魅力,取得了令世界瞩目的投资收益。其中,威廉江恩还将自己对投资市场的认识整理成让世界熟知的江恩理论,让股票技术分析闻名,并一直流传至今。但是,股票市场是一个极其神秘,无法很好预测出来的市场,虽然前人们总结整理了很多股票市场的经验以及知识,供后来人所参考。但是,在股票市场上,依然没有一个明确和能够获取超额收益的长期有效的理论观点。
量化投资的鼻祖一西蒙斯,一位世界顶级的数学家,便尝试通过自己对数学的理解,用数学和计算机程序来进行投资,这就是量化投资。量化投资,是当今世界最吸引人目光的一个行业。当年,西蒙斯用数学模型和程序创造了举世瞩目的股票投资收益,由西蒙斯运作的大奖章基金在1989年2009年的这二十年期间,平均年化收益率达到了35%,如果把基金所抽取的44%的收益提成,那么,西蒙斯的基金实际年化收益率达到了60%,比同期标普500指数平均回报率高出了20%以上,而对于传统的投资大师巴菲特和索罗斯,也是领先了十~LA'-百分点,一举超越了依靠传统的投资大师所创造的收益。在2008年这一年的爆发的由次贷危机所引起的全球经济危机中,西蒙斯的基金投资回报率依旧能够稳稳保持在80%左右,这是何其惊人的水准。随着西蒙斯的大奖章基金获得成功,以及计算机和大数据的发展,再加上股票数据的不断积累,已经让整个世界的目光都投向了量化投资的这个领域,特别是中国的A股市场。从09年开始,中国A股市场上开始出现量化投资的身影了,中国各类的量化基金像雨后春笋那样不断发展,因此研究可行的具有稳定收益的量化策略是现在最迫切的要求。
量化投资与量化策略
(1)量化投资
从上述我们提及到,量化投资是利用数学以及计算机程序来自主完成投资行为的。量化投资可分为量化选股,量化择时,股指期货统计套利,商品期货统计套利,期权套利,算法交易等等。量化投资说白了就是利用是数学或统计学找出投资标的相关的统计特点,并以此特点来进行交易,这样,计算机就能够按照所设定的特点自动交易。因此,量化投资具有高效组建有效的投资策略,并能够克服人性弱点一贪婪和恐惧,严格按照买卖纪律来执行,从而获取超额收益。特别在高频交易中,只要成功率超过50%以上,那么交易的次数多了,获胜的概率是达到100%的。
(2)多因子选股模型
在低频量化策略当中,量化选股是最常用的策略。而多因子选股模型则是更为常见的策略。多因子模型是量化选股中最重要的模型,它的基础思想是找出和股票收益最相关的指标,并根据这些指标选出符合这些指标要求的股票,从而构建出一个股票组合,期望这个股票组合能够跑赢或者跑输指数。如果跑赢指数,则我们做多这个股票组合,做空股指期货。反之,我们做空这个股票组合,做多股指期货,从而获取阿尔法收益。多因子选股模型的核心是选择合适的因子。选取出合适的因子之后,我们将根据因子的表现进行综合分析并以此作为判断。在多因子选股模型中一般有两种选取因子的方法一打分法和回归法。
打分法是根据各个因子的数值对相应的股票进行打分,然后按照一定的权重加权得到该股票的总分,然后通过总分对股票进行筛选以及权重的赋值。第二个是回归法,因为在股票市场上,我们可以知道股票的价格是对信息的反映,也就是说明,我们可以清楚知道,股票的收益是可以解释的,因此,我们用过去的股票收益率对多因子进行回归,得出相关的回归方程及数值后,再将新的因子值代入回归方程中得出预期的股票收益率,并以此收益率作为配置股票的权重,然后组合成量化策略。
在多因子选股的建立过程中,我们可以分为5个步骤,候选因子的选取,选股因子的有效性检验、有效但冗余因子的剔除,综合评分的建立和模型的评价及持续改进。候选因子的选择主要依赖于经济和市场逻辑,特别是在A股市场。而选股因子的有效性检验则是一般采用排序方法检验。有时候这些因子都是有效的,但是因为可能内在驱动因素大致相等,因此,我们将这些因子剔除,只保留同类因子中收益最好最容易区分的因子。这样能够提高计算机运行的效率,让更快的交易动作争取更多的超额收益。
通常,股票市场上分为了9类因子,包括规模因子,估值因子,成长因子,盈利因子,动量反转因子,交投因子,波动率因子,分析师预测因子等等。规模因子包括:总市值,流通市值,自由流通市值。估值类因子包括:市盈率,市净率,市销率,成长类因子包括,营业收入同比增长率,营业利润同比增长率,归属于母公司的净利润同比增长率、经营活动产生的现金流金额的同比增长率。盈利因子包括:净资产收益率,总资产收益率动量反转因子包括:前一个月涨跌幅,前2个月涨跌幅、前三个月涨跌幅、前6个月涨跌幅。交投因子包括:前一个月日均换手率。波动因子包括:前一个月的波动率,前一个月的振幅。股东因子包括:户均持股比例、户均持股比例变化、机构持股比例变化。分析师预测因子包括:预测当年净利润增长率、主营业务收入增长率。
(3)Ic值与IR值
Information Coefficient,即因子Ic值,指的是该期因子对股票的下期收益的预测值和股票下期的实际回报值在横截面上的相关系数,即:
因子的IR(信息比)值为因子IC的均值和因子IC的标准差的比值,假设有M个因子,其Ic的均值向量为
协方差矩阵为:∑,如果各因子权重向量为
2.4夏普比率
夏普比率是基金績效评价的标准化指标,现代投资理论的研究表明,风险的大小在决定组合的表现上具有基础性的作用。夏普比率就是一个可以同时对收益与风险加以综合考虑的三大经典指标之一。夏普比率的公式为:
其中,E(Rp)为投资组合预期报酬率,Rf为无风险利率,σp是投资组合的标准差。这公式代表着投资组合每承受一单位总风险,会产生多少的超额报酬。若夏普比率为正值,则代表基金报酬率高过波动风险;若为负值,代表基金操作风险打过预期报酬率。因此夏普比率越高,说明投资组合越佳。
基于IC_IR值得多因子选股模型实证研究
在一段时间内,虽然因子的有效性能够让策略有着较好的收益,但是考虑到因子可能具有轮动性,因此使用IC IR值来对因子打分并赋值,在特定的时期选择分值高的因子进行选股有着较为积极的意义。
因此,根据IC_IR值的定义和公式,同时考虑到A股市场上有着大小盘的风格轮动,我进行了多因子选股策略的建立:
首先,我单独对因子进行回测,发现市净率(PB),市销率(PS)、市现率(PCF)、营业收入增长率,市值,收入增长率,63日动量反转因子,21日动量反转因子,有着较好的表现,因此我选择这些因子作为有效因子。并用历史数据进行IC值和IR值的计算,得出因子分值。然后,我选出中证500作为基准,并且,当中证500的5日移动平均线或者10日移动平均线小于-0.03时,说明大盘指数跑输指数,应当换为中小市值股票,并利用市值因子的倒数以及21日动量反转因子来选取股票。反之,说明大盘股表现比小盘股好,因此则利用市现率的倒数,市销率的倒数,市净率的倒数,营业收入增长率,收入增长率和63日动量反转因子来选取股票。同时,我们剔除刚上市不满一年的股票以及ST股,组成合适的量化股票策略。
基于以上步骤,我们构建出的基于IC_IR值的量化选股模型并在优矿平台进行了相应的回测。策略构建出来后,我们可以得出,年化收益为9.1%,夏普比率为0.32,最大回撤为9.4%。以下为2016年6月以来策略的每个月收益和用沪深300指数收益作为基准的每月收益对比。(数据来源:通联数据)
結合以上理论构建出来的基于IC_IR值的量化策略模型虽然策略收益没能够很好跑赢大市,可能是由于因子具有衰减的性质,比如,在2015年小市值的股票大幅跑赢大市值的股票,但是在2016年6月后却跑输大市值因子,因此,导致这个多因子模型不能很好地跑赢大市,所以,接下来的研究是研究如加入能够测算因子有效性的代码,尝试提高此模型的收益,但在已经这段时间已经能够较为紧紧跟随大市的走势,所以基于IC_IR值构建的多因子量化模型具有一定的可行性。