田凯 刘永睿
摘要:创业板成立以来,以其较高的成长性,吸引了广大投资者,然而带来的是风险逐渐增加,例如欣泰电气成为创业板第一退市股,给投资者敲响了警钟。面对风险逐渐增大,投资者对于量化投资的选择尤为重要。针对创业板,为此,采用logistic模型量化选股,所提出的选股模型不仅能够有效的提高股票组合的超额收益率,也能良好地规避投资者的风险。
关键词:logistic模型;量化选股;回测分析;创业板
中图分类号:F83
文献标识码:A
doi:10.19311/j.cnki.16723198.2017.01.044
1引言
欣泰电气于2016年9月6日宣布暂停上市,成为了创业板第一退市股,把创业板推到了风口浪尖上。创业板又称为第二股票交易市场,是专为暂时不满足在主板上市条件的中小企业、创业型和高科技型企业等提供融资途径的证券交易市场,是对主板的补充。创业板的特点是相对于主板来说,要求门槛不高,为了给予具有潜力的中小企业融资的机会。因为门槛低的特点,在2015年逯东等研究导致频频出现公司在创业板上市之后业绩变脸的原因。在2012年张显峰提出了创业板面临的一些问题以及相关解决方法,例如上市公司的创业概念不是很足和资金不明等,相应的解决办法有,上市企业规范筛选和完善信息披露制度。然而对于投资者来说,这些都是潜在的风险。虽然创业板存在潜在的风险,但由于其具有较强的成长性,得到了广大投资者的热捧。创业板于2009年10月正式上市以来,到目前为止,已经有534家公司在创业板上市,约占全部A股的18.3%。
在國内,相比创业板的热度,量化投资同样也越来越被接受。量化投资在国外已经发展了40年,已经是很成熟的阶段,表现最突出的,莫过于被誉为“量化投资之王”的詹姆斯·西蒙斯(James Simons),其成立的有史以来最成功的对冲基金——大奖章基金,收益率高达34%,远远超过“股神”沃伦·巴菲特(Warren Buffett)等。但相对于A股,量化投资处于起步的阶段,采用量化投资技术的投资者,相比于投资者这个整体来说,还是一个非常小的集体,对量化投资者来说是个非常好的机会。于是2011年王冰和李想分别从量化投资的含义、量化投资的特点、量化投资的局限性和量化投资在中国这四个方面总结了量化投资的基本轮廓,以及在中国的发展。量化投资是一个非常完整的体系,包括量化选股、风险控制和量化择时等。
量化选股是量化投资的一个非常重要的部分。近代国内外研究学者提出的量化选股策略不胜枚举,如支持向量机、人工智能、数据挖掘等。目前在国际上比较主流的量化选股模型是多因子选股模型,即在相信历史会重现的基础上,通过寻找这些有用的因子,来寻找投资的机会,这些因子包括公司的财务数据和技术指标,如市盈率、市净率、股息、总市值、MACD、KDJ和动量反转指标等。2005年林松立和唐旭通过“追涨杀跌”的策略,来实证分析中国股市动量策略和反动量策略的投资绩效分析,发现在中国股市中长期反动量策略表现出色。2010年戴军基于沪深300指数为基准,通过logistic模型在沪深300成分股中选股,来实证分析所选取股票的预期收益。2013年孙守坤基于沪深300标的股票作为股票池,并通过Alpha投资策略、多因子和行业轮动模型进行选股分析,提供了获得稳定的Alpha收益的方法。
Logistic模型是广义线性模型的一个特例。在1919年,著名的统计学家Fisher就首先对广义线性模型进行了研究,提出了Logistic模型,近百年的发展,模型更加丰富。1986年McCullagh和Nelder在其专著中进行了详细的介绍了广义线性模型,从而在这领域的研究工作工作逐渐丰富起来。2015年廖福挺(Tim Futing Liao)通过研究解释概率模型,整理了关于二分类Logistic模型、次序Logistic模型和多分类Logistic模型等之间的关系以及各自的特点。Logistic模型应用也十分广泛,包括医学、信用评价和金融等方面。2014年阮承兰通过Logistic模型研究了对肝衰竭预后的因素分类,分类出保护因素和危险因素,对肝衰竭预后的判断具有参考价值。2004年于立勇采用Logistic模型分析来预测违约概率,通过实证分析,该模型为理想的预测工具。
由于目前选股模型,都是选取能够跑赢基准的股票概率,以及获取的超额收益,而Logistic模型是处理这些定量问题非常好的方法。本文将通过Logistic模型在创业板指数成分股中选择符合条件股票,并以创业板指数为基准,结合数据的回测,来实证分析模型预期超额收益。
2模型分析
2.1模型的建立
在多元回归模型中因变量为一个离散的变量,使用Y=0或者Y=1表示的二分变量,这时就不能用一般的线性回归模型了,可以采用Logistic模型。
一般的广义线性模型公式为
g(E(Y))=η=∑Kk=1βkxk+β0(1)
其中E(Y)为响应变量Y的期望,g是单调函数,称为关系函数(link),βk为自变量xk的系数,β0为常数项。
由于随机成分服从二点分布,即y=0或者y=1的二分变量,此时y=1的条件概率为
E(y)=μ=P(y=1x1,x2,x3…xK)(2)
Logistic回归模型的关系函数为:
η=log[μ/(1-μ)](3)
将式(2)和式(3)代入到式(1)中,可以求得y=1和y=0的条件概率分别为:
假设y=1为事情发生,通过上式可以算出事件发生概率。
μ=P(y=1x1,x2,x3…xK)=e∑Kk=1βkxk+β01+e∑Kk=1βkxk+β0
P(y=0x1,x2,x3…xK)=11+e∑Kk=1βkxk+β0
2.2变量确定
本文基于创业板指数成分股选择适合的股票。由于创业板成分股在变化,我们选取2016年最新的成份股作为选股对象,以创业板指数为基准,研究个股的收益超过指数收益的概率,并筛选出概率排名前五的10只股票组合。最后采用日级别数据进行回测分析。
我们令个股的收益与指数收益的大小作为响应变量。设个股每日的收益为Rit(其中i为第i只个股,t为时间),令Rt为指数的收益率。如果个股当日收益率大于指数收益率,即:Rit>Rt,此时令y=1。反之,如果个股收益小于指数收益率时,令y=0。此时就构造出响应变量y=0或者y=1的二分问题,这时我们就可以用到Logistic回归模型进行分类选股。
对于自变量的选择,影响选股模型的因子众多,在此本文从影响个股上选取3个典型的因子,分别是:日内均价,换手率(动态),市盈率。日内均价和换手率为技术面因子,市盈率为基本面因子,这三个因子在模型的回归分析中都是显著的。
从图2和表3结果可以得到如下结论:由于回测开始时间2015年7月,此时牛市刚过去,市场不活跃,所以基准年化收益率为-20.7%,但是模型选取的股票组合年化收益为16.0%,超额的年化收益率为36.7%,相比之下,效果明显。β是由资本资产定价模型(CAPM模型)推导出,表示特定资产(或资产组合)的系统风险度量。此时β为0.97,非常接近1,说明该股票组合的波动接近基准的波动,这点是因为选股模型本身是基于创业板成分股所选择的,符合常理。α是超额收益和期望收益的差值,也表示超越比较基准的能力。此时α为36.0%,说明该股票组合有较强的超额收益的能力。由上面的实证分析表明,对于创业板的选股,Logistic模型是有效的。
4总结
本文以创业板指数为基准,以其成分股为对象,对于采用logistics模型进行定量选股,筛选出最优股票组合,再利用等权买入回测分析,得到了股票组合跑赢基准超额年化收益为36.7%,实证分析表明Logistic模型对创业板的选股是有一定效果。模型分析相比文献,本文具有补充性和实用性,由沪深300成分股基本是属于大盘股,而创业板指数成分股,属于成长性,中小盘股居多,更具有投资价值。
本文也存在一些不足,由于影响股市的因子众多,本文只研究了三个因子,因子选择不够全面,不能表现出全部的实际情况,对选股模型的结果,有一定影响。对于选股模型来说,回测时间也会影响模型选股的效果。这些问题在以后的研究工作中加以适当改进。
参考文献
[1]逯东,万丽梅,杨丹.创业板公司上市后为何业绩变脸?[J].经济研究,2015,(2):132144.
[2]张显峰.基于成长性和创新能力的中国创业板上市公司价值评估研究[D].长春:吉林大学,2012.
[3]王冰,李想.浅议量化投资在国内市场的发展[J].经济视角:下,2011,(3):4647.
[4]林松立,唐旭.中国股市动量策略和反向策略投资绩效之实证研究[J].财经科学,2005,2005(1):8187.
[5]戴军.Logistic选股模型及其在沪深300中的实证.国信证券证券研究报告[R].201097.
[6]孙守坤.基于沪深300的量化选股模型实证分析——多因子模型与行业轮动模型的综合运用[D].上海:复旦大学,2013.
[7]McCullaghP,Nelder J A.Generalized linear models[M].2ed.London:Chapman and Hall,1989.
[8][美]廖福挺.解释概率模型[M].上海:格致(原汉大)出版社,2015.
[9]阮承蘭,张骏飞,宋海燕等.肝衰竭预后影响因素的Logistic回归分析[J].中华疾病控制杂志,2014,18(6):537540.
[10]于立勇,詹捷辉.基于Logistic回归分析的违约概率预测研究[J].财经研究,2004,30(9):1523.