基于量化分析的股票投资策略

2020-11-18 07:43:28张清洁钱魏冬

河北北方学院学报(自然科学版) 2020年11期

张清洁，钱魏冬

(亳州学院经济与管理系，安徽亳州 236800)

0 引言

中国金融市场经过了近三十年的发展，股票市场早已成为国民经济重要组成部分，国内股票市场逐渐成熟，投资技术不断更新，投资者的投资思想也在不断进步。国内股票市场主要受国家政策影响，容易受到非市场因素的影响，同发达国家成熟的股票市场相比，国内市场存在着很大的波动性和不可预测性。上海证券交易指数首次在1990年开始对外公布，其编制机构为上海证券交易所。上证指数的计算范围为在上海证券交易所进行交易的全部股票，但是新挂牌交易的股票在第二天才划入计算范围。上证股票指数就成了股本持有较多的大股东对股市实施影响的手段，使上证指数的运行趋势与股票的走势相背离。

由日常的交易可以看出，市场中所发布的上证指数的变化趋势与市场的行情是基本同步的，所以，它也被中国股民及金融机构看作股价变动趋势的重要参考依据。上证指数反应了国内股票市场的实时走向，也在一定程度上反映了国内金融市场变化趋势。对于上证指数的实证研究，不仅可以为市场投资者、机构投资者和金融监管机构提供理论参考，而且可以对中国宏观经济运行走势进行更加精确的预测。众所周知，股票市场一直被看作中国经济的晴雨表，因此对股票市场的研究也具有理论和现实价值。尤其是在中国经济高速发展的黄金阶段，对于股票市场的研究就显得尤为重要。在中国金融市场中，投资者偏好于使用上证指数对股票价格的走势进行预测，因此对于金融市场中的投资者而言，上证指数的预测对降低其投资风险、提高投资收益具有很大帮助。对上证指数进行精确预测，在一定程度上也就是对在上交所交易的股票价格进行预测，对市场投资者和政府机构都具有很好的参考作用。本文拟通过指数平滑预测法对上证指数收盘价的趋势和波动进行预测，以期对投资股票的个人和机构提供参考，给管理部门科学决策提供依据。

罗伟通过引入多种经济变量，对经济变量之间的相关性进行分析。采用神经网络法，构建出时间序列股指预测模型。从关联性的角度考虑，采用改进后的ARIMA法，构建出组合型的股指预测法。通过研究发现，该算法能够在很大程度上提高模型的精度[1]。邵明智采用GARCH族模型对股票市场的波动性进行研究。股票市场的波动性对市场中投资者的投资行为具有非常大的影响。股票市场的影响因素有很多种，包括政府财政政策、经济周期和金融危机。该研究结论对于投资者的风险规避和投资收益具有重要的参考作用[2]。曾静文对德国股市的变动特征进行了实证分析。研究发现德国股市中的价格指数表现出平稳和自相关的特点。文中采用ARCH检验对残差进行分析，发现残差具有ARCH效应。文章最后对股票指数建立GARCH模型对股票指数进行预测，研究发现该模型对德国股市的股票指数预测效果较好[3]。黄宏运建立以股票历史信息为输入值，每日开盘价为输出值的预测模型对上证指数进行研究，研究得出以下结论，改进后的BP网络对上证指数的预测在预测速度和预测精度上都有很大提高[4]。蒋辉、徐桂烽采用BP神经网络与灰色残差模型对上证指数和道琼斯指数的动态变化特征进行研究，并且采用线性回归法对灰色残差模型和BP神经网络的预测结果进行拟合，通过研究发现该动态预测模型的拟合精度较高[5]。孙彬引入V-SVR对上证指数进行预测分析，并对投资的时间选择进行研究[6]。孟坤、李丽通过构建ARMA模型对上海证券交易价格指数进行实证研究[7]。常秀芳、李高从需求与供给等角度对股票的价格走势进行研究，并建立了相应的理论模型[8]。

综上所述，国内对股市价格指数的研究主要采用定量分析法，但是分析及预测的精确度较低。因此，本文采用3种拟合精度较高的研究方法对股市价格指数进行预测，以期对股价指数进行精准的预测。

1 相关概念及理论基础

本文实证部分采用的研究方法包括时间序列分析和指数平滑预测法，本节将对指数平滑预测法理论进行介绍。

1.1 指数平滑法

上证指数为一种时间序列数据，时间序列的数值随着时间的变化而发生波动，且具有离散和无规律的特点[9-11]。时间序列的特点也就使得该序列难以用线性函数的形式进行表示。指数平滑法平滑的理论认为时间序列具有一定的稳定性和规律性，因此本文采用指数平滑法对上证指数进行预测。一次指数平滑预测法是指取α(1-α)i作为权重其中0<α<1(i=1,2,3,4…)，对时间序列数据yt实施加权预测的一种方法。将α设为yt的权数，将α(1-α)设为yt-1的权数，将α(1-α)2设为yt-2的权数，并依此类推，得到预测函数式

(1)

α为模型的平滑系数，且0<α<1。

采用一次指数平滑法计算的预测值和实际值之间的误差用如下函数表示

(2)

预测结果的标准误差等于

(3)

上式中，n表示原始数据所包含的样本个数。

在一次指数平滑预测法的基础上对时间序列再做一次预测便是二次指数平滑法。第t+1期预测值需要采用以下函数进行计算

(4)

(5)

(6)

(7)

(8)

对于时间序列的末期数值，可以按以下函数求解模型的系数值

(9)

(10)

(11)

预测模型采用如下函数表示

(12)

上式中的T为从时刻t起预测的时期数。

1.2 RBF神经网络多指数预测法

一般而言，所有的函数都可以看成一组基函数的加权之和，而RBF神经网络则将网络看成是对未知函数的逼近器。相当于用隐藏层单元的输出函数构成一组基函数来逼近目标函数；RBF网络中以输入层到隐藏层的基函数的输出是一种非线性映射，而输出则是线性的。RBF在数据预测方面表现出极好的应用优势。通过选取多指标来构建神经网络的输入层，具体的多指标有ACD开降线指标、ADX动向平均数指标、BBI多空指数、CHO佳庆指标、CYE市场趋势指标、DD方向标准离差指数、DFM平均线差、DMI趋向指标、EMM简易波动指标、GDX鬼道线指标和JLHB绝路航标等。

BP神经网络是种常用的神经网络，采用反向传播的方式，进行数据的训练仿真，由输入层、隐藏层和输出层构成。BP神经网络对输入的信息具有自我学习的功能，通过调整适当的属值和权值，得到最佳的输出结果。RBF网络与BP网络非常相似，RBF、BP神经网络的区别主要在于各自使用了不同的作用函数来表示。比如说BP网络Sigmoid在其隐藏层中使用。

1.3 马尔科夫链预测法

马尔科夫链广泛地应用在经济学、人口排队论等问题建模中。本文通过上证指数的上涨和下跌，来预测未来几天或者数月上证指数的上涨和下跌状态值。

马尔可夫链模型直观地统计某几个状态出现的频数，进而判断时刻点出现某状态的概率。马尔可夫链模型状态数由用户自己设定，较为常用的有5种状态，如快速上升、缓慢上升、相对不变、缓慢下降、快速下降，也可以设为3种状态，如上升、相对不变、下降(较多的经济学问题都按照这个划分)。这个思想和模糊数学的思想相一致。针对快速上升、缓慢上升、相对不变、缓慢下降、快速下降这5个状态，多大的增长幅度才算是快速上升，多大的下降幅度才算是快速下降呢?这2个数值由用户自己设定，较为常用的增长率有1%、3%、5%等数值。本文考虑上证指数的增长幅度问题，采用1%上证指数增长率作为衡量标准。

马尔可夫链模型广泛地应用于长时间地波动数据行业中，例如，某个食品的价格、某个公司员工上下班时间趋势、CPI指数、上证指数、个股价格等。马尔可夫链模型因其自身数据的统计特性，在预测行业起到举足轻重的作用。

1.4 支持向量机(SVM)的涨跌预测法

支持向量机(SVM)算法是根据数据内存属性，通过构造超平面，将数据进行划分，然后应用于分类和回归模型。SVM算法解决了传统算法不能解决的非线性、离散等问题，将复杂的大数据映射到高维空间，进而实现问题的高效求解，广泛应用于各行各业数据分析中。本文主要围绕SVM算法进行股票的上涨、下跌分析。

2 对上证指数的实证分析

2.1 数据的描述性统计

2.1.1 数据选取

上海证券交易指数首次在1990年开始对外公布，其编制机构为上海证券交易所。上海证券交易指数简称为“上证指数”，其代码为：000001。上证指数的权重等于所有上市交易公司的所有股本，因此上证指数的走势在一定程度上反应了中国股票市场的实时变动走势，也在一定程度上反映中国金融市场的变动趋势。为了能够为投资者提供股市实时的变动趋势，股市市场中的价格指数会随着股价进行实时公布。实证部分采用的数据为2007年1月1日至2018年12月31日的上海证券交易指数，数据来自于万德数据库。

2.1.2 单位根检验

本文采用的平稳性检验的第一种方法是由序列的变动图进行分析，第二种是ADF检验法。第一种方法能够更加直观体现出序列的变动趋势，但是对于平稳性的检验存在主观性。因此最好的检验方法还是基于ADF的条件检验法。在实际研究分析中，采用最多的方法为单位根检验。本文实证部分首先采用时序图的方法对序列模型的平稳性进行初步的判断(图1)，然后采用ADF检验对上证指数的平稳性进行统计检验。

图1 上证指数时序

图1中横坐标为时间的变动，纵坐标为上证指数的数值。为了更加准确的检验上证指数的平稳性，接下来将对上证指数进行ADF检验，检验结果见表1。

由表1看出，上证指数的ADF值等于-2.148 012，所以ADF值要大于置信水平5%时的标准值，因此上证指数为非平稳数据。为了对上证指数进一步进行研究，需要对上证指数实行差分处理，对经过差分处理后的上证指数再一次进行ADF检验，检验结果见表2。

表1 ADF检验结果

由表2可以看出，因为ADF的值为-23.742，小于置信水平1%、5%和10%的3个水平条件下的值。所以，经过一阶差分处理后的上证指数序列为平稳序列，该序列不存在单位根。

2.2 指数平滑法

本小节将选取一次指数平滑法、二次指数平滑法和三次指数平滑法分别对上证指数实施预测分析，并将每种指数预测法的函数均赋予3种不同的α值0.1、0.3和0.9。不仅对3种指数平滑法的预测效果进行对比分析，并且也分析了每种指数预测法的函数在取不同α值时的预测效果。

上述3种指数平滑预测法的实证分析均通过MATLAB编程实现，预测的结果整理汇总之后，得表3。

表3 预测结果汇总

表3中下一期预测值指通过指数平滑法得到2018年6月25日的上证指数预测值，该日上证指数的实际值为2 859.34。绝对误差值为2007年1月1日到2018年6月22日期间的预测值与实际值的绝对误差和。由表3可以看出，在一次指数平滑法和二次指数平滑法下，绝对误差和的值总体上随着α的增加而减少，当α取0.9时，预测的误差和最小，仅为5.64。在三次指数平滑法下，可能是由于过拟合现象的存在，导致预测误差增大。综合考虑之后发现采用二次平滑法，并将α取0.9时，预测的效果更好。从表3还看出，在一次指数平滑法和二次指数平滑法下，相同α值的条件下，预测值均比较接近。二次指数平滑法下，对2018年6月25日的预测误差仅为1.06%。因为二次指数平滑法预测效果较好，因此，做出二次指数平滑法下，预测误差的时序图如图2所示。

图2 预测误差时序

由图2可以看出，与α取0.1和0.3相比，当α取0.9时，误差值较集中，说明预测的误差值较收敛。由此知，残差序列的振幅是变化的，这个变化清楚地表明了集聚效应的产生，从中能够依据振幅的大小将其数据分割为4段。第一段波动显示出由小到大，又由大到小的特征。第二段一直表现出误差较小的特征。第三点和第一段比较相似，也是表现出由小到大，又由大到小的特征。第四段和第二段较相似，误差比较小。接下来的部分将对残差序列进行ARCH检验。检验结果见表4。

表4 误差序列的ARCH-LM检验

由表4可知，F统计量的值己经变为0.515 731，与此相对应的P值是0.472 7;Obs*R-squared统计量的值变成0.516 006，与此相对应的P值是0.472 6。因此，通过ARCH检验发现，基于指数平滑法所得的预测残差值不存在ARCH效应。

为了更加直观地反映预测效果，做出上证指数的实际值和预测值走势图(由于原始数据时间跨度过大，局部的拟合效果不能得到很好的展现，因此选取交易所的最后50个上证指数进行制图，时间跨度为2018年4月11日至2018年6月22日)(图3)。

图3 预测误差时序

由上证指数的实际值和预测值走势图可以看出，在α取0.9时，二次指数平滑法拟合出的上证指数的预测值与其实际值的走势基本吻合。这说明二次指数平滑法对上证指数的预测效果非常显著。

投资要想找到对每个市场都适用的方法是不可能的。在投资时，有很多外在影响因素对投资产生影响。比如，投资人的性格特点、文化背景、对市场的认知判断、市场所属的经济环境、政治环境等。

2.3 RBF神经网络多指标预测法

基于趋势指标，作为神经网络的输入，输出为上证指数的上涨、下跌和平衡状态，以及输入为32个，输出为1个，用于预测上证指数的上涨、下跌状态，上证指数上涨为-1，下跌为1。利用MATLAB进行实证研究，预测的均方根误差等于2.01437e-21。通过运行程序得到未来一天的预测值等于1，未来一天上涨的可能性更大。即2019年1月2日上证指数上涨的可能性更大，投资者可在2018年12月28日逢低买入，待2019年1月2日上涨后卖出。通过实证研究可以发现，预测误差随着预测的时间步长逐渐增大。对于短期预测，也就是预测未来一天，预测结果是较为理想的。预测第一个值下跌，实际值也下跌，RBF的趋势指标预测是短期预测有效的。

2.4 马尔科夫链上证指数预测

采用马尔科夫链法对上涨指数进行预测分析。采用趋势指标作为神经网络的输入，输出为上证指数的上涨、下跌和平衡状态，输入为32个，输出为1个，用于预测上证指数的上涨、下跌两种状态。预测结果如下

由于2019年1月2日的上证指数的增长状态为E2，即缓慢增长，而经由一次转移到达5种状态的概率分别为0.1926、0.2976、0、0.3147、0.1697，且相互之间相差较大，一般认为谁最大谁就最靠谱，因此未来一天增长率为缓慢下降。考虑到其波动性和随机性，缓慢增长是很有可能的。对未来7天的趋势进行预测，结果如下

Ei(1)=Ei(0)E=[0.2497 0.3264 0 0.3369 0.1824]

Ei(2)=Ei(1)E=[0.2037 0.3219 0.0003 0.2917 0.2167]

Ei(3)=Ei(2)E=[0.2294 0.3097 0.0003 0.2698 0.1964]

Ei(4)=Ei(3)E=[0.2283 0.3097 0.0003 0.2785 0.1963]

Ei(5)=Ei(4)E=[0.2295 0.3101 0.0003 0.2785 0.1964]

Ei(6)=Ei(5)E=[0.2279 0.3089 0.0003 0.2785 0.1964]

Ei(7)=Ei(6)E=[0.2283 0.3098 0.0003 0.2785 0.1941]

对每一个状态向量，均取其中最大的那个概率值。通过以上实证分析可以得出以下结论：未来7天的上证指数上涨的概率与下降的概率非常接近，因此股市变盘的可能性较大。

3 结论与政策建议

通过实证研究可以得到以下结论。(1)上证指数为非平稳序列，经过差分处理之后的上证指数为平稳序列。(2)一次指数平滑法和二次指数平滑法下，绝对误差和的值总体上随着α的增加而减少，取0.9时，预测的误差和最小。在三次指数平滑法下，可能是由于过拟合现象的存在，导致预测误差增大。综合考虑之后发现采用二次平滑法预测的效果要优于一次及三次指数平滑法。(3)对二次指数平滑法预测所得的误差序列进行单位根检验，发现该序列为平稳序列，具有均值回复的特征。ARCH-LM检验显示基于二次指数平滑法得到的误差序列不存在ARCH效应。(4)由上证指数的实际值和预测值走势图可以看出，取0.9时，二次指数平滑法拟合出的上证指数的预测值与其实际值的走势基本吻合。(5)RBF神经网络预测法、马尔科夫链预测法对于上证指数的预测较理想。

国内股市起步较晚，发展还不够完善，因此在构建模型时还应该把国内的政治、社会文化因素引入其中才能使模型的拟合效果更加显著。通过对2007年1月至2018年12月的收盘价实证分析可以得出，指数平滑法对于上证指数走势的拟合效果比较理想，可以为投资者的投资收益与风险规避提供参考。投资者可以采用上述几种模型对上证指数进行预测，根据上证指数的走势进行股票交易，逢低买进，待到上涨时卖出。