徐幼恩,罗 扬
(南华大学 计算机学院,湖南 衡阳 421001)
随着互联网在金融行业中的不断发展,股票市场产生了海量的网络数据,且由于股市容易受到多种因素的影响,人们很难从这些存储的海量数据中得出准确而有效的结论[1]。对股票市场进行科学有效的“智能”预测,对于交易监管机构来说,能为他们对金融市场的把控提供更多基本信息,对于投资者来说,能为他们进行长线投资和规避股市风险提供重要依据[2]。
在已有的股票预测研究中,多数研究者只采用一个固定的模型进行预测分析。但对于非线性且存在复杂噪声的股票价格数据,一个固定模型只能捕捉到其中某一方面的信息,而忽略了其他关键信息,致使单一模型无法取得较好的预测结果[3]。组合预测模型是近年逐渐开始应用到股票预测中的,学者们运用各种组合模型预测方法,发现组合预测模型可以充分利用数据样本的特征信息,与单一模型相比能够更加综合、准确地反映股市运行规律[4]。因此,汇总分类这些组合预测方法对进一步的研究具有积极意义。
在实际的股票预测研究中少不了对历史数据的分析。为了提高分析的准确性,人们利用固定的数学公式设计了许多创造性的辅助走势指标。技术指标就是指通过不同的数学公式对原始交易数据(开盘价、收盘价、最高价、最低价、成交量、成交额等)进行计算后的集合。将这些指标的计算结果制成图表可以直观地反映股票市场不同方面的内在信息,从而有利于判断和预测股市的行情与趋势。常用的一些技术指标有平滑异同移动平均线MACD、相对强弱数指标RSI、能量潮指标OBV、腾落指标ADL、移动平均线MA、趋向指标DMI、随机指标KDJ、买卖气势强弱指标OBOS、威廉指标分析WR等。
现有大多数股价预测研究[5-7]在模型输入指标选择及模型预测效果检验方面均采用的是技术分析指标,而未考虑影响股价波动因素还来自基本面分析指标。研究影响股票价格的核心基本面指标需要将企业外部和内部环境相结合。通过阅读发现,基本面指标主要分为宏观因素分析指标、行业因素分析指标和公司因素分析指标[8]。
宏观因素分析指标要求从宏观角度考察企业面临的外部环境,包括公司所处行业的经济政策、法律制度、发展状况等。行业因素一般包括上市公司所处行业在国民经济中的地位、上市公司本身在行业中所处的地位以及行业市盈率等。对上市公司自身因素的分析主要是指公司的财务分析。财务指标是反映公司基本情况的常规指标,应用最为广泛,包括现金资产比率、营运资产对净资产比率、固定资产比率等在内的46项指标。
随着社交媒体的逐渐兴盛,许多投资者开始在网络平台发表和分享评论来交流个人经验,表达他们对股票市场的看法和见解。而近些年行为金融学的相关研究表明,这些海量的投资者评论里所代表的投资者情绪会干扰投资者的决策,从而推动股市的波动和价值变化[9]。众多研究者认为,基于机器学习或者深度学习算法等挖掘出的情感分类结果对股票市场的影响在一定时间内具有可靠性和稳定性,可以作为股票预测时的参考指标[10]。
目前,人们已经研究了许多股价预测方法,在这些方法中,单一预测方法主要包括两大类[11]:一类是传统的统计学方法,这类方法主要基于成熟的数学模型对数据进行预测研究,如自回归积分移动平均(ARIMA)模型、广义自回归条件异方差(GARCH)预测模型和马尔可夫(Markov)模型。另一类是根据现代数学、生物学等学科发展而来的创新类预测模型,如灰色预测算法、人工神经网络和支持向量机等。每种方法都各有优缺点,下面将逐一进行阐述。
2.1.1 ARIMA模型
ARIMA模型是对自回归移动平均模型(ARMA)的扩展[12]。ARMA主要是应用于平稳的时序数据,而金融领域的价格数据具有不平稳性,因而提出了ARIMA模型。虽然使用ARIMA对股票数据进行预测取得了良好的效果,但对于长期的预测并不理想,且此类方法无法很好地处理波动性较大的股票数据。
2.1.2 GARCH模型
1982年,Engle[13]提出自回归条件异方差(ARCH)模型用于解决某些序列的异方差性。1986年,Baillie等[14]在ARCH模型的基础上加入了无穷期误差项,得到了使用条件更为宽松的GARCH模型。在解决持续性方差和数据拖尾的问题中应用较多,但是由于该模型存在较大的滞后阶数,待测参数较多,导致最终的模型拟合效果不佳,同时也存在较大的预测误差。
2.1.3 Markov模型
Markov模型是根据数据对象当前时刻的状态去预测该对象未来可能所处的某个状态的一种预测方法。目前,Markov模型主要应用于对股票价格和股市行情的预测。Markov模型在预测时不需要大量的历史数据,不用考虑数据之间的相互影响,只需要考虑数据当前时刻的影响。隐马尔可夫模型(HMM)是离散马尔可夫模型的衍生模型[15],其模型的训练方法有易于陷入局部极值的缺点,但HMM在金融行业的应用过程中,模型也在不断地改进和完善。
传统的预测方法通常都是通过线性模型来拟合股票价格的发展变化规律,但由于影响股票价格走势的因素众多,影响机理也很复杂,这使得传统的预测方法在实际应用中有很大的局限性。特别是在样本数较少且分布不规则时,预测偏差会增大,预测能力也会下降。
股票市场是一个复杂多变的非线性系统,其运行趋势有较强的不确定性。此外,它也会受到市场环境、企业运营情况以及市场心理等诸多因素的影响。尽管这些因素给股票预测带来了巨大的困难,但同时也激励了一批学者在股票预测工作中做出了开创性的研究成果。受各种新型领域的启发,不少学者将随机森林、支持向量机、灰色理论、神经网络等模型应用于股票预测。
2.2.1 随机森林
Breiman[16]在2001年提出了随机森林(RF),又称随机决策森林,是可用于建立分类和回归问题的预测模型。该模型采用抽样后又放回的策略,使用有限的样本重复抽样,创建一个由n棵随机不相关的决策树组成的森林。RF不仅继承了决策树简单、易于实现、运算速度快、内部原理清晰等优点,同时能够较好地克服数据噪声的影响且在处理规模较大的数据时可以解决过度拟合问题,但RF的缺点在于对部分特征不敏感。
2.2.2 支持向量机
支持向量机(SVM)是由Cortes和Vapnik[17]于1995年提出的一种新型的学习模型。利用SVM进行股价预测的基本思想是将低维特征空间的非线性回归问题转化为高维特征空间线性回归问题来解决。SVM也是一个分类器,可用于预测股价涨跌。将所要训练的样例都标记为上涨和下跌两个类别,通过SVM模型来预测新样例所属类别。SVM能够很好地解决小样本、非线性和高维数问题,具有较好的泛化能力,但SVM模型的预测结果对核函数非常敏感。
2.2.3 灰色预测
灰色系统理论于1982年被提出,经过多年的研究与发展,已逐步应用于各个领域。其中灰色模型(GM)是通过对原始随机序列进行处理来削弱其随机性,从而降低建模难度,再利用指数方程对新序列进行预测。其最大的优点是只需要少量的样本数据,但它更适合于预测具有一定特征的数据。对于股票价格这种具有极大的波动性和随机性的数据,利用灰色模型不能实现理想的预测效果。而且,模型本身也有需要改善的地方。
2.2.4 神经网络
神经网络(ANN)是对人脑神经元网络的抽象设计,由大量的神经元节点相互连接构成,不同的连接方式组成了不同的网络。神经网络是一种比传统线性模型表达能力更强的非线性处理模型,具备强大的非线性泛化能力和学习能力,同时还具有良好的自适应性和容错性,从而被众多研究者们成功运用到股票预测之中。
2.2.4.1 反向传播神经网络
在股市的应用中,反向传播(BP)神经网络常被用于股票价格预测。BP神经网络由输入层、输出层和隐藏层3部分构成。BP网络的学习和训练过程是在输入结点前向传播和误差反向传播两个过程中不断循环,直到误差或者学习次数达到要求为止。有研究表明,采用BP算法的神经网络可以在较少的迭代次数下提高精度[18],但BP神经网络极易陷入局部极小值,导致模型的预测效果变差。另外,BP神经网络算法还存在收敛速度慢、训练时间长的缺点。
2.2.4.2 卷积神经网络
近年来,卷积神经网络(CNN)开始被应用于金融领域的预测研究之中。CNN一般包含卷积层和池化层,其稀疏的网络连接方式降低了反馈神经网络的复杂性。也是这种特殊的神经元连接方式使得CNN在输入相同的学习过程中只需要存储少量的关键性参数,就可以提取到关键特征,不仅降低了模型的复杂度还减少了过拟合问题的出现。
2.2.4.3 循环神经网络
循环神经网络(RNN)的预测原理与BP神经网络相同,正向传播输出预测结果,反向传播优化参数。RNN每一时刻的输出都与历史的输入相关联,所以在时序数据预测中,RNN能够发挥其短期记忆的优势对数据未来变化作出预测。然而,RNN在训练过程中容易出现梯度消失的问题,随着时间的发展会丢失之前的状态信息,在处理长期时序问题时往往效果不佳。
2.2.4.4 长短期记忆神经网络
长短期记忆神经网络(LSTM)实际是RNN模型的一种变体,由输入门、遗忘门、输出门和记忆细胞构成。这种特殊的门结构和记忆单元可以保存输入网络之前的状态信息,使LSTM学习到长期的有效信息,解决梯度消失和梯度爆炸问题。LSTM也不需要人工去挑选特征,如技术指标。LSTM虽然在处理时序数据中表现突出,但在股票预测中还存在一些缺陷,比如容易陷入局部最优解,可能存在数据冗余问题以及预测存在滞后性等
20世纪60年代末,Bates和Granger系统地研究了单一预测模型的不同组合,这也是首次有了组合预测的新思想新思路。组合预测方法的核心原理是先用不同的单一模型对研究对象进行预测,然后通过合适的方式对各个单一模型进行恰当的组合,综合利用各种预测模型所提供的信息,最后再采用组合模型预测最终结果,尽可能地提高预测精度[19]。一般的组合形式是将线性模型和非线性模型进行组合,但也有不少研究者选择线性模型之间的组合形式和非线性模型之间的组合形式。大量的实证分析表明,只要选择合适的组合模型,所得到的预测结果都要优于单一模型。
由于线性模型在处理非线性时序数据时的局限性,目前,单纯采用统计模型进行股票数据分析的研究越来越少。随着组合预测方法的发展,研究者们尝试将不同的线性模型的优势结合起来建立组合模型,来弥补单一模型的不足。许多研究结果证实,组合线性模型在实际应用中的预测误差更低,结果更优,能够为投资者提供更好的参考。
闫冬[20]先利用ARMA模型对经过处理的平稳的时间序列数据进行预测,再利用GARCH模型处理ARMA模型的自回归条件异方差,得到两者优势组合的模型,研究表明,ARMA-GARCH组合模型的预测精度更高,能够对上证指数作出有效的短期预测。杨琦等[21]将ARMA模型和GARCH模型的参数进行联合估计,构建了ARMA-GARCH组合模型来预测大众公用股票的未来价格,最后实证分析结果表明组合模型的预测更符合实际。李雄英等[22]分别建立ARMA模型、GARCH模型以及ARMA-GARCH组合模型来预测四大银行的股票收益率,与两个单一模型相比,ARMA-GARCH模型拟合效果更理想,预测能力更强。于雅凝等[23]先拟合ARMA模型来估计ARIMA模型的参数,再进行异方差模型拟合来构建ARIMA-GARCH模型,最后通过模型预测图证明了组合模型对数据进行短期预测的准确性。许舒雅等[24]通过实证研究,证明了ARIMA-GARCH组合模型能更好地拟合和预测股价,可以应用于股票价格预测。
在预测股票数据问题的过程中,非线性模型往往能更好地发挥作用。随着对组合预测模型的深入研究,学者们为了克服单一模型对于复杂数据拟合能力的不足,开始不懈地探求利用组合的方式综合各个非线性单一模型的不同信息和长处来建立一个更稳定更快的模型。
3.2.1 基于神经网络模型之间的组合应用
孙存浩等[25]利用BP神经网络将输入数据进行特征重组输出到LSTM神经网络,研究结果表明,BP-LSTM组合模型对股票指数涨跌情况的预测准确率比传统机器学习模型、单一LSTM模型都要高。Lu等[26]利用CNN能够从数据中提取到有效特征和LSTM能够学习到长期依赖的优点,提出了基于CNN-LSTM的组合预测模型,用于股票次日收盘价的预测。且该研究表明,与多层感知器(MLP)、CNN、RNN、LSTM和CNN-RNN相比,CNN-LSTM的预测精度最高,性能最好。耿晶晶等[27]选取上证50、上证180、沪深300指数的股票价格数据作为研究对象,验证了CNN-LSTM模型在股票指数预测中的有效性和普适性。
3.2.2 基于灰色模型与神经网络模型的组合应用
杨德志[28]考虑到中国股票的非线性和灰色性,将灰色模型和神经网络的优势相结合来构建组合模型,在很大程度上提高了股票预测的稳定性和可靠性。张秋明等[29]先采用灰色GM(1,1)预测模型动态预测股价变化总趋势,再利用神经网络对灰色预测模型的残差进行修正。最后证明了组合预测模型能够更好地反映出股价的变化规律,从而提高了对股价的预测精度。周琴等[30]将灰色模型预测值输入神经网络模型进行训练,建立灰色神经网络模型,通过对比实验证明,灰色神经网络的预测精度明显高于单一的BP神经网络和灰色模型。曹雷欣等[31]利用多变量的灰色GM模型实现BP神经网络对股票收益率的预测效果的优化,取得了较好的成果,并验证了灰色神经网络组合模型的各项预测指标都要优于灰色GM模型。
3.2.3 基于机器学习模型之间的组合应用
胡锐[32]分别构建支持向量机模型、人工神经网络模型、随机森林模型以及三者的组合模型,预测中国A股股票未来3天涨跌的方向,结果显示基于SVM-ANN-RF组合模型的表现优于任何一个单一模型,体现了组合模型的优势。Cao等[33]利用卷积神经网络预测金融市场的未来发展趋势,建立了CNN-SVM组合模型,有效地改进了单一算法的局限性,在处理连续和分类预测变量时获得了良好的预测结果。Song 等[34]提出了一种结合LSTM和无监督学习算法的模式驱动混合模型,用于股票价格的精确预测。然后利用韩国股指数据对混合模型的性能进行了评估。其结果表明,该模型优于传统的递归神经网络(RNN)和LSTM模型。李辉等[35]提出了RF-LSTM组合模型来预测股票的收盘价格,先利用随机森林选择最优的技术指标集合,再将提取的最优特征集输入LSTM对股票价格的总体趋势进行预测。结果表明,RF-LSTM模型可提高单一LSTM模型在股票价格预测上的准确性。
股票价格数据既具有线性特征,又具有一定的非线性特征,采用单一的线性模型或非线性模型,都只能解释股票价格中的部分变化规律。为进一步提高预测的精度,降低风险,建立一个综合考虑股票价格包含线性与非线性模型的组合预测模型,能够尽可能地挖掘数据的有效信息,从而尽量避免数据的损失和降低误差。
3.3.1 基于支持向量机与传统统计模型的组合应用
Pai等[36]利用ARIMA模型和SVM模型在股票价格预测问题中的独特优势,提出了ARIMA-SVM组合模型,并使用股票价格的真实数据集验证了该组合模型大大提高了单一的ARIMA模型和SVM模型在股价预测应用中的预测性能。邓军[37]将股票基本面指标、GARCH模型结果,以及投资者情绪指标与SVM相结合分三步预测股价波动。仿真结果显示,与仅利用基本面指标的SVM比较,GARCH模型和时间序列分析的加入使SVM更适合对股价涨跌进行预测。张璇[38]使用HMM模型对沪深300指数的预测因子进行重要性排序,再利用重要预测因子进行支持向量机回归预测,最终两模型结合得到的结果要优于直接使用开盘价、最高价、最低价进行预测的结果。尤睿凡[39]首先利用ARIMA模型提取数据线性部分,再用改进的SVM回归算法处理非线性部分,并将其预测效果与单一的ARIMA模型、改进的SVM回归模型以及现有的ARMA-GARCH模型进行比较,实证结果显示ARIMA-SVM组合模型的预测精度高于两种单一的模型,也略高于ARMA-GARCH组合模型。
3.3.2 基于神经网络与传统统计模型的组合应用
Hassan等[40-41]将HMM、ANN和遗传算法(GA)相结合,提出并实现了一个预测金融市场行为的组合模型。其结果表明,组合模型的预测性能优于单一HMM模型,且该组合模型可以直接使用数据集而无需在预测之前分析数据集。史书真[42]利用ARMA模型在处理线性问题上具有优势和BP神经网络在非线性序列的预测问题上具有优势,构建了ARMA-BP组合模型,又利用Markov模型对组合模型的预测结果进行改进,提出了ARMA-BP-Markov组合模型,并通过实证分析得出,ARMA-BP-Markov组合模型的预测精度比单一的ARMA模型、BP神经网络以及ARMA-BP组合模型都要高。王衍茹[43]选取中国人寿的股票日收盘价作为研究对象,构建了ARIMA、GARCH和BP神经网络的组合模型,且对3种单一模型进行拟合与预测,最后得出组合模型的拟合预测效果比单一模型要稍好一些的结论。
3.3.3 基于灰色模型与传统统计模型的组合应用
吴朝阳[44]在GM-ARMA简单组合模型的基础上,改进了GM(1,1)模型不是最优以及两模型的结合点不是最优这两个缺点,提出了Revised GM-ARMA(RGA-ARMA)模型,并通过实例证明新模型误差更小,结果更优。胡岸[45]采用灰色模型来弥补马尔可夫模型预测的局限,提出了灰色马尔可夫链组合预测模型,实验结果证明组合模型无论从精度还是准确度上都更好。曹晓等[46]以上证000001平安银行股票价格数据为研究对象,利用BP神经网络改进灰色GARCH模型的预测结果,并将灰色GARCH-BP组合模型与灰色GARCH模型以及3个单一模型的预测结果进行比较得出,组合模型明显提高了股价预测精度,能为研究者和投资者进行股票价格预测提供新的参考。李晓彤[47]将基于小波分析的改进灰色模型与ARMA-GARCH模型进行组合,对具有不同波动特征的两组序列的股价进行预测分析。结果表明,无论是对于波动大还是波动小的序列,该组合模型都比单一模型具有更好的预测精度,在预测股价时都是有效且可行的。
由于股票市场价格受诸多因素共同影响,呈现出不规则的变化趋势。几乎没有一个模型能全面考虑到股票市场的所有影响因子,也不可能将所有影响因子都展现在模型中,单一的预测模型更是难以达到股票预测的要求。一般来说,组合模型相比于单一模型可以更加系统和全面地整合来自样本数据的信息,从而改善模型的拟合优度,同时减小随机因子的影响。基于这一优势,在任意一种预测情形下,采用组合的预测形式都是值得去尝试的。单一模型拟合方法的改进越来越多,组合预测这种新的预测方法也会随之不断完善,在实际运用中也将会带来不可估量的优越性与有效性。