基于XGBoost、LightBGM与LSTM对股票价格与交易量的预测

2022-06-26 11:09邱创杰许统洭林哲徐烨熙黄滢滢
科教创新与实践 2022年8期

邱创杰?许统洭?林哲?徐烨熙?黄滢滢

摘要:通过树模型的测试结合,可以看出树模型对非平稳序列的较好拟合作用,可以基本确定价格与成交量的回归数值。同时,考虑的是在 30 个 tick_time的价格与交易量,计算开销较大,因此本文使用基于树模型的集成算法—XGBoost 和 LightGBM。这两种算法均是以回归树为模型,将多棵回归树预测得到的结果进行权重判断,将叶节点以及根节点融合,预测出回归数据。为了进一步提高回归数据的准确性,本文融合了时间开销较大的 LSTM 神经网络。LSTM 模型作为滞后算法,可以很好结合本题所提高的时间序列问题,为了提高模型准确性以及增强模型的鲁棒性,本文进行了特征构造——构建了时间特征日均线、自相关系数、统计量特征、WR、RSI 作为特征。通过简单加权平均融合,用融合后的数据作为价格与交易量的预测。最后,本文使用 MSE 作为评价指标,结果表明基于树模型和 LSTM 的预测数据的 MSE 小于 0.1,因此本文认为预测结果准确。[1]

关键词:XGBoost;LightBGM;LSTM;WR;PSI

1.引言

股票是金融市场的重要组成部分。股票的价格往往随着时间而发生变化。股票的价格变化是投资者经常受关注的,因此能否预测股票价格和交易量对交易者在进行交易选择具有重大的参考价值。

2.模型的建立

(1)构造特征

本文对题目所给数据构造了多个时间特征以及统计量特征,本文构造了指标:自相关系数、RSI 系数、五日均线等。自相关系数公式如下:

(2)数据预处理即归一化

建立在问题一的基础上,本文发现在 8.25 股票存在噪声,为了提高模型的准确性以及收敛速度,本文剔除了 10 支股票在 8.25 当前tick成交量的异常值。使用MIN-MAXScaler 函数对价格与交易量数据以及RSI系数等指标进行归一化,将数值范围限定在 [0,1] 之间。归一化公式如下:

(3)建立 XGBoost 以及 LightGBM 树模型、LSTM 神经网络模型

树模型通过生成多个回归树,将叶子节点以及根节点综合考虑,集成时间、价格、交易量进行回归,得到两组价格与交易量的预测值。

神经网络通过建立输入层和隐藏层、输出层,将构造好的特征作为输入层感知,形成神经网络层进行回归,得到一组价格与交易量的預测值。

XGBoost 树模型公式如下:

LightGBM 树模型公式如下:

(4)调节模型参数以及评价模型

之后,通过调节模型参数来让训练器更好训练题目所给数据,以此达到训练器最好的回归效果,本文通过网格搜索法对树模型的特征进行穷举,对于每个超参数构建一个较小的有限集合进行探索,以此来让模型达到更好的回归效果。最后,本文使用 MSE作为评价指标用来评价模型的优良性。MSE 评价公式如下:

(5)模型融合

模型融合通过将不同训练器回归的三组数据进行几何平均来达到一个更好的回归数据,对于本题中高度复杂,高度无序性的股票,进行树模型和神经网络的融合,可以有着更好的回归预测效果。

3.问题的求解

首先,为了能够很好的提高树模型以及神经网络模型的准确性,从而更好的预测价格与交易量,因此本文根据已有的价格与成交量数据,构建了时间特征——日均线、自相关系数、统计量特征——WR、RSI 系数。以使提高数据集的复杂程度,同时自相关系数表明了序列的平稳性,WR 系数表明了序列的震荡程度,RSI 系数表明了未来市场的走势。

当 T 值大于5% 的值时说明序列平稳,当 T 值小于5% 的值时说明序列不平稳。从上表可以看出:平安银行的成交量 T 值小于5% 的值说明序列不平稳,价格 T 值大于5% 的值说明序列平稳。

随后,为了更好地让训练器准确地预测数据,在剔除 8.25 异常数据后,进行归一化,将数据限定在区间 [0,1],从而,更好地让树模型和 LSTM 准确地回归预测数据。

之后, 将数据分别导入 XGBoost 和 LightBGM 树模型和 LSTM 神经网络。在树模型中将构造好的特征以及时间作为 X,把要预测的股票价格作为 Y,通过模型训练得到回归数据。而在神经网络之中,使用移动窗口滞后算法,结合构造后的特征,回归得出预测数据。[2]

在得出回归数据后,使用网格搜索法对树模型参数进行调整,直至 MSE 评价指标最低;而针对 LSTM 模型的调参,考虑到 LSTM 算法时间开销大,不使用网格搜索法,更多的依赖于个人经验。对于不同股票的数据为防止欠拟合,本文调整了不同的训练轮回。[3]

在对树模型和 LSTM 的调参之后,将这几个模型的回归预测数据,进行几何平均得到模型融合的结果。

4.总结

通过XGBoost、LightGBM和LSTM对十只股票30个tick _time的价格和交易量的预测,构建了时间特征日均线、自相关系数、统计量特征、WR、RSI 作为其特征。最后通过简单加权平均融合,用融合后的数据作为价格与交易量的预测并且本文计算出来的MSE偏小,验证了本文模型的准确性。综上所述,这有利于交易者进行交易的时候做出合理的选择。

参考文献:

[1]李辉.基于RF-LSTM组合模型的股票价格预测[D].河南理工大学,2022.

[2]齐晓娜.深度学习算法在股票价格预测方面的研究[D].软件,2022.

[3]武博.基于LSTM模型的股票价格预测[D].大连理工大学,2021.