基于LSTM的股票价格预测分析

2022-05-27 06:56李桂城
智能计算机与应用 2022年5期
关键词:股票价格时序预测

李桂城,许 丽,张 利

(贵州大学 大数据与信息工程学院,贵阳 550025)

0 引 言

随着人工智能技术的发展和金融市场的完善,利用大数据分析技术对股市进行预测将有着重要的研究价值。在股价预测方面,目前已有了不少成熟的研究,比如,运用在时间序列里包含的信息对未来的走势做出预测,运用和股票有关的新闻信息对股价的涨跌做出预测等。其中,深度学习模拟神经网络的发展过程,使得股票预测的研究具有良好的可行性。

股票价格预测非常困难,因为影响股票价格的因素有很多。对于个股来说,股票价格数据的趋势、股票对应公司的运营状况、股民对该个股的评价、国家的政策、突发的新闻事件等等,都会对股票价格产生影响。股票价格数据是一种时序数据,时序数据具有一定的趋势,股民常根据数据判断价格走势,此预测过程可通过深度学习方法实现。

在深度学习中,RNN常会用来处理序列数据,如时间序列、文本数据等。但已有研究表明,RNN可能导致梯度消失等问题,于是研究者引入了

LSTM(Long-term and Short-Term Memory Network),

并在RNN的基础上添加了门控结构以及记忆单元,使得网络能够决定遗忘的信息以及往后传播的信息,因此也具有了解决梯度爆炸和梯度消失的能力。除了应用于图像分类、语音识别等领域,LSTM在文本情感分析、时序数据预测等方面也表现良好。

当下研究中,文献[1]将RNN模型用于预测股票在未来一天的跌涨情况,证明了将新闻序列与股票价格序列相结合能够带来更高的准确率。文献[3]把LSTM模式运用于对股市波动率的预测中,经过大量的对比实验,得出了LSTM模型的预测效果优于18种传统的经典预测模型的结论,与此同时,历史股票的增加会使得LSTM模型的预测结果更加稳定。文献[4]提供了一个基于LSTM技术的深度神经网络DP-LSTM,其中包括了使用新闻文章作为隐藏信息并利用差异隐私机制,整合不同的新闻来源对标普500股票价格预测,大量实证研究表明提出的DP-LSTM的预测比平均MPA增加了0.32%,对标普500指数的预测,改善达到了65.79%。文献[5]提出了CNN-LSTM混合神经网络,通过结合多种可能影响股票价格的因素,对结果进行预测。另外,为提高结果的准确率,作者在文章中增加了注意力机制,将该模型以及几种经典的方法应用到2个真实的数据集上,通过横向以及纵向的比较验证了所提出模型的有效性。文献[6]运用OpinionFinder等工具对Twitter上的内容进行每一天的大众情感分析,并将提取到的情感特征加入模型中用于预测股票价格的跌涨。

根据研究表明,很多学者在股票预测上要么单一地考虑影响股票价格的因素,要么只是根据历史值来预测未来值,这都不能全面地对股票价格进行考量。另外,大量研究发现个人情绪和感情因素会对人的决策产生影响,对此进行分析即可从中预测并获取股票的相关指标,基于此,很多学者利用文本情感分析来研究股票价格的变动。基于此,本文融合了多种影响股票实际价格的因素,提出的时序预测与文本情感分析结合方法具有一定重要的现实意义。

本文内容安排如下:首先简略地概述了深度学习以及文本情感分析在股票价格变动以及跌涨方面的发展及应用;然后,阐述了所应用的深度学习模型的方法及原理;接下来,将所提出的模型与传统方法应用于海康威视真实数据集上,以、、准确率、召回率等作为评价指标,对各模型进行对比评价。最后,对本文内容进行总结概括。

1 算法原理及流程

股票价格预测指的是根据股票价格的历史数据以及与股票相关的市场信息,预测股票在接下来一段时间内的具体价格或者涨跌状况。以往的股票价格预测研究大多简单地将股票价格作为序列数据,通过模型进行训练,或者只是通过分析新闻文本、股民评论的情感倾向进行预测。为了将更多因素添加到股票价格预测中,本文将这2方面结合起来考虑,首先采用时间序列预测模型预测股票价格,然后再通过提取新闻文本信息等,对先前预测结果进行调整,使预测值更趋近于真实值。

基于LSTM在文本、时序数据方面的优良表现,本文将使用基于LSTM的深度学习模型,应用于时序预测与文本情感分析两个方面,重点探索时间序列趋势预测以及新闻文本情感对股票价格的影响,使股票价格预测结果更加准确。本文的算法流程图如图1所示。

图1 算法流程图Fig.1 Algorithm flow chart

1.1 时间序列预测

在时间序列预测中,本文引入了基于双阶段注意力机制的循环神经网络(DA-RNN)。DA-RNN模型如图2所示。该模型包含2种注意力机制,第一种是在输入阶段中,使用注意力机制的编码器,第二种是在每个时间步上,采用时间注意力机制的解码器。输入阶段的注意力机制可以在每个时刻针对性地选择相关信息,而时间注意力机制可以在比较长的时间段内捕捉到该时间段内序列的关系。

图2 DA-RNN模型Fig.2 DA-RNN model

输入阶段的注意力机制实现即为每个时刻输入的影响因子赋予一定的权重,首先使用当前时刻的输入xR以及前一个时刻编码器的隐藏状态h,更新当前时刻编码器的隐藏层状态h,更新公式如下:

其中,是一个非线性激活函数,此处使用的是LSTM,利用其特性来捕获长距离依赖关系。每个LSTM单元的更新公式总结如下:

使用函数进行归一化,即:

1.2 文本情感分析

在文本情感分析中,本文引入了基于注意力机制的双向LSTM模型,双向LSTM包含前向和后向两个方向上的LSTM,前向LSTM主要获取上文的信息特征,后向LSTM主要获取下文的信息特征,因此该模型包含了前向与后向的所有信息,并使用Attention注意力机制有选择性地聚焦比较重点的词语,最终对句子的情感进行分类。既解决了多维度的信息爆炸以及传统循环神经网络的梯度消失等问题,也有效地避免了传统模型对重点词语在上下文中提取信息的缺失。该模型总共包含输入层、嵌入层、LSTM层、注意力层、输出层五个组成部分。

1.2.1 文本向量化

1.2.2 BiLSTM模型

BiLSTM模型表示双向LSTM,该模型通过前向和后向对序列进行分析处理,更加有效地提取文本数据前后文的信息特征,最终将双向LSTM的输出加到一起。研究推得的数学公式如下:

1.2.3 注意力机制及情感分析

基于注意力机制的网络在很多任务中表现不错,如知识问答、机器翻译等。假设是由LSTM产生的向量集合,即{,,…,h,其中是句子的长度。是一个已经训练的向量,是句子的表示,由输出向量加权和得到。因此可得到如下计算公式:

本次研究获取句子级别的特征用来进行分类,对应的数学公式则可写作如下形式:

至此,采用分类器计算每个类别的概率,并以概率最大的作为预测的结果。BiLSTMAttention模型如图3所示。对于一个句子,将作为输入,最终预测的结果标签为^。 则计算过程为:

图3 BiLSTM-Attention模型Fig.3 BiLSTM-Attention model

2 实验过程

为验证本文提出的模型M的有效性,首先获取实验所需的相关数据并进行数据预处理,通过设置相应的参数,进行时序预测、文本情感分析等实验,实验结果使用等多种评价指标进行检验。

2.1 实验数据集

2.1.1 时序数据

时序数据主要通过Python第三方库BaoStock获取。BaoStock是开源的证券数据服务平台,其返回的数据格式为DataFrame类型。也可以将数据保存到本地文件后再进行分析。通过设置相关参数可得到相应时间内的所有股票交易数据,如股票代码、查询的日期范围等。

本文采用的时序数据参数包含股票的开盘价、收盘价、最高价、最低价等。本文将第二天的收盘价作为预测值y,因为损失和收益一般是当天的收盘价计算得到的。实验的数据集为海康威视对应的股票信息。数据集包含了从2010年8月30日至2021年8月19日、总共2 668天的数据。时序数据样例见表1。

表1 时序数据样例Tab.1 Time series data samples

2.1.2 文本数据

论文采用的新闻文本数据来自于新浪财经网站,该网站包含股票各方面的信息,如股票实时涨跌、公司咨询、政策新闻等等。通过爬虫获取(描述新浪数据集具体信息)新闻标题、日期、涉及股票等。数据预处理过程包含清除中性标题数据、对标题文本进行人工标注,标签包含0和1。其中,0表示消极、1表示积极。该数据集共包含6 000条,这里,表示积极的文本共3 373条,表示消极的文本共2 627条。

2.2 评价指标

在时序预测实验以及最终结果实验中,选用均方根误差()、平均绝对误差()作为评价标准。最终预测结果中选择的评价指标与时序预测实验所选的一致。 公式如下:

在文本情感分析实验中,选择召回率、准确率以及综合准确率和召回率两者的作为评判结果好坏的准则。数学定义的公式可分别表示为:

其中,、、、含义参见表2。

表2 混淆矩阵Tab.2 Confusion matrix

2.3 参数设置

在股票历史数据时序预测实验以及最终结果实验中,参数设置见表3。在文本情感分析实验中,参数设置见表4。

表3 时序预测及最终结果实验参数Tab.3 Time series forecast and final result experimental parameters

表4 文本情感分析实验参数Tab.4 Text sentiment analysis experimental parameters

2.4 实验

2.4.1 时序预测实验

本文时序预测实验数据集为海康威视股票信息,数据集时间跨度包含了从2010年8月30日至2021年8月19日、总共2 668天的数据。在本实验中,2 001条数据作为训练集,667条数据作为测试集。使用XGBoost、LSTM进行对比实验,海康威视数据集实验结果见表5。DA-RNN在海康威视测试集上的预测值与真实值曲线如图6所示。

表5 海康威视数据集实验结果Tab.5 Hikvision datasets experimental results

图4 DA-RNN在海康威视测试集上的预测值与真实值Fig.4 Predicted value and real value of DA-RNN on Hikvision test datasets

通过比较XGBoost、LSTM以及本文采用的DARNN模型的实验结果,可以得知,DA-RNN通过双阶段注意力机制,既考虑输入阶段的信息特征,也考虑长时间距离的信息,相较于前2种模型表现更好,在、上分别从3020、3.642下降到1.584、1.981。证明了DA-RNN模型在股价时序数据上的有效性。

2.4.2 文本情感分析实验

本文文本情感分析实验包含6 000条已经标注的新闻标题,其中,5 000条标题文本数据作为训练集,600条作为验证集,400条作为测试集。为证明方法的有效性,将本文中的BiLSTM-Attention模型与SVM、LSTM方法在相同实验环境下做对比实验,结果见表6。

表6 文本情感分析结果Tab.6 Text sentiment analysis experimental results

通过比较SVM、LSTM、BiLSTM-Attention算法的实验结果可知,本文采用的BiLSTM-Attention通过双向的LSTM,同时考虑了上下文信息,并且加入了注意力机制,相较于单向的LSTM以及传统机器学习算法支持向量机SVM表现更优,在准确率评价指标上分别提高了7.76%和2.76%。BiLSTMAttention方法在标题文本数据集上的3个指标中表现均是最好的,表明该模型有着较高的可用性。

2.5 模型M的实验结果

首先获取最终结果预测阶段相关数据集,本文选择2021年8月20日至2021年9月22日海康威视的时序数据集以及文本数据集。通过以上文本情感分析模型BiLSTM-Attention预测对应标题文本的情感倾向,对其添加权重,与DA-RNN模型预测的对应天数的值进行叠加,得到最终结果,见表7。

表7 最终实验结果Tab.7 Final experimental results

通过比较表7中的实验结果,可以得出,在本实验中,当权重值为0.01时,、值达到最小。本实验表明新闻文本数据对股票价格数值存在一定影响,当通过对其附加一定的权重时,可使股票价格预测值更接近真实值,说明本模型的可用性。

3 结束语

本文提出的模型M,通过叠加影响股票价格预测的多种因素,如历史数据、新闻文本情感倾向等,采用对比实验等方式,得到最终实验结果。相比原始DARNN模型,在评价指标、上分别下降了13.3%、14.2%,证明了所提出模型M的有效性。

然而,本文算法主要考虑了新闻文本情感倾向作为时序数据的影响因素,后期工作会考虑将其他因素融入研究,如股民对个股信息的情感倾向、同一行业类别股票的涨跌趋势等等。另外,本文只从4个维度的特征数据进行时间序列预测,后续工作可以添加其它维度的数据,如交易量等,通过更丰富的时序数据进行预测,进一步提高准确率。

猜你喜欢
股票价格时序预测
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
清明
基于GEE平台与Sentinel-NDVI时序数据江汉平原种植模式提取
你不能把整个春天都搬到冬天来
上市公司财务指标与股票价格的相关性实证分析
人民币汇率与上证指数互动的实证研究
员工持股计划对股票价格的影响
实证分析会计信息对股价的影响