融合情感分析与SVM_LSTM模型的股票指数预测

2020-09-02 06:31杨妥李万龙郑山红
软件导刊 2020年8期
关键词:情感分析技术指标

杨妥 李万龙 郑山红

摘 要:由于股票市场变化存在着多因素、非线性、时变性等特点,传统预测模型忽视了股指波动影响因素特征提取的合理性与准确性,导致预测效果不理想。鉴于此,提出了融合情感分析和SVM_LSTM特征提取模型的股指预测方法以提高股指预测精度,将SVM和LSTM方法相结合建立SVM_LSTM模型,提取影响股指波动的情感极性特征、涨跌趋势特征以及股票技术指标特征,进而弥补影响股指波动的存在因素实现股指预测。通过与传统股指预测方法相比较,该方法实验结果的MSE(均方差)达到了0.172 2,比传统模型的均方差缩小了约0.083 7,证明了该预测方法在准确度上效果更好。

关键词:股指预测;技术指标;LSTM;情感分析

DOI:10. 11907/rjdk. 192512 开放科学(资源服务)标识码(OSID):

中图分类号:TP301文献标识码:A 文章编号:1672-7800(2020)008-0014-05

Abstract: Due to the multi-factor, non-linear and time-varying characteristics of stock market changes, traditional prediction models ignore the rationality and accuracy of extracting the characteristics of factors that affect stock index fluctuations, resulting in unsatisfactory prediction effect. Therefore, this article puts forward the integration analysis and SVM_LSTM emotional feature extraction model of stock index prediction method to improve the predictive accuracy of the stock index. By combining the SVM and the LSTM method SVM_LSTM model is established to extract the influence of stock index volatility emotion polarity features, price trend and the characteristics of stock technical indicators so as to make up for the factors affecting the existence of the stock index fluctuation index prediction.Compared with the traditional stock index prediction method, the MSE (mean square deviation) of the experimental results of the proposed method reached 0.172 2, which is about 0.083 7 smaller than the mean square deviation of the traditional model, proving that the proposed prediction method has better accuracy effect.

Key Words: stock index prediction; technical indicators; LSTM; emotional analysis

0 引言

股指預测实际就是时间序列的预测,是指利用股市中各项技术指标的历史数据建立预测模型,挖掘各大技术指标在时间序列上的变化规律。然而,以往的股指预测方法中,常常选用单一的股票技术指标作为影响股指波动的特征参数,忽视了股指波动存在多种影响因素的特性[1-4],造成预测结果不理想,给予了投资者错误引导。由此可见,提高预测模型准确度十分重要,不仅能够为金融领域的发展提供帮助,还可以给予投资者正确引导,从而降低投资者的投资风险。因此,股指预测研究具有重要意义[5-6]。

近年来,人们发现影响股票市场波动的因素众多。Gilbert等[7]从LiveJournal中提取大众焦虑指标,根据指标变化情况进行预测,发现大众情绪在一定程度上对股票市场有一定波动影响;董理等[8]发现大众评论信息对股票指数波动有一定影响,因此将文本信息与技术指标相结合,采用机器学习的方法(SVR)进行模型预测,并与传统模型方法进行比较,获得了相对较好的预测精度;Schumaker等[9]使用3种不同文本表示方法,抽取其中有价值的词条,利用支持向量机(SVM)训练器进行分析,发现将文字字段和股票价格一起训练可以获得较好表现;Nikfarjam等[10]通过采用SVM分类器对比新闻文本和股票价格两种方法对股票预测的准确性,最终发现将新闻文本与股票价格两种方法相结合更能提高股票预测效果;宋敏晶[11]采用文本分类技术提取股票评论数据的情感值,验证了股票评论与股票市场存在一定联系。

综上可以看出,已有研究大多从某个角度进行分析,忽视了股指预测最优方法利用及特征组合利用的重要价值,仅仅依靠单一影响因素进行股指预测,很难获得理想预测效果。同时,股票市场自身是一个非线性、不稳定的时间序列,使用线性结构模型进行预测并不能很好地表示这种复杂关系[12-16]。因此,本文在影响股票波动的特征因素上加以改进,在股票技术指标特征的基础上,融入情感分类结果和股指涨跌趋势预测结果作为影响股指波动的特征因素进行股指预测。在特征提取上,提出利用SVM_LSTM组合训练模型对特征参数进行提取,同时采用BP神经网络进行股指预测,改进了采用单一影响因素作为特征值的特征提取方式,通过与多种预测方法相比较,证明本文提出的方法能够更好地提高模型预测效果。

1 相关工作

1.1 LSTM神经网络

LSTM(Long short-Term Memory)全称长短时记忆神经网络,是一种时间循环神经网络,也即在循环神经网络的基础上,在隐层的各神经单元上加入记忆单元,使时间序列上的记忆信息可以控制,使其更适用于处理和预测时间序列问题。LSTM神经网络通过控制门(输入门[it]、遗忘门[ft]、输出门[ot])调节之前信息与当前信息的记忆和遗忘程度,将短期记忆与长期记忆结合起来,使循环神经网络具备了长期记忆能力,并且一定程度上解决了梯度消失的问题。因此,本文采用LSTM方法对技术指标数据进行特征提取,其工作过程可以表述为:

1.2 数据采集

股票的技术指标数据采用Python爬虫进行收集处理,其中包含开盘价、成交量、MACD、KDJ、ROC、RSI 6个股票技术指标。

文本数据采集选择以排名靠前的“东方财富网”作为收集数据来源,通过访问移动端页面,对股民在股吧中的言论信息进行搜索,收集每日股民对上证指数(上海证券综合指数)的股票评论及针对股市大盘趋势的评论,以满足本文预测所需数据量。收集时间为2018年10月18日至12月7日,共37个交易日,约11万条上证综指的股民言论信息,文本数据信息内容如表1所示。

2.悲催,4天的利润不够今天一天跌的,清仓回家种地\&]

2 融合情感分析与SVM_LSTM模型

本文从影响股票技术指标波动的主要因素出发,融入情感分类结果和股指涨跌趋势分析值作为股指预测的特征因素,从而提高预测精度[17-19]。同时,基于LSTM神经网络的长期存储记忆优势以及SVM处理分类问题的准确性优势,将这两种方法结合起来,对股指预测中训练所需的特征参数进行提取,提出SVM_LSTM特征提取模型,以提高特征提取的准确性和有效性,进而提高股指预测效果。基本步骤如下:

(1)模型输入包含处理好的文本数据[D={(x1,y1),][(x2,y2)][?(xn,yn)}],其中[xi]代表每一条热帖的文本数据,[yi]代表每条热帖数据的情感标签,[xi∈Rn,yi∈(-1,1),][i=1,2,3,?n],以及收集到的股票技术指标数据[I={x1,x2,?,xi}],其中[xi]表示第i组技术指标数据。

(2)针对输入的文本信息D,采用支持向量机对文本数据进行情感分类,融入情感分类结果作为模型预测的特征参数(S:)。SVM_LSTM特征提取模型针对输入的技术指标数据,采用LSTM神经网络捕捉股票技术指标的时间序列特征,分别将前9天和当天技术指标构成的向量作为循环神经网络每一时刻的输入(C:),同时,针对股指涨跌趋势特征提取问题,采用SVM分类方法对收集的股票技术指标进行趋势分析,得到股票涨跌趋势结果(T:),作为模型预测的特征参数。将最终特征向量[F={S:T:C}]输入到BP神经网络中进行股指预测,最后输出股指预测结果。其模型训练过程如图2所示。

2.1 言论信息的情感特征提取

目前,情感分析方法主要有:基于词典和规则的方法、基于机器学习的方法、基于深度学习的方法以及其它方法。基于词典的方法主要利用情感词典资源,该方法依赖领域、时间、语言等方面的背景知识,且很难及时捕捉新词、变形词,使如何构造高质量的情感词典成为一大难点;基于规则的情感分类方法,虽然可以在训练前加入限定规则提高分类结果的准确率,但是在数据量较大的情况下,规则的维护却比较复杂且不易扩展;基于深度学习的方法(LSTM)可以提取到更复杂的语义特征信息,在情感分析任务上具有很好表现,但是深度神经网络训练需要大量样本数据,在数据量少的情况下,训练得到的情感分析结果往往准确率不高。基于机器学习的方法(SVM)不仅在小样本中存在优势,而且使用传统的机器学习模型进行情感分析,在数据量少的情况下与深度学习对比训练得到的模型泛化性更佳,以上情感分析方法对比实验结果如表2所示。

本文选用支持向量机方法提取情感极性特征,基本步骤如下:

(1)将处理后的文本数据利用train_test_split函數,构建7∶3的训练集和测试集。

(2)[D={(x1,y1),(x2,y2)?(xn,yn)}]作为训练样本集,其中[xi]代表第i条热帖文本数据,[yi]代表第i条热帖数据存在的情感因素(情感标签),[xi∈Rn,yi∈(-1,1),i=1,2,3,][?n]。训练模型就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。划分超平面通过决策函数[f(x)=σ(WTx+b)]找到最大间隔超平面,其中[W=(w1,w2,?,wd)]为法向量,b为位移项。训练结果:[f(x)>0或f(x)<0],如果其训练结果大于0,则训练样本被标记为1,反之结果小于0则训练样本被标记为-1。

(3)利用SVM分类器,结合本文自构建的词典进行情感分类,得到情感极性值(用0,1表示),0代表消极情绪,1代表积极情绪。将训练得到的结果作为股指预测的特征参数,用大写字母S表示,记为[S={(x1,s1),(x2,s2),?,(xn,][sn)}],其中[xi]代表第i条样本信息,[si]代表第i条文本信息的情感极性值。

2.2 股票技术指标特征提取

LSTM神经网络拥有记忆单元,能够对一些有意义的信息予以长期保存,并通过“门”结构控制信息,同时LSTM神经网络在修正权重的过程中,有些误差可以通过门的控制直接遗忘,并且善于处理时序问题。由此,本文选用LSTM神经网络进行特征提取。技术指标特征提取方法如图3所示,每天的技术指标数据用[xi]表示输入,输入到LSTM训练模型中通过“门”的控制进行训练,即:[D=(x1,x2,x3,?,x10)],其中[xi∈R,i=1,2,?10],前一时刻的输出[h(9)]为[x10]时刻的输入;Y为输出结果;[xi]表示i时刻下的样本。利用LSTM捕捉股票技术指标的时间序列特征,分别利用前9天和当天技术指标构成的向量作为循环神经网络每一时刻的输入特征,提取最后一次训练结果Y作为股指预测模型的训练特征。

2.3 股指涨跌趋势特征提取

涨跌趋势特征选取主要考虑股票技术指标原有特性以及股票指数未来走势等信息。本文充分考虑各技术指标的关联性,选取开盘价、成交量、MACD(指数平滑异同平均线)、KDJ(随机指标)、RSI(相对强弱指标)、ROC(变动率指标)6大指标,采用SVM方法对技术指标数据进行股票涨跌趋势分析,提取涨跌趋势特征信息。基本步骤如下:①在样本空间中,寻找最大间隔划分超平面:[wTx+b=0];②为寻找具有最大间隔的划分超平面,就要找到能够满足上式的约束参数w和b:[min12w2,其中yi(wTxi+b)1,][i=1,2,?,m]。

训练样本结果大于0的定义为上涨趋势,结果小于0定义为下跌趋势。将训练得到的结果作为股指预测的特征参数,用大写字母T表示,记为[T={(x1,t1),(x2,t2),?,][(xn,tn)}],其中[xi]代表第i个样本,[ti]代表第i个训练样本的结果值。

3 实验

3.1 数据处理

文本数据处理:首先将收集的文本数据按照一定规则进行处理,其中包括对原始数据的去重处理,减少冗余信息,同时对其进行标点符号及停用词去除处理,得到净化后的数据;然后按照日期过滤掉非当日交易时间段(收盘15:00到次日开盘9:00之间)发布的帖子,并将处理后的文本数据按照日期分别存储在不同的文件中,得到处理后的价值信息;最后利用Jieba分词工具并结合自主构建的词典对预处理后的数据进行分词处理,得到更加准确的词信息。

根据《证券投资大辞典》[20]对金融领域专业名词及常用术语进行总结归纳,同时对网页中查询到的股民常用网络语言进行收集整理,在“知网”情感词典的基础上加入整理后的金融领域专业术语,自行建立金融领域情感词典。情感词典示例如表3所示。

3.2 融合情感分析特征有效性

本文选用情感词典、深度学习、机器学习方法,分别对收集的文本信息进行训练,实验结果如表4所示。

基于机器学习的方法(SVM)在利用文本信息进行情感分析的优势在于,它的决策函数是由支持向量确定,计算复杂度取决于支持向量的数目,而不是样本空间的维数,从而避免了维数灾难问题。同时,SVM不仅可以有效抽取关键样本,还可以剔除大量冗余样本,确保分类信息的准确性,从而得到准确的情感极性特征信息,实验结果证明了应用SVM进行情感特征提取的合理性。同时,对不同特征下的参数应用神经网络进行股指预测,实验结果采用MSE以及股价损失值,证明融入情感分析特征进行股指预测准确和有效。融入情感分析特征实验结果如表4所示,均方差[MSE=1ni=1n(yi-y)2],损失值[loss=yi-y],其中y是真实值,[y]是预测值,n为样本个数。

3.3 实验设置

选取最佳特征组合构建模型SVM_LSTM与其它特征组合预测模型进行对比,在实验对比过程中,其它5个特征预测模型分别是:Model_SVM、Model_BP、SVR_emotion、BP_emotion、SVM_BP,以上模型均采用特征值选取和预测方法选择这两种方式对预测结果产生的影响进行对比。在数据预处理过程中,对特征值进行标准化处理,并将股指数据进行一定倍数的缩放。

Model_SVM和Model_BP均利用股票市场中的技术指标值作为特征,分别采用SVM算法和BP网络方法进行模型预测;SVR_emotion和BP_emotion则是利用Jieba分词得到的词信息、结合情感词典得到的情感词信息、采用SVM分类方法得到的情感分类结果和技术指标值4种结果作为特征,分别采用支持向量机SVR的方法和BP网络方法进行股指预测;SVM_BP模型将得到的情感分类结果和技术指标值作为特征,利用SVM方法进行情感分类,利用BP神经网络进行股指预测。实验结果用MSE作为评判标准以衡量以上预测模型的预测准确性。

3.4 實验结果与分析

根据上述实验设置,本文应用SVM_LSTM特征提取模型,以情感分析结果、涨跌趋势结果和技术指标值相结合的方式作为股指预测的特征参数,采用BP神经网络进行预测并与其它预测方法进行实验对比,实验结果如表5所示。

从实验对比结果可以看出,模型Model_SVM和Model_BP仅仅依靠技术指标作为特征值进行股指预测,其预测效果不及采用增加其它影响因素的模型。产生这种结果的原因在于影响股票市场价格变动的因素众多,单纯依靠股票市场技术指标值并不能真正反映股票市场的变化情况。虽然,SVR_emotion和BP_emotion两个模型融合了多种可能影响股票指数波动的因素作为特征值,但是预测效果并不理想。原因在于情感词典构建和数据源选取不同,特征选取方法也不尽合理,造成情感分类结果值不准确,从而影响了股指预测效果。

实验结果对比如图4—图6所示,从中可见融合情感分析的SVM_LSTM模型股票指数预测准确、有效,且具有相对最小的MSE值。在股票走势变化上,以情感极性信息、涨跌趋势信息和技术指标为特征,采用BP神经网络进行预测,得到的预测效果更接近真实股票变化,预测值和真实值之间的离散程度较小。以上结果充分说明,本文提出的方法可以获得更加理想的预测效果。

4 结语

本文股指预测研究中融入情感分析影响因素以及股指涨跌趋势信息,将其作为股指预测的特征参数,增加了影响股指预测的可能因素,采用深度学习与机器学习相结合的方法,构建SVM_LSTM特征提取训练模型并进行股指预测,提高了股指预测准确率。实验对比分析发现,融入情感分析和涨跌趋势特征的股票技术指标预测模型能够获得更好的预测效果。下一步工作是继续收集影响股票行情波动的新闻信息数据,结合深度学习等方法进行特征提取并建立预测模型,进一步提升模型预测效果。

参考文献:

[1] 黄霞. 基于神经网络和遗传算法的金融数据分析方法研究[D]. 广州:广东财经大学,2017.

[2] 杨春霞. 金融复杂性研究与金融市场建模[D]. 合肥:中国科学技术大学,2006.

[3] 霍咪咪. 金融风险的建模与管理方式分析及研究[J]. 现代经济信息,2017(21):240-241.

[4] 张栗粽,王谨平,刘贵松,等. 面向金融数据的神经网络时间序列预测模型[J]. 计算机应用研究,2018,35(9):2632-2637.

[5] FAMA E F. Market efficiency, long-term returns, and behavioral finance[J].  Journal of Financial Economics,1998,49:283-306.

[6] 孙培星. 基于情感倾向性的网络舆情分析及演化预测研究[D]. 长春:吉林大学,2016.

[7] GILBERT E,KARAHALIOS K.Widespread worry and the stock market[C]. Fourth International AAAI conference on Weblogs and Social Media,2010:58-65.

[8] 董理,王中卿,熊德意. 基于文本信息的股票指数预测[J]. 北京大学学报(自然科学版),2017,53(2):273-278.

[9] SCHUMAKER R P, CHEN H. Textual analysis of stock market prediction using breaking financial news: the AZFinText system[J].  ACM Transactions on Information System, 2009,27(2):1139-1141.

[10] NIKFARJAM A,EMADZADEH E,MUTHAIYAH S.Text mining approaches for market prediction[C]. International Conference on Computer & Automation Engineer, 2010:256-26.

[11] 宋敏晶. 基于情感分析的股票預测模型研究[D]. 哈尔滨:哈尔滨工业大学,2013.

[12] 李玉梅. 基于互联网评论的股票市场趋势预测[D]. 哈尔滨:哈尔滨工业大学,2012.

[13] 陈佳,刘冬雪,武大硕. 基于特征选取与LSTM模型的股指预测方法研究[J]. 计算机工程与应用,2019,55(6):108-112.

[14] 张世军. 基于网络舆情的SVM股票价格预测研究[D]. 南京:南京信息工程大学,2014.

[15] 张玲,刘臣. 基于深度记忆网络的特定目标情感分类研究[J]. 软件导刊,2019(12):40-43.

[16] 李佳,黄之豪,陈冬兰. 基于LSTM等深度学习方法的股指预测研究[J]. 软件导刊,2019,18(9):17-21.

[17] 黄霞. 基于神经网络和遗传算法的金融数据分析方法研究[D]. 广州:广东财经大学,2017.

[18] 谢梦蝶,秦江涛. 遗传算法优化BP神经网络预测股指研究[J]. 软件导刊,2019,18(4):41-45.

[19] 陈佳,刘冬雪,武大硕. 基于特征选取与LSTM模型的股指预测方法研究[J]. 计算机工程与应用,2019,55(6):108-112.

[20] 韩双林,马秀岩. 证券投资大辞典[M]. 哈尔滨:黑龙江人民出版社,1993.

(责任编辑:孙 娟)

猜你喜欢
情感分析技术指标
基于双向循环神经网络的评价对象抽取研究
在线评论情感属性的动态变化