摘要:为推进人工智能技术的应用,本文以上证50指数为研究对象,基于文本数据挖掘和LSTM神经网络探究了情绪对市场收益率的影响。利用东方财富股吧2023年1月1日至2023年12月31日上证50指数股票评论数据,基于情绪词典对数据情感倾向进行分类,建立投资情绪指数。为了进一步探究市场情绪指标对股票波动率的影响,建立模型探究我国市场情绪指标对我国上证50指数收益率的长短期影响。研究发现,情绪指数对股票市场的影响具有一定的时滞性,且情绪波动对于股票的影响主要表现在短期,长期来看,情绪对于股票波动率的影响较小。最后,通过构建LSTM深度学习网络,发现深度学习在金融时间序列预测上具有较好的准确率和精确度。
关键词:投资者情绪;文本挖掘:LSTM神经网络
基金项目:重庆市教委科学技术研究项目“绿色金融对长江经济带碳排放强度的影响机制及其路径研究”(KJQN202401609)
中图分类号:F83 文献标识码:A
文章编号:1674-537X(2024)11. 0026-09
一、引言
2023年2月,针对人工智能产业的蓬勃推进,国家正式颁布了《质量强国建设纲要》的政策文件,该文件着重强调需加速推进大数据、信息网络及人工智能等前沿科技的深度整合与应用,旨在促进现代服务业与先进制造业以及现代农业之间的深度融合与协同发展。此外,人工智能作为未来发展的驱动力,在2024年的政府报告中更是成为了一个焦点被重点提出。随后,为深入贯彻落实党中央、国务院关于加快发展人工智能的部署要求,进一步加强人工智能标准化工作系统谋划。6月5日,工信部等四部门联合印发了《国家人工智能产业综合标准化体系建设指南(2024版)》,着重强调人工智能作为引领新一轮科技革命和产业变革的基础性和战略性技术,正成为发展新质生产力的重要引擎,可见,人工智能将再一次掀起浪潮。目前,在人工智能的众多技术中,机器学习和深度学习作为代表性技术,成为了这一领域强有力的技术支撑。
上证50指数作为一个加权指数,由上海市值最大、流动性最好的前50家上市公司的股票构成.这些公司作为各自行业的佼佼者,对整体市场走势具有高度的代表性和影响力。通过对这50家上市公司股价变动趋势的深入分析,不仅能够洞悉整个市场的宏观走向,还能够观测到投资者信心水平的波动情况。因此,本文以上证50指数为研究对象,探究投资者情绪对股票市场的影响。
本文重点研究如何使用人工智能技术探究情绪对股票波动率的影响,以及利用神经网络对股票进行预测。主要从三部分展开:首先,以情感词典为基础,对上证50指数股吧评论进行情感分析,构建情绪指标,再基于向量自回归模型(VAR)探究情绪对股票收益率的影响,最后构建LSTM网络作为预测模型,对股票指数进行预测。
二、文献综述
随着大数据和人工智能的快速发展,股指预测不仅广泛应用于经济学中,而且广泛应用于计算机领域中。近年来,随着深度学习的爆发式增长,研究者们逐渐尝试用深度学习进行股价预测,比如,利用卷积神经网络、循环神经网络等对股票数据进行分析和处理,使得股票预测更加合理清晰。
韩山杰和谈世哲(2018)基于谷歌的人工智能学习系统Tensor Flow,构建了一个多层感知器(MLP)神经网络模型来预测每日收盘价。任楚岚和宋才彦(2022)创建了一个基于CBAM注意机制的神经网络模型来预测未来股价。与其他模型相比,基于CBAM注意机制的神经网络模型Bi LSTM被证明是预测股价的最佳模型。Kim(2019)通过建立LSTM和CNN模型,再将两者结合,结合了从相同数据的不同表示中学习的特征,即股票时间序列和股票图表图像来预测股价。彭燕,刘宇红和张荣芬(2019)利用了长短期记忆网络(LSTM)在处理时间序列数据时展现出的对长间隔与延迟问题的处理能力,克服了循环神经网络(RNN)在处理序列数据时易于遗忘早期状态信息的局限性。曾安和聂文俊(2019)鉴于时间序列数据在前后方向上所呈现的一致性,构建LSTM神经网络的深度双向预测模型。该模型有效应对了长时间序列预测中普遍存在的梯度消失问题,从而提升了预测的准确性。
其他学者在现有模型的基础上对其进行了优化与改进。Wang等人(2015)提出了一种基于主成分分析的随机时效函数神经网络(STNN),进行时间序列分析,将随机时效函数神经网络(STNN)与反向传播神经网络(BPNN)、PCA - BPNN和STNN进行比较,发现随机时效函数神经网络(ST-NN)预测效果更好,精度更高,误差最小。Li等人(2019)构建了一种结合极端学习器EML的深度学习结构。Zhou等人(2019)引入一种新的混合端到端方法,以经验模式分解和因子分解机器的神经网络(EMD2FNN)为基础,预测股票市场大致走势。吴曼曼和徐建新(2019)在以往研究的基础上,进一步证明EMD与Flman神经网络相结合在预测股票方面的有效性。
此外,随着互联网技术的快速发展,网络舆情更加快捷的通过各个网站、微博等公共平台进行传播,从而影响投资者行为和市场表现,因此,许多学者开始从百度,财经网站等各平台收集投资者对股票的评价,研究市场情绪对股市的影响。
目前,关于投资者情绪的理论探讨主要涵盖了三个方面:第一,直接投资者情绪指数,通过直接获取数据而成;第二,间接投资者情绪指数,借助市场交易指标等替代性数据而成;第三,基于文本的投资者情绪指数,这种方法是通过分析投资者在社交媒体平台上的文本内容构建而成的。Fisher&Statman(2000)探究情绪对台湾股市的影响,本研究不仅试图建构台湾具有代表性的情绪指数,而且考察了投资者情绪、VIX和股票回报之间的关系,包括市场回报、大小股回报和高流动性或低流动性股票回报。Bakeramp;Wurgler (2006)选取了六个单项情绪指标来创建投资者情绪指标总体指数(简称为BW法)。为了分析投资者情绪指标如何影响股票收益的横截面,进行了主成分分析,结果显示,当开盘情绪低落时,小盘股、小型股、年轻股、高波动性股、亏损股、不派息股、极端成长股和困境股的收益相对较高。相反,如果情绪高涨,这些类别股票的后续回报则相对较低。构建情绪指数通常采用两种方法:一是使用大学和研究机构开发的情绪词典分析情绪:二是使用机器学习模型对情绪指数进行分类,然后构建情绪指数。苍玉权和殷旭东(2016)以台湾大学开发的中文情绪极化辞典为基础并与股市常用词相结合构建情绪指数,探究投资者情绪在短期内会对股票收益产生的影响。石善冲等(2018)使用ROSTEA软件分析微信中的评论情绪,并创建投资者情绪指数。研究发现,用这种方法创建的指数可以有效预测股市的发展趋势。赵传君等(2022)融合基本情感辞典与金融辞典,量化评论文字,并采用长短期记忆网络,建立了多个特征参数的多维预测模型,对股票指数进行短期预测。
三、数据来源及处理
(一)数据来源
1.文本数据的获取及预处理
上证50指数作为国内最活跃的股票市场之一,不仅具有历史周期长,覆盖面广,数据实时性高等特点,还与中国经济市场整体息息相关。因此,本文以上证50指数为研究对象,探究投资者情绪对股票市场的影响。
本文关于情绪指数的文本数据来源于东方财富网。利用Python爬取了2023年1月1日至2023年12月31日投资者对上证50指数历史发帖信息,累计数据82万余条。利用情感词典构建情绪指数。具体数据采集过程如下:
文本爬取:利用Python爬取东方财富股吧上证50指数每条股评的日期,阅历数,评论数,评论等信息。
数据清洗:对文本进行大小写转换,全半角转换,异常字符过滤(换行制表符之类)等,对不包含中文,且长度小于5的异常文本过滤。最终得到有效文本数据825408条。
情绪分类:利用Python对评论进行情感分词,再利用情感词典对清洗后的数据进行情感分类。以下为Python抓取后的部分评论:
2.市场指标数据的获取及预处理
本文以上证50指数股票上市的50只股票为样本,样本数据区间为2023年1月1日至2023年12月31日,数据来源于Wind数据库,获取的股票数据包含股票代码、交易日期、收盘价、开盘价、最高价、最低价、成交量、成交额、均价。
(二)变量选取
1.基于情感词典的投资者情绪指数的构建
情感词典法是一种基于预定义词典的情感分析方法,该词典包含积极情感词汇与消极情感词汇。具体步骤如下:
首先,利用Jieba对中文文本进行分词及词性标注。
其次,构建情感词典。金融文本的语调与情绪包含上市公司管理层以及个体投资者表达的情感信息,并对股票市场产生影响,而构建语调和情绪指标的关键是情绪词典。因此,本文以姚加权等(2015)[15]构建的金融领域中的中文情绪词典为基础,构建情绪词典。
计算情感得分。对上述切割后的文本进行输入,再利用算法对上述划分后的情感词进行情感得分计算。计算情感得分的具体步骤如下:
第一步:利用情感词典,将切割后的词语进行分析,积极词汇赋值为1,消极词汇赋值为-1。
第二步:在情感词典的基础上,再分析该段评论的语境计算情感得分,主要包括:计算程度副词(如完完全全,备至,倍加,百分之百等)对情感得分的影响;计算否定词(如否定、非、不、别、未等词汇)对情感得分的影响。
根据上述步骤则可以计算出每个情感词的情感得分,然后加权求和每段评论情感词的得分。在情感分析任务中,根据特定领域和语境的要求,灵活地调整积极情感词和消极情感词的权重,以确保分析结果的准确性和适用性。此外,在处理数据空缺值时,本文采用了向前插值的方法。
最后,标准化情感得分。对计算后的情感得分进行归一化处理,将得分归一化到[-1,1]。当得分大于零时将其视为积极,小于零视为消极,等于零视为中性。其具体如下:
2.指数成分股的确定
图2描述了市场情绪指标与上证50指数走势的对比图。经分析,发现市场情绪指标与上证50指数在同一时间段的收益率之间存在显著的相关性。且利用R统计软件进行计算,得出了市场情绪指数与上证50指数在同一时间段的收益率之间的相关系数为0. 5231。这说明市场情绪指标对上证50指数未来走势预测、相对位置判断起到一定的作用,此外,指数成分股在一定程度上能减低白噪声影响,因此,将市场情绪指标纳入预测模型具有一定的研究意义。
四、投资者情绪对股票波动率的影响
(一)向量自回归模型
向量自回归模型(VAR)是一种用于时间序列分析的统计模型,它可以描述多个变量之间的相互关系。最初由Sims (1980)提出,目前,广泛应用于宏观经济学、金融学以及其他时间序列数据分析的领域中。VAR模型的基本思想是将所有的变量都视为内生变量,并且先假设每一个内生变量都可以通过其他内生变量线性组合而成。通常,VAR模型包括P个内生变量,而VAR (p)表示这个模型的滞后阶数为p。VAR模型的方程可以表示为:
Yt=A1Yt-1+A2Yt-2+…+ApYt-p+εt(1)
其中,Yt是一个k×1的向量,表示k个内生变量的列向量,A1,A2,…Ap是k×k的滞后系数矩阵,εt为一个k×1的误差向量,表扰动项。
为了分析情绪对股票波动率的影响,本文以上证指数的收益率为被解释变量(y),解释变量为以情绪词典为基础的情绪指数(x),控制变量分别为开盘价(c1),收盘价(c2),最高价(c3),最低价(c4),成交量(c5),成交额(c6),均价(c7)建立向量自回归(VAR)模型探讨情绪对股票波动率的影响。时长为2023年1月1日至2024年12月31日的日度数据。本文对于VAR模型的构建皆来自于Stata软件。
(二)向量自回归模型的构建
1.单位根检验
在构建向量自回归(VAR)模型之前,为确保时间序列数据不遭受“伪回归”干扰,需对所有变量实施单位根检验。此外,为了缓解异方差等潜在问题,本研究已预先对变量采取了对数变换处理,并在此基础上进行后续的检验工作。ADF单位根检验结果如下表所示:
由表2中的p值可以看出,只有收益率,情绪指标,成交量,成交额为平稳序列,其他几个变量都为非平稳序列,需要继续差分,到平稳为止,再做ADF检验。
从表3可看出,一阶差分后九个变量都在小于1%的显著性水平上平稳,因此可以认为原始数据序列为一阶单整序列。另外,对于是否用差分后的数据做向量自回归,不同学者持有不同看法,为了保留原始数据所蕴含的经济信息,本文采用原序列做分析。
2.确定最优滞后阶数
滞后阶数过高或过低都将影响模型的准确性。滞后阶数过低,会出现严重自相关现象。相反,若滞后阶数设定过高,则会导致回归模型中参数数量激增,进而缩减了模型的自由度。因此,在构建模型之前,需确定一个最优的滞后阶数,以确保模型的有效性和估计参数的稳健性。滞后阶数的确定如下表4所示。
通过Stata运行结果可知,5%的临界值为-1. 950,该检验统计量为- 13. 986,代表不能拒绝原假设Ho:不存在协整关系。可以建立向量自回归(VAR)模型。
4.向量自回归模型构建
上证指数的收益率为被解释变量(y),解释变量为以情绪词典为基础的情绪指数(x),控制变量分别为开盘价(c1),收盘价(c2),最高价(c3),最低价(c4),成交量(c5),成交额(c6),均价(c7)所得模型结果如下表所示。
通过向量自回归模型可以看出,情绪指数的变动对于股票市场的影响具有一定的时滞性,但情绪指数发生变动时对于股票收益率具有一定的影响。
5.单位圆检验
为了确保已经建立的VAR模型是稳定的,还需进行单位圆检验。如果特征根在单位圆内,则说明变量是稳定的,可以进行后续的脉冲响应等分析。
从图3发现,变量的特征根都落在单位圆内,因此,本文建立的向量自回归模型是稳定的,可以继续分析。
格兰杰因果检验(Granger Causality Test)是一种广泛应用于验证两个时间序列变量间潜在因果关系的统计方法。该检验方法最初由经济学家克莱夫·格兰杰(1969)年提出,通过对时间序列数据的深入分析,揭示变量间存在的因果关系。
通过Stata运行结果可知,原假设为:上证指数不是情绪指标的格兰杰原因p值为0.023,拒绝原假设,即上证指数价格的变动会影响投资者情绪,反之,投资者情绪对于上证指数的价格不会造成影响。
6.脉冲响应图
通过脉冲响应图可以判断上证指数收益率与情绪指数变量存在的联系,脉冲响应图像如下所示:
图4中,情绪指数(x)为冲击变量,上证指数收益率(y)为脉冲响应变量。可以看出前三期有明显的负向冲击,从第二期之后开始下降,第七期之后趋于平稳。说明从长期来看,情绪指数的波动对于上证指数收益率的影响较小,其影响主要集中在短期。
(三)投资者情绪对股票波动率的影响
从上述分析可以得到如下结论:情绪是影响股票市场波动率的重要因素之一,并且这种影响并非一成不变,而是随时间展现出复杂的非线性特征。1.通过向量自回归模型可以看出,情绪变动对于股票市场的影响具有一定的时滞性,但情绪发生变动时对于股票收益率具有一定的影响。在大部分情况下,当消极情绪增加时,股市波动率会受到正向冲击,即消极情绪的上升会加剧股票市场的波动,且这种正向冲击效应在短期内更加显著。反之,当投资者情绪高涨时,股市波动率则将会受到负面的冲击。2.通过脉冲响应分析可以看出,情绪波动对于股票收益率的影响,在短期内造成的冲击较明显,从长期看,情绪波动对股票收益率影响较小,且趋于平稳。
五、基于机器学习的预测-LSTM神经网络
上文已经探究情绪对股票波动率具有一定的影响,而股票波动率则主要体现在收盘价的波动上,基于此,本文利用机器学习法中的LSTM(LongShort-Term Memory)神经网络对上证50指数的收盘价进行预测,来探讨股票在市场中的波动情况。
(一)LSTM神经网络
LSTM最初由Hochreiter和Schmidhuber (1997)提出,是一种特殊的循环神经网络(RNN)结构,通常被用于处理和学习时间序列数据,如语音识别、自然语言处理、时间序列预测等。相较于传统的RNN结构,LSTM通过引入门控单元的机制,能够更好地捕捉和利用时间序列数据中的长期依赖关系,从而提高模型的性能和泛化能力。
LSTM(Long Short -Term Memory)是一种特殊类型的循环神经网络结构,具有三个关键的门控单元,分别是输入门、遗忘门和输出门。这些门控单元通过学习来控制信息的流动,帮助LSTM网络更好地处理长期依赖关系。图5为LSTM的结构。
LSTM的三个门的工作原理如下:
1.遗忘门
遗忘门确定了细胞状态中哪些信息应该被遗忘或丢弃。表明从状态c(t-1)到状态c(t)保留信息的多少,从而达到“遗忘”的功能。通过sigmoid激活函数,根据输入数据和前一个时间步的隐藏状态计算出一个0到1的值。通过相乘,遗忘门控制着细胞状态中历史信息的保留程度,决定哪些信息会在细胞状态中持续存在,计算方法如下:
其中,σ代表sigmoid函数,U和W为权重矩阵的元素,b为偏置系数。
2.输入门
输入门决定新输入信息保存到当前单元状态的数量。其中,sigmoid激活函数,用于生成一个0到1的值,表示每个单元状态中的哪些值应该被更新。通过tan函数创建新的候选值向量,这两个值对状态进行更新:
其中,b是LSTM细胞单元中的偏置,U为输入权重,W为循环权重。
3.输出门
输出门控制着当前时刻的隐藏状态以及下一个时刻的细胞状态如何影响最终的输出。使用sigmoid激活函数来确定输出状态的哪些部分将被激活,输出门还包含一个tanh激活函数,用于生成-1和1的值,表示当前时间步的细胞状态的候选值。通过相乘的方式,输出门将细胞状态中经过筛选和更新后的信息发送到下一时间步的隐藏状态,并基于这个隐藏状态生成最终的输出,具体算法如下:
其中,b是LSTM细胞单元中的偏置,U为输入权重,W为循环权重。
(二)模型建立
对样本数据进行归一化处理。由于样本数据的波动范围较大,在模型训练过程中会出现训练时间长、收敛速度慢的问题。这种情况进一步加剧了数据的波动性,使其对模型的作用相对减弱,从而降低了模型训练的效率和准确性。因此,在建立模型之前,先要对数据进行归一化处理。使用MinMaxScaler函数,将样本数据缩放到-1和1之间,进行归一化处理。
数据集制作。改变数据形状,把数据类型转换为ndarray类型,再将预处理过的数据集随机选取80%作为训练数据(Training)训练网络,20%作为测试数据(Testing)判断LSTM神经网络的好坏。最后,将numpy数组转换为PyTorch的tensor对象。这是因为在PyTorch中,神经网络的输入和输出必须是tensor对象。通过将数组转换为tensor对象,可以将其作为神经网络的输入。
模型构建。使用torch. nn模块定义一个LSTM模型,包括一个LSTM层和一个全连接层。其中,隐藏层特征的维度为32,循环的次数为两次,利用前19天的收盘价预测第20天的收盘价。
模型训练。使用生成训练样本的函数,将训练数据划分为输入样本和目标样本,并将其转换为PyTorch张量。加载训练好的模型参数,并使用生成训练样本的函数,将测试数据划分为输入样本和目标样本。
进行预测和评估。使用加载的模型进行预测,并计算预测结果与真实值之间的均方误差。
可视化预测结果。绘制测试集中的真实值和预测值的折线图,以便直观地比较两者之间的差异。
(三)训练结果
图6表示上证指数在2023-01-01至2023-12-31的收盘价的时序图,从总的趋势来看2023年上证指数的收盘价呈下降的趋势。这可能是由于疫情扰动,投资者信心明显受挫,且市场对于国内经济乐观预期存在偏差的持续修正,加之国内房地产领域景气回落,投资降幅持续扩大,使得上证指数一路走低。
表为收盘价标准化后的部分数据,通过表7可以看出,本文已经将242个数值转换到[-1,1]之间。
将数据转换成张量后,建立LSTM模型,训练后的部分均方误差如表8。
通过表8可以得出,使用交易日的前19天数据预测下一个交易日涨跌时,被训练后的均方根误差逐渐减小,预测效果越来越好。为了更全面地反映本文所构建的模型对股票价格数据的预测效果,本文利用该模型对上证50指数收盘价的数值进行了预测,预测结果与实际值的对比以及损失函数图像如图7所示。
图7左边红色为训练集的值,蓝色为真实值,横坐标为日期,纵坐标为收盘价。结合图10中预测值,损失函数图像以及表10的均方根误差可以看出该模型拟合效果较好,且通过Python计算出:测试集的RMSE为56. 55,训练集的RMSE为52. 69。
图8对整个LSTM模型加以整合,其中绿色曲线为上证指数收盘价的真实值,紫色为测试集的值,红色为训练集的值。LSTM模型在具有市场代表的上证50指数中表现出较好的预测效果,且LSTM对长期的依赖关系有记忆效果,能够从金融序列中学习到有效特征,并能正确地预测出未来的发展方向,具有一定的研究意义。
六、总结与建议
本文研究了机器学习算法在股票市场中情绪分类和股票指数预测问题。通过文本挖掘方法,从东方财富网吧爬取上证50指数从2023年1月1日至2023年12月31日的全部股评,再基于情感词典对股吧评论数据进行文本情感分类,并以此为基础构建投资者情绪指数。此外,为了深入分析市场情绪指标对股票市场波动性的潜在影响,构建向量自回归(VAR)模型,探究我国投资者情绪对上证50指数股票收益率的具体影响及其作用机理。最后,构建LSTM时间序列预测模型,对上证50指数进行短期预测,发现将深度学习应用于股票市场等金融领域中具有一定的可行性。
(一)研究结论
研究发现:1.基于文本构建的市场情绪指标与上证50指数在波动幅度上具有一定的相似性,且通过R计算,市场情绪指数与上证50在同一时期的收益率的相关系数为0.5231。因此,本文初步判定投资者在股吧评论中的言论情绪会影响股票市场的收益率。2.为了具体探究情绪指数对上证50指数的影响,建立向量自回归模型,发现情绪指数的变动对于股票市场的影响具有一定的时滞性,且情绪波动对于股票收益率的影响,在短期内造成的冲击较明显,从长期看,情绪波动对股票收益率影响较小,且趋于平稳。3.构建LSTM神经网络,从预测结果的均方误差以及损失函数来看,LSTM神经网络在短期内对于股票市场的收益率具有预测能力,这一结果表明,投资者在股票市场中进行投资组合配置时,以及相关部门在构建金融预警系统时,均可提供参考依据。
(二)对策建议
上述研究结果表明,投资者情绪对中国股市的表现仍有影响,即所谓的“羊群效应”依然存在。这表明中国股市需要进一步完善和发展,以更好地服务于投资者,提高市场的整体收益。针对此现象,本文向投资者和监管机构提出以下建议:
1.加强市场约束,合理把控开户门槛
有关部门在用户开户前,就投资理念和基础知识进行全面查,以确保投资者在进入市场前已具备所需的投资知识。通过严格的筛选标准,筛选出具有合适理念的投资者进入市场,能有效遏制市场不合理的投机活动,确保市场稳定发展。
2.健全市场管理,提升合规风控水平
股票市场瞬息万变,相关部门在对股票市场进行监管时,应提前备好方案,避免突发情况。在应对突发事件的过程中,提升投资情绪的透明度,有助于维护市场的流动性,并有效缓解投资者非理性行为对经济稳定运行所产生的负面效应。此外,当资本市场遭受冲击时,监管机构应当强化对市场舆情的监控力度,并实时追踪股市的动态变化,以确保能够及时应对市场波动。
3.利用社交平台,传递正确投资理念
在互联网快速发展的时代,信息的传递速度越来越快。在信息传递时,股民间的情绪相互影响,这也就造就了股票市场的强烈动荡。因此,除了强化市场监督,还应合理利用社交平台,向投资者传达正确的投资理念,要求股民们在进入市场前,进行一定的自我风险评估,加强风险防控意识,避免“羊群效应”。