基于文本情感的投资者情绪与股指关系研究

2021-06-21 03:52陈妙苗
河南科学 2021年5期
关键词:发帖股指投资者

李 珊,丁 宇,陈妙苗,郑 晨

(南京航空航天大学经济与管理学院,南京 211106)

投资者情绪是行为金融学研究的一个热点.行为金融学理论认为证券的价格不只是由其内在的价值所决定,投资者的投资情绪和行为也会对其产生很大的影响.针对投资者情绪的研究主要是分析其与市场收益的关系[1].Delong等最先研究投资者情绪与股票价格的关系,并构建了DSSW模型,指出投资者情绪是影响金融资产均衡价格的系统性风险[2].投资者情绪指数是量化分析投资者情绪的主要方法,传统的投资者情绪指数主要可分为直接型情绪指数和间接型情绪指数.直接型情绪指数是指通过问卷等调查方式获得的投资者情绪,主要有友好指数、投资者智能指数以及央视看盘指数等;间接型情绪指数主要是以股票市场的交易信息作为情绪的代理变量,利用主成分分析等方法构建得到.对于直接投资者情绪指数,Brown和Cliff利用投资者智能指数反映投资者情绪[3],王美今和孙建军则用央视看盘指数度量投资者情绪[4].对于间接投资者情绪指数,Baker和Wurgler对股票交易数据如封闭式基金折价、市场交易量、IPO数及首日收益率、股利收益和股票发行/证券发行比率,利用主成分分析法并采用第一主成分作为投资者情绪指数[5].基于Baker的研究,易志高和茅宁将股利收益和股票发行/证券发行比率替换为消费者信心指数和新增投资者开户数,采用主成分分析法提取前5个主成分构建了投资者情绪综合指数[6].随着互联网技术的快速发展,海量的互联网数据和日趋成熟的数据处理技术为研究投资者情绪提供了新的思路和方法.Antweiler利用贝叶斯和支持向量机的方法对雅虎金融板块上近150万条数据进行分析并构建投资者情绪指数,研究发现股票收益率与当日论坛中的信息指标呈显著的相关关系[7].Tetlock通过对媒体新闻内容和股票收益率进行研究,发现悲观的新闻报道会对股票收益率产生影响[8].孟雪井等利用文本挖掘技术建立了3种词库,并在综合3种词库基础上构建了投资者情绪指数,证明了我国股票市场的投资者情绪与市场指数之间存在联动机制[9].石善冲等基于微信文本构建了投资者情绪指数,并与收盘价、成交量时间序列之间的关系进行研究,结果表明微信文本挖掘的投资者情绪对于预测股票市场表现有重要作用[10].目前用于构建投资者情绪指数的文本分析方法主要是机器学习法和情感词典法[11-13].机器学习法主要利用传统的机器学习算法包括决策树、朴素贝叶斯和支持向量机等,需要选取或者建立文本特征,然后进行情感分类,此方法的关键在于选择合理的特征.情感词典法需要先建立相关领域文本的情感词典,在此基础上对各文本数据进行情感打分,最后根据得分进行情感分类.从目前的研究来看,上述两种方法依旧存在着一些不足之处:机器学习算法的效果很大程度上取决于文本特征的选取[14],而情感词典法的词语在不同语境中所表现出的不同情感倾向问题是该方法的主要缺陷[15].随着对深度学习领域的不断探索和研究,越来越多的学者开始利用深度学习算法来进行文本分析.国外学者最早将深度学习算法与自然语言处理结合起来并取得良好的效果[16-18].近年来,国内的学者开始陆续将基于深度学习算法的文本分析方法应用于网络文本研究中.梁军等提出了一种基于深度学习的递归神经网络模型对微博文本进行情感分析,在不增加神经网络复杂度的前提下,提升了模型的准确性[19].李杰等采用卷积神经网络模型对电商评论进行短文本评论情感分类和特征词聚类,结果表明模型的情感分类达到高准确率,并且能有效提取产品特征[20].基于深度学习的文本处理方法正不断受到各领域学者的青睐,然而在对投资者情绪指数研究上,还没有引起广泛关注.

基于深度学习模型对互联网金融论坛文本数据进行分析,进而展开对投资者情绪的研究,采用双向长短期记忆网络模型(Bi-directional Long Short-Term Memory,Bi-LSTM)对投资者的论坛发帖文本进行情感分类,并依此设计直接情绪指标,在此基础上结合常用的间接情绪指标,利用主成分分析法构建新的综合投资者情绪指数.选取我国散户投资者为研究对象,通过他们在“上证股吧”论坛发帖的情感倾向分析投资者的群体情绪,并研究其与股指的关系.具体工作为:获取股吧论坛的发帖文本并处理、利用百度开源的Bi-LSTM模型对发帖文本进行情感分类、构建综合投资者情绪指数(Comprehensive Investor Sentiment Index,CISI)、研究投资者情绪与上证股指的相互性关系.

1 Bi-LSTM模型原理

1.1 LSTM网络

长短期记忆网络(Long Short-Term Memory,LSTM)模型是在循环神经网络(Recurrent Neural Network,RNN)模型的基础上进行改进的一种特殊的循环神经网络模型,由Hochreiter等于1997年提出[21],LSTM模型解决了RNN模型在长序列任务中的梯度消失的问题.LSTM模型通过在RNN模型隐藏层单元中添加可控门对其进行优化,通过遗忘门f、输入门i和输出门O对信息进行筛选,并通过更新“细胞状态C”来保存重要信息,从而解决梯度消失问题,达到长期记忆的作用,LSTM记忆单元的结构如图1.

LSTM模型的记忆单元首先通过遗忘门以一定的概率将上一单元的输出ht-1进行丢弃.读取当前输入信息xt和上一单元的输出ht-1,通过Sigmoid函数(图1中由σ表示)输出数值ft∈[0,10],该数值决定对上一单元信息的保留程度,数值越高表示保留信息越多(公式(1)).

输入门用于确定需要存入细胞状态中的信息.输入门的操作包含两个环节:首先通过Sigmoid层决定更新哪些信息(公式(2)),利用tanh层生成一个备选细胞状态~Ct(公式(3)),然后综合上述信息更新细胞状态Ct(公式(4)).

记忆单元的最后一个核心部分是输出门.输出内容ht由上一单元的输出ht-1、本单元的输入xt以及更新的细胞状态Ct共同决定,Ot表示t时刻输出门的输出值,具体计算分为两步:

由于遗忘门、输入门和输出门的存在,记忆单元严格控制了信息的输入和输出,保证了信息的质量,同时记忆单元中细胞状态的更新机制使信息能够得到长时间的保留,从而保证LSTM模型对长距离信息的敏感性.

1.2 Bi-LSTM文本分类模型

由于LSTM模型具备长期记忆能力,因此对于处理文本序列数据任务有着很好的效果.但是在处理文本任务时,由于LSTM模型处理数据是单向的,只能获取上文信息而无法获取下文信息,为了避免这种问题,采用双向长短期记忆网络Bi-LSTM模型,模型结构如图2.

Bi-LSTM模型主要有4层结构,分别是词嵌入层、前向LSTM层、后向LSTM层以及全连接分类层.词嵌入层将文本词汇转换成低维稠密实值词向量;通过前向LSTM层从前往后获取前文信息,通过后向LSTM层从后往前读取下文信息,然后将两个LSTM层的输出拼接成一个长向量;最后用一个全连接层连接前层所有神经元输出,利用Softmax函数将输出转换成概率分布,对应概率最大的种类即为该文本的预测分类.

图2 Bi-LSTM文本分类模型结构图Fig.2 The structure of Bi-LSTM text classification model

2 指数设计研究

2.1 变量选取和设计

本文设计一套新的指标体系,并基于CICSI指标构建法[6]构建新的综合性投资者情绪指数(CISI),该指标体系包含投资者的直接情绪指标变量和间接情绪指标变量.由于数据的可获取性,本研究选取的所有指标都是月度数据.首先,根据股吧论坛中的发帖数据设计直接情绪指标:

正向文本情绪得分(POS_SCORE):根据Bi-LSTM模型对文本的情感分类结果,以月为单位统计该月正向帖子的发帖数量(n_pos),将其除以月发帖总量(n_total),从而剔除每月发帖总量不同所造成的影响,得到正向文本情绪得分(公式(7)).该指标反映了散户投资者对于股市行情看涨的直接情绪.

负向文本情绪得分(NEG_SCORE):以月为单位统计该月负向帖子的发帖数量(n_neg),并将其除以该月发帖总量(n_total),同时为了体现其负向性,在前添加负号.该指标反映了投资者对于股市行情看跌的直接情绪.

关注度指标(FOCUS):已有研究表明,投资者的关注度与投资者的情绪有关,并且投资者关注具有对股票市场的解释能力及很强的预测能力[22-23].将单个发帖的浏览量(n_read)和评论量(n_comment)之和定义为该帖的关注度值,将每月所有帖子的关注度值求和作为该月关注度指标(公式(9)).

同时选取常用的代理变量作为间接情绪指标,主要包含6个指标:

1)封闭式基金折价(DCEF):衡量基金价格对资产净值的负向偏离程度,折价越低,表明投资者的期望越高.

2)换手率(TURN):衡量股票交易的活跃程度,换手率越高,表明投资者的投资热情越高.

3)新增开户数(NIA):直接反映了散户投资者对投资市场的情绪,投资者情绪高涨时,会吸引新的投资者参与投资,因此该指标能很好反映整体的投资者情绪.

4)IPO数量(IPON)及首日收益率(IPOR):当股市行情较好时,投资者情绪高涨,这时IPO的数量将会增加;投资者情绪越高涨,对该股期望值越高,则其首日收益率越高.

5)消费者信心指数(CCI):衡量投资者对未来宏观经济的看好程度,通常消费者信心指数越高,表明其对未来经济走势越看好,因而会更有可能参与到股市的投资中.

6)消费者价格指数(CPI)以及宏观经济景气的一致性指数作为宏观经济走势的代理指标:数据由CSMAR数据库获取.这是考虑到由于宏观经济的走势会对投资者的情绪产生影响,因此在构建投资者情绪指标时需要剔除该影响.

2.2 投资者情绪指数设计

基于上证大盘交易数据以及“上证指数”股吧评论文本数据设计一套新的情绪指标,并在此基础上构建综合投资者情绪指数,指数的构建方法主要是主成分分析法.在进行主成分分析时,保留贡献度最大的前5个主成分,同时保证所选取的主成分累计方差解释率不低于75%,以保证主成分的解释作用.

首先在原始的9个情绪指标基础上进行提前期处理,构建指标的“提前”和“滞后”变量共18个.对所有变量进行标准化处理后进行主成分分析,对5个主成分进行加权平均构建初始投资者情绪指数(CISI0).分别对CISI0与18个变量进行相关性分析,选择相关性较大的“提前”或者“滞后”变量作为各指标的最终代理变量.对上述得到的9个指标变量进行第二次主成分分析,并对主成分进行加权求和,得到含有宏观因素的情绪指数(CISI1).为了剔除宏观因素影响,以CISI1为因变量,以CPI和宏观经济景气一致性指数作为自变量建立线性回归模型,取其残差序列作为剔除了宏观因素影响的CISI.

3 投资者情绪指数实证

3.1 数据采集及清洗

中国股民主要在证券论坛上进行信息交流,选取用户最多且人气最高的证券论坛“东方财富网”中的“上证指数吧”作为数据源,通过python爬虫获取2015年1月1日至2019年12月31日用户所有的发帖样本3 973 657条,每条样本包括标题、内容、作者、发帖时间、最后评论时间、阅读量和评论量.通过对数据进行初步观察,发现绝大多数帖子的标题和内容存在相同或者高度重复的现象,因此只保留帖子的内容部分来分析投资者情绪.进一步观察发现,该股吧帖子内容主要分为3种:股吧官方发布的信息帖、投资分析师的分析帖以及散户投资者的交流帖.他们的表现在字数上的区别在于前两种帖子篇幅较长,通常在几百字甚至更多,而散户交流帖则偏短,一般为一到两个句子,平均长度不超过50字.为了剔除非散户帖子对研究结果的影响,将长度大于50字的帖子视作非散户发帖并且删除.最后将发帖时间和最后评论时间不在同一个月的样本剔除,从而避免跨多天的帖子对研究结果的影响.经过上述数据清洗,此次研究得到有效样本3 199 291条.

3.2 文本情感分类

利用百度开源的Bi-LSTM模型“senta_bilstm”对清洗后的发帖进行文本情感分析,“senta_bilstm”是基于海量数据训练具有高准确度文本情感二分类模型.模型对文本进行分析后,将文本的情感倾向及其属于正向情绪的概率输出,模型分类结果如表1.由示例可以看出,文本的正向情感越强烈,该句属于正向文本的概率就越高,同理,当文本所表达的负向情感越强烈时,该句的正向概率就越低,由此说明模型能够很好地理解文本的情感强度.对于一些口语表达或者股市论坛独有的表达如“跳水”“吃面条”“喝白开水”等,虽然没有直接情感词存在,模型也能准确识别出文本的情感倾向,弥补了通用型情感词典在这方面的缺陷.

表1 文本情感分类结果示例Tab.1 Examples of text sentiment classification results

3.3 指数构建

基于“上证指数”股吧发帖相关数据以及发帖文本的情感分类结果,以月为时间单位设计了反映投资者直接情绪的相关指标,同时从CSMAR数据库中获取反映间接情绪相关指标的月度数据,各指标的样本数量为60.对标准化处理后的所有指标的“提前”和“滞后”变量进行主成分分析并根据最大方差对主成分变量进行旋转,选择前5个主成分(累计方差解释率为77.98%)进行基于特征值的加权平均,得到初始投资者情绪指数(CISI0).计算CISI0与所有指标变量的相关性,如表2所示.

表2 CISI0与代理变量相关系数表Tab.2 Correlation coefficient table of CISI0 and proxy variables

根据表2相关性值的大小,选择FOCUSt、POS_SCOREt-1、NEG_SCOREt-1、DECFt-1、TURNt、IPONt、IPORt、NIAt-1和CCIt作为构建CISI1的代理变量.CISI1的构建方法与CISI0一致,前5个主成分累计方差解释率为89.603%,各代理变量的因子载荷及其与CISI1相关系数如表3所示.

表3 各代理变量因子负载及与CISI1相关系数表Tab.3 Factor load of each proxy variable and its correlation coefficient table with CISI1

因此,CISI1的计算公式如下:

为了剔除宏观因素对投资者情绪指数的影响,以CISI1为因变量,宏观经济景气一致性指数和消费者价格指数作为自变量建立线性回归模型,回归结果见公式(11).式中CPI表示消费者价格指数,CI表示一致性指数,取其残差序列ε作为最终的CISI.

4 实证检验和结果

4.1 相关性分析

为了验证本文构建的投资者综合情绪指数(CISI)能否反映上证股指(SI),从二者相关性的角度进行分析.本文收集了2015年1月至2019年12月上证股指的月度数据,绘制出CISI与SI的走势图(图3),同时计算二者的皮尔森相关系数.

图3 CISI与SI走势图Fig.3 Trend chart of CISI and SI

由图3可以看出,投资者综合情绪指数与上证股指的走势基本一致,投资者情绪曲线对股指曲线具有良好的拟合效果,说明本文所构建的综合投资者情绪指数能够一定程度上反映出股指的变化趋势.由二者的走势曲线可以粗略地看出,投资者情绪与股指之间的变化趋势在不同的时期存在一定的“提前”和“滞后”关系,在2015年期间,股指先于投资者情绪发生变化,随后几年二者的变化互有先后.同时,投资者情绪指数序列和股指序列之间的皮尔森相关系数为0.520 2,在1%的水平上显著相关,说明投资者情绪与股指之间存在较强的正相关关系.

4.2 投资者情绪与股指的互动性关系分析

为了对投资者情绪与股指之间的关系进行进一步的分析,对二者进行格兰杰因果检验并构建VAR模型进行方差分解.首先采用增广的Dicky-Fuller检验法(ADF)进行单位根检验,验证CISI和SI的平稳性.由表4的检验结果可知,二者的ADF检验值分别在低于1%和5%的临界值水平下拒绝“CISI有单位根”和“SI有单位根”的假设,即CISI序列在1%的显著性水平下平稳,上证股指序列SI在5%的显著性水平下平稳.

表4 平稳性检验结果Tab.4 Stationary test results

由于时间序列变量CISI和SI均为平稳序列,因此可以直接进行格兰杰因果检验,从统计学的角度分析投资者情绪与股指之间的因果关系,表5列出检验结果.

表5 格兰杰因果检验结果Tab.5 The results of Granger causality test

对于假设“CISI不是SI的格兰杰原因”,在滞后1~3阶时检验结果P值均小于0.05,因此均拒绝原假设,即CISI是SI的格兰杰原因;对于假设“SI不是CISI的格兰杰原因”,在滞后1~3阶时,P值均远小于0.01,因此在1%的显著性水平下拒绝原假设,即SI是CISI的格兰杰原因.由上述格兰杰检验结果可知,投资者情绪指数和上证股指之间存在双向的格兰杰因果关系,即投资者的情绪会受到股市走势的影响,同时又会反过来对股市产生影响.

进一步构建VAR(2)模型对CISI和SI进行分析,模型如下所示:

式中:k表示模型的最大滞后阶数,ε1t和ε2t为方程的随机扰动项.本文根据SIC、SC以及HQ信息准则,确定模型的滞后阶数为3.模型的单位根均小于1,因此该VAR模型是稳定的.基于VAR模型对投资者情绪指数CISI以及上证股指SI进行方差分解,如表6所示.

表6 方差分解结果Tab.6 The results of Variance decomposition

由SI的方差分解结果可知,在股指和投资者情绪的双重影响中,股指的变动主要由其自身解释,并且自身的方差解释率最终稳定在85%左右.同时,投资者情绪对股指变化也有一定的解释并且解释率呈现上升趋势,由初期的1.119%逐渐增加,最后稳定在14%左右.由CISI的方差分解结果可知,投资者情绪不仅受到自身往期的影响,同时也会受到股指的影响,并且在这个影响的过程中,股指的方差解释率由最初的0快速增长,在第5期时到达51%,随后保持稳定.由股指和投资者情绪的方差分解结果可得,二者对彼此会产生一个逐渐增强的长期影响作用,但是最终的影响强度是不同的.对于股指而言,投资者情绪对其有一定的解释作用,但是解释力度相对较小,表明投资者情绪只是股市行情众多影响因素中的一部分,因而影响作用相对较低,同时也印证了股市走向的难以预测性.对于投资者情绪而言,股指对其有着很强的解释作用,表明股市行情对投资者的情绪有着至关重要的影响,揭示了股市行情走高时,投资者投资情绪随之高涨,而行情走低时,投资者情绪持续低迷的现象.

4.3 优越性分析

为了验证本文所设计的CISI指数的优越性,依照相同的流程和方法,选择DCEF、TURN、IPON、IPOR、NIA以及CCI构建间接投资者情绪指数(SENT),并将其与CISI进行对比分析.以上证股指(SI)作为因变量,分别以CISI和SENT作为自变量建立线性回归方程,如式(13)和(14),对比结果如表7.

表7 CISI指数与SENT指数对比结果Tab.7 Comparison results of CISI index and SENT index

由表7可知,在线性回归方程中,SI的R2为0.271,高于SENT的R2(0.117),说明CISI对股指的解释效果要优于SENT的解释效果.对于回归的均方误差MSE,CISI作为自变量时的MSE为0.742,小于SENT对应的MSE值(0.898),同时CISI与SI的相关系数(0.52)高于SENT的相关系数(0.342),说明CISI对股指的拟合效果更好.由此可见,添加了直接情绪因素的CISI指数比只包含间接型情绪的SENT指数取得了更好的股指拟合效果,因此CISI能更准确地反映出投资者情绪与股指之间的关系.由CISI的优越性可知,在量化投资者情绪并构建情绪指数的时候,仅仅依据股票市场的交易数据来构建的投资者情绪指数是不够的,还需要考虑到投资者的直接情绪因素.

5 结论

通过设计一套新的指标体系,以此构建了综合性的投资者情绪指数,并根据2015年1月至2019年12月共60个月的样本数据,对投资者情绪与股指间的互动性关系进行实证分析.构建的指标体系包含了投资者的直接情绪指标和间接情绪指标.其中,直接情绪指标基于“Bi-LSTM”模型对股吧发帖进行文本情感分析得到,间接指标则是从CSMAR数据库中获取的股市交易数据.主要研究结果如下:①投资者情绪与股指之间存在长期且正向的相互影响作用,并且这种影响作用呈现出逐渐增强的趋势.②投资者情绪和股指对彼此的影响程度是不同的,其中投资者情绪对股指的影响强度较小,而股指对投资者情绪的影响强度则很大.③对于投资者情绪指数,当其构建指标体系中包含投资者的直接情绪指标时,其对股指的拟合效果会比仅使用间接情绪指标所构建指数的效果更好.

目前,我国的投资市场仍处于发展阶段,散户投资者占有很高比例,投资者的情绪容易受到市场行情的影响.而投资者受影响后的情绪反过来又会对投资市场产生一定的影响,导致市场不规律波动.因此,对于每一个投资者而言,需要意识到自己的情绪在投资过程中受到的影响和作用,要加强专业知识的学习,减少情绪波动造成的损失.在投资者情绪的构建方法上,根据股吧论坛的发帖信息创新性地量化了投资者的直接情绪指标,并结合间接情绪指标构建了综合性的投资者情绪指数,期望该指数构建方法对后续的投资者情绪研究有所启发.

猜你喜欢
发帖股指投资者
聊聊“普通投资者”与“专业投资者”
纠纷调解知多少
新兴市场对投资者的吸引力不断增强
英议会掏钱让议员学如何发帖
平安千亿回购 股指触底回升
股指再度回落 机构逢高减仓
降杠杆引发股指冲高回落
股指震荡走高筑底之日可期
利用学校网络平台,培养学生写作兴趣
发帖与跟帖