徐雨迪
(南京审计大学,江苏 南京 211815)
波动率是衡量股市风险的重要指标,国内外学者一直致力于研究如何刻画及预测市场波动率。 有大量文献基于股票市场的历史数据或金融市场现有的指数来预测股市波动,虽然研究取得了一定的成果,但预测能力一直得不到很大的提升,而互联网的出现和兴起,为股市波动预测领域的研究提供了新的方向。 在网络时代,社交媒体既是信息传播的重要媒介,也是投资者的重要信息来源渠道。 越来越多的投资者在社交媒体平台上发表自己对当前股市的看法、通过网络搜索获取信息等,产生了大量具有极大研究价值的网络信息。 这些信息中往往包含投资者对股市的看法和未来投资计划,由此通过这一类型的社交媒体信息来了解投资者的未来的投资行为,进而对股票波动进行预测是一条行之有效的路径。 这一方面能够引导投资者客观认识自身存在的认知偏差,避免盲目跟风的同时,做好风险管理;另一方面,能够为完善股票市场的运行机制、制定监管政策提供思路。
过去市场波动率的研究大多基于GARCH 族和SV 族模型。 但GARCH 模型和SV 提供的是低频波动率,这种估计往往不够精确,会包含大量的噪声。为了解决这种估计的偏差,Andersen 等首次在高频数据的基础上提出了已实现波动率,是对日高频收益率的某种范式的直接加总。 在对已实现波动的研究中,波动率的预测占据着核心的位置。 Blair等、Koopman 等将已实现波动率引入 GARCH模型和SV 模型中发现,新构建的模型能显著提高对波动率的预测能力。 Corsi基于异质市场假说,定义短、中、长期波动,构建异质自回归已实现波动率模型,实证结果表明HAR-RV 模型对未来波动的预测能力明显优于GARCH、SV 等波动率模型。 在HAR-RV 模型之后,许多学者在此基础上提出了扩展模型。 如Andersen 等基于多种跳跃统计检验方法,建立了 HAR-RV-J 和 HAR-RV-CJ 模型,证实了分离已实现波动可以提高HAR-RV 模型的预测表现。 还有学者基于股票市场的历史交易数据或金融市场现有的指数,对HAR 模型进行改进。 如马锋等引入隔夜收益、刘晓倩等引入中国波指,有效提升了HAR 类模型的预测能力。
国内外学者关于市场波动率模型的研究已十分丰富,但均是基于市场交易的历史数据来研究和预测未来市场波动率。 随着行为金融学的兴起,定量化研究社交媒体信息,并进一步研究其对市场的影响成为新的研究热点。 互联网的普及,使得微博、Twitter、股吧等社交媒体成为用户发表观点和交流互动的主要平台,这从根本上改变了股票市场的信息结构。 这些平台上的网络信息一般不会在股市交易数据中得到反映,却蕴含着对股市运行有显著解释力的有效信息。 基于此,大量学者运用社交媒体信息构建在线情绪代理,从而对股票波动进行研究。
Da 等首次运用Google 股票代码的搜索量,发现搜索量会对股价产生影响。 同样,Dimpfl 等和Kim 等引入Google 搜索量,发现搜索量与波动率之间的走势方向具有一定的一致性,搜索量对未来股市波动性有一定的预测能力。 欧阳资生等运用百度搜索量,揭示了搜索量与沪深两股市波动性之间存在很强的相关性,历史搜索量将有助于提升模型的波动率预测效果。 除了搜索引擎,还有投资者能够自由发表观点、交流互动的各种股票论坛,论坛上的帖子能够非常直接地反映投资者的看法和情绪。 Li 等运用Twitter 上的帖子信息构建在线情绪,研究发现当日的在线情绪对三天后的股市具有更好的预测性能。 尹海员和吴兴颖发现金融界论坛发帖信息中的投资者情绪能正向预测股票市场运行。 Audrino 等使用来自 Twitter 和Stock Twits 的文本信息构建在线情绪,发现情绪变量能够显著提高波动性预测准确度。 还有学者发现投资者主要借助新闻媒体来帮助他们处理信息并决定信息的重要程度。 Moussa 等采用Factiva 数据库的新闻标题构建在线情绪,发现公司特有市场信息会对股票波动产生影响。 Atkins 等发现,当使用财务新闻作为机器学习算法的输入时,能提高波动性的预测。 王晓丹等发现从互联网新闻媒体发布的信息中提取的关注和情感指标对我国市场运行有一定的影响。
综上所述,目前国内外学者的研究已经证实由社交媒体信息构建的在线情绪代理包含股票市场运行的相关信息,但以往的研究基本上使用单一的数据源构建在线情绪代理,鲜有学者深入探讨不同社交媒体源构建的在线情绪代理在对股票市场的影响上,以及对未来市场波动预测包含的信息上是否存在差异。 此外,股市周末休市期间,社交媒体仍然在产生新的信息,较少学者将周末在线情绪纳入研究当中。 只有进一步解决上述问题,才能更好地进行股票波动预测的研究,这也会使得本研究更具实践意义。 基于此,本文选取上海和深圳证券交易所的A 股作为研究对象,通过收集社交媒体的数据构建不同类别的在线情绪代理,然后构建控制周一效应的HAR_M 模型,并将在线情绪代理引入构建扩展HAR_M 模型,通过比较新旧模型预测精度的差异研究在线情绪代理对股票波动额外的预测能力。
本文从上海和深圳证券交易所A 股市场中随机选取了300 只股票,以2011 年1 月1 日至 2019年12 月31 日所选股票5 分钟高频数据作为研究样本。 选择上述研究样本基于以下考虑:①2011 年至2019 年跨越了较长样本期,涵盖了中国股票市场相对完整的牛熊市波动周期;②上交所和深交所A 股市场存在大量的散户投资者,其行为更可能受到在线情绪的影响。 股票数据来源于Wind 数据库,社交媒体数据来源于中国研究数据服务平台(CNRDS),包括报刊财经新闻相关数据、网络新闻相关数据、上市公司股票代码网络搜索指数和股吧相关数据。 使用R 作为数据分析工具。
考虑到周末股市停盘而社交媒体仍然在产生新的信息,这些信息也是投资者做出决策的重要参考,从而会对未来股市波动产生影响,造成股市的周一效应,为此本文在处理数据时,将周末的社交媒体信息累加到周五的信息上,使得周末的在线信息能够被充分利用。
1. 已实现波动率
根据Andersen 和Bollerslev 对已实现波动率的计算方法,将交易日t
分割为N
段,P
为交易日t
中第i
个股价,i
=1,…,N
。 令r
为交易日t
内第i
时段的对数收益率,r
=100×(lnP
-lnP
)。 上交所和深交所上午的交易时间为 9∶30 ~11∶30,下午的交易时间为 13∶00~15∶00,在 5 分钟的采样频率下,每个交易日共有48 个样本点(不含开盘价),因此通过求解48 个5 分钟收益的平方和来计算已实现波动率。 已实现波动率(RV)可以表示为:2. 在线情绪代理
(1)新闻。 新闻相关数据包括与股票相关的每日积极和消极的报刊财经新闻数量,其中报刊财经新闻来源于国内400 多个主要金融媒体,基本上能覆盖投资者浏览和关注的大部分新闻。 本文借鉴Lin 等的研究,根据新闻的情感分类,构建新闻情绪(NBI):
再根据每日与股票相关的新闻总数量构建新闻关注(NAT):
其中,News是股票i
在t
时新闻总数量。(2)股吧。 股吧是投资者分享股市相关信息、发表观点和看法并交换投资经验的互动平台,其中的帖子反映了股市中大部分投资者的心理。 本文根据股吧帖子的情感分类,汇总每日每只股票的积极和消极股吧帖子数,构建股吧情绪(PBI):
再根据每日的股吧帖子数量构建股吧关注:
其中,Post是股票i
在t
时帖子数。(3)搜索引擎。 本文选取上市公司股票代码网络搜索量构建投资者关注(SVI)。 为了避免出现异方差的问题,对其进行对数处理:
其中,SV是股票i
在t
时的股票代码搜索量。3. 周一效应
由于周末的信息会对周一股市产生影响,为此本文构建周一虚拟变量Monday,用以控制股市波动中的周一效应,即交易日为周一取1,其他取值为0。收集相关变量数据后,本文对数据进行描述性统计分析,具体结果见表1。
从表1 可知,股吧情绪和新闻情绪的描述性统计类似,在样本期内,均值约为0.2,内部标准差都大于股票之间标准差。 对关注在线关注指数(股吧关注、新闻关注和投资者关注),均值差异较大。 这说明不同社交媒体的情绪类似,关注差异大。
表1 主要变量描述性统计
表2 为样本中每只股票的相关变量之间的成对同期Pearson 相关性,可以看出各变量之间均存在一定的相关性。
表2 主要变量的相关系数
根据波动率所具有的长记忆性,本文使用异质自回归(HAR)模型作为预测模型。 基准HAR 模型由下式给出:
但是HAR 模型没有考虑股市中普遍存在的周一效应,因此本文将控制周一效应的Monday变量引入HAR 模型,构建HAR_M 模型:本文对HAR 模型和HAR_M 进行 Hausman 检验,Hausman 统计量的值分别为994.6 和1010.1,p
值均小于0.05,说明随机效应模型的假设无法满足,个体效应与回归变量是相关的,所以采用固定效应模型比较合适。 因此,本文对模型(1)和(2)进行控制个体固定效应的面板数据回归,回归结果见表3。表3 基准模型回归结果
续表
从表3 可以发现:①Monday 变量的系数显著为正,股市波动存在显著的周一效应,这是由周末各种信息积累造成的;②综合模型的拟合优度R
可知,控制周一效应的HAR_M 模型的拟合能力要优于HAR 模型。 综上可知,控制周一效应的HAR_M 模型要优于传统的HAR 模型。考虑日和周平均的在线情绪对未来一日股市波动的影响,本文将在线情绪代理分别引入HAR_M_media 模型:
表4 样本内回归结果
从表4 可以发现,在线情绪代理均会对股票波动产生显著影响,具体来看除了周平均新闻、股吧和投资者关注对股票波动的影响存在反转效应外,在线情绪均对股市波动产生显著的正向影响,这可能是由于过度关注引起的。 综合模型的拟合优度R
可知,在线情绪代理变量的引入均在不同程度上提高了模型预测的准确度,说明在线情绪的引入有助于改善对未来波动率的预测效果。上文验证了在线情绪变量的引入有助于改善对未来波动的预测效果,本节进一步研究在线情绪代理对股票波动的样本外预测能力及差异。 基于此,本文在HAR_M 模型的基础上分别引入来自新闻、股吧和搜索引擎的在线情绪变量集,以研究不同类别在线情绪对股票波动的预测能力,具体的扩展HAR_M 模型如下。
为研究股吧在线情绪对股票波动的预测价值,在HAR_M 模型的基础上引入日和周平均的股吧情绪和关注,构建HAR_M_Posts:
为研究新闻在线情绪对股票波动的预测价值,在HAR_M 模型的基础上引入日和周平均的新闻情绪和新闻关注,构建HAR_M_Online:
为研究搜索引擎在线情绪对股票波动的预测价值,在HAR_M 模型的基础上引入日和周平均的投资者关注,构建HAR_M_Searching:
对模型运用“滑动时间窗”的样本外预测方法,具体如下。 以2011 年 1 月 1 日至 2012 年 12 月 31日为训练窗口期,用训练窗口期数据训练的模型进行未来20 天的预测。 然后保持训练窗口的长度不变,将训练窗口向前移动20 天,再次进行未来20 天的预测。 通过在整个样本期间重复滚动训练窗口,并且进行未来20 天的预测,获得了2013 年1 月1日至2019 年12 月31 日的滚动预测数据。 本文用均方百分比误差(MSPE)和平均绝对百分比误差(MAPE)作为判断模型预测精度的标准,定义如下:
HAR_M 类模型的样本外预测性能列在表5 中。上部面板列出的是2013 年至2019 年 MSPE 值,下部面板列出的是2013 年至2019 年MSAE 值。
从表5 可知:①与HAR_M 模型相比,HAR_M_Online 和 HAR_M_Posts 模型的 MSPE 和 MSAE 降低的年份较少,而HAR_M_Searching 几乎所有年份的MSPE 和MSAE 都有降低。 这表明,在对股票波动的预测上,新闻和股吧在线情绪的额外预测能力微弱,搜索引擎的额外预测能力最强。 ②三种在线情绪同时引入时的HAR_M_Media 模型的预测性能最好,这表明三种在线情绪在对股票波动预测上有互补价值。
表5 HAR_M 类模型样本外预测结果
本文借鉴Davydenko 等提出的平均相对平均绝对误差(AvgRelMAE)和平均相对均方误差(AvgRelMSE),以评估引入不同类型在线情绪代理的不同模型之间的相对波动性预测精度来进一步检验实证结果的稳健性。 定义如下:
本文使用HAR_M 模型作为计算AvgRelMSE 和AvgRelMAE 的基线模型,若 AvgRelMSE 和 AvgRel-MAE 小于1,说明扩展模型提高了基线模型的预测性能。 HAR_M 类模型的滚动预测相对性能见表6。
表6 HAR_M 类模型相对预测性能
从表6 可以看出,扩展HAR_M 模型的AvgRelMSE和AvgRelMAE 均小于1,其中 HAR_M_Media 的值最小,其次是HAR_M_Searching,再是 HAR_M_Online 和HAR_M_Posts,可以得出与上文一致的结论。
本文选取上海和深圳证券交易所的A 股作为研究对象,通过收集三种社交媒体的数据(搜索引擎、股吧和新闻媒体)构建不同类别的在线情绪代理,以HAR_M 模型为基线模型,并将在线情绪代理引入基线模型构建扩展HAR_M 模型,通过比较HAR_M 类预测精度的差异研究在线情绪代理对股票波动额外的预测能力。 研究结果表明:①股市波动存在周一效应,周末信息会对周一股市波动产生显著的正向冲击,且控制周一效应的HAR_M 模型优于传统HAR 模型;②来源于新闻、股吧和搜索引擎的在线情绪代理均包含对股票波动的预测信息,其中来源于搜索引擎的变量包含的预测信息最多,其次是新闻,最后是股吧;③三种在线情绪在对股票波动的预测上有互补价值,三种在线情绪一起引入预测模型时,模型的预测性能最好。
本文的研究结果具有重要的实践意义。 由于社交媒体信息包含对股市波动的额外预测能力,因此,政府部门一方面应该重视社交媒体对股市的影响,充分挖掘社交媒体信息隐含的金融价值,实时把握股市动态,维持股票市场稳定;另一方面要加强对相关媒体的监管,防范不法公司或个人非法利用网络媒体操纵股市,发挥政府“无形的手”的力量。 此外,当下经济形势复杂多变,各种社交媒体信息充斥股票市场,难辨真伪,投资者应保持理性,多方位、全面了解公司和各类市场信息,提升决策水平。