投资者情绪对科创板市场收益率的影响
——基于文本数据挖掘视角

2022-03-15 08:48申怡然徐嘉熙
运筹与管理 2022年2期
关键词:创板收益率投资者

高 扬, 申怡然, 徐嘉熙

(北京工业大学 经济与管理学院,北京 100124)

0 引言

投资者情绪对金融资产价格的影响是行为金融学研究的重要主题[1]。相比国外成熟的股票市场,我国股票市场个人投资者比例较高,受个人投资者行为的影响较大。因此,厘清投资者情绪对股票市场的影响对于维护我国金融市场稳定至关重要。现有文献主要对投资者情绪与沪深两个主板市场的关系进行了探究,对科创板的研究较少。然而科创板作为中国多层次资本市场建设的重要组成部分之一,其设立对于提高市场运行效率、完善中国特色市场体系、促进实体经济增长十分重要。因此,研究投资者情绪对科创板市场的影响,有助于我国证券市场监督层完善科创板交易机制,充分发挥经济转型期科创板的关键作用,对推进我国市场化改革具有广泛的理论和实践意义。

早期关于投资者情绪对股票市场影响的研究多采用新增开户数、换手率等单一的市场变量作为投资者情绪的代理变量。然而,与投资者情绪无关的因素也可以引发这些市场变量的变动[2]。基于网络大数据的投资者情绪研究能够突破传统方法的局限,为更加准确和迅速地测度投资者情绪提供了新渠道[3]。基于此,本文通过网页爬虫技术获取国内最大的股吧——东方财富股吧中2019年7月至2020年3月的日度股评数据,基于Bi-LSTM模型对文本数据情感倾向进行分类并构建投资者情绪指标,探讨情绪对科创板股票收益率的影响及其作用机制,并讨论这种影响在科创板不同的经济运行周期下的稳健性。本研究对于我国证券市场监管机构充分理解投资者情绪在科创板中的重要作用,完善科创板交易机制,以及中小投资者优化投资战略具有重要意义。

此外,随着通讯技术的快速发展,网络舆情能够更加便捷地通过股吧、微博等平台进行传播,从而影响投资者行为和市场表现。不少学者从理论和实证分析等方面研究了网络舆情对金融市场的影响并取得了较大进展。本节主要从文本挖掘方法和投资者情绪与市场关系两方面进行综述。目前,金融领域的文本挖掘方法主要分为监督学习和非监督学习两类。其中,非监督学习不需要事先对文本进行分类标注,主要包括词典法和主题分类模型。监督学习需要事先标注训练集,主要包括朴素贝叶斯等经典的机器学习方法和深度学习方法。Antweiler和Frank[4]选择了1000条雅虎财经评论,手动将其归类为买入、卖出、持有三种情感,并使用朴素贝叶斯算法对未分类帖子进行分类。此后,在经济金融领域不少文献将朴素贝叶斯算法应用到投资者情绪的研究中,如熊熊等[5]、段江娇等[6]。随着大数据可用性的提高和人工智能技术的发展,自然语言处理领域深度学习方法逐渐显现其优势。

在投资者情绪与市场收益的研究中,现有文献主要从二者的关系以及投资者情绪对收益率的预测能力两方面展开。一方面,关于投资者情绪与市场收益的关系研究,现有文献已表明通过网络论坛文本挖掘得到的投资者情绪指数是影响股票定价的一个不可忽视的因素。目前国内关于投资者情绪对股票收益率影响的研究多聚焦于A股市场和创业板市场,研究方法分为针对指数收益率的时间序列分析和公司层面的面板数据分析两种。例如部慧等[7]、石善冲等[8]均以上证综合指数收益率为研究对象,通过实证研究验证了投资者情绪对上证综合指数收益率具有显著的正向促进作用。部分学者通过构建面板数据模型探究投资者情绪与收益率之间的关系[1,6]。另一方面,对于投资者情绪的预测能力,Antweiler和Frank[4]、部慧等[7]通过实证研究得出投资者情绪与股票市场未来收益率的相关性不显著,而Renault[9]等学者认为高频数据下投资者情绪有显著的预测作用。此外,部分研究表明低频数据下情绪具有部分预测作用,如Siganos et al.[10]利用Facebook国民幸福指数进行实证研究,发现周日的情绪会影响周一的股票收益率等。

目前学者对于投资者情绪对股票市场影响的研究存在以下两点不足:首先,国内已有文献研究对象主要为沪深两个主板市场,然而对于中国多层次资本市场建设的重要组成部分——科创板市场的研究较少。第二,现有国内外文献在研究投资者情绪对股票市场的作用时,没有考虑到情绪与市场变量同时变化的内生性问题,导致可能低估了情绪的影响作用。鉴于此,本文基于东方财富股吧中2019年7月22日至2020年3月31日的日度股评数据构建投资者情绪指标,选取适当的工具变量,探讨投资者情绪对科创板股票市场收益率的影响作用,并通过构建联立方程模型对其机制进行识别。

与现有文献相比,本文的贡献主要体现在以下两方面:首先,在样本选择方面,本文研究对象为科创板首批上市的全部25只股票。由于科创板股票市场股本数小,股价波动大,更容易反映市场情绪的波动。并且为避免日内收益率与情绪之间相互影响造成的内生性,本文采用隔夜情绪作为工具变量,由于收盘后只有投资者在论坛发表言论而没有价格信息,因此隔夜情绪与股市收益率只存在单向关系,可以有效地避免日内交易过程中情绪与市场变量同时变化产生的内生性。其次,考虑到新冠疫情对证券市场造成的较大影响,本文将样本划分为平稳运行期和冲击波动期,并比较投资者情绪在不同市场运行状态下作用的差异,验证了结论的稳健性。

1 研究方法

1.1 数据来源

1.1.1 投资者情绪数据

关于投资者情绪对股票市场影响的国内研究样本主要来自东方财富股吧,该股吧在影响力、用户数量和活力方面具有更好的代表性。由于机构投资者有自己的发布网络信息的特殊平台(如证券公司主页、博客、微博等),在股票栏中讨论的大多数是散户投资者。本研究将东方财富股吧作为股评文本的数据来源,针对第一批上市的25支科创板股票,利用Python爬取了2019年7月22日至2020年3月31日的历史发帖信息,基于Bi-LSTM模型提取特征,使用Softmax函数进行情感分类,并根据分类结果构建情绪指数。具体数据采集过程如下:

第一步,文本爬取:使用Python逐一爬取东方财富股吧科创板首批上市的25只股票每条股评的发帖时间、评论内容和阅读量等信息。

第二步,数据清洗:删除重复值和无效符号,最终得到有效文本数据169922条。根据科创板股票市场交易时间,对文本数据进行匹配,得到交易时间内评论111205条,交易时间外评论58717条。

(1)

其中,y(i)表示情感预测结果的标签,X(i)为样本特征,θ为参数矩阵。本文中采用{-1,0,1}分别代表消极、中性和积极情绪。随后根据公式(1)计算得出给定特征的样本属于三种标签的概率矩阵[p1,p2,p3],并选择概率最大的结果为其输出结果。通过计算,模型的分类准确率为75%。

1.1.2 市场指标数据

市场指标方面,本文样本为科创板首批上市的25只股票,样本数据区间为2019年7月22日至2020年3月31日。其开盘价、收盘价、最高价、最低价和日度交易量等数据来源于Wind数据库。

1.2 变量选取

1.2.1 投资者情绪构建

本文以Antweiler和Frank[4]的方法为基础构建投资者情绪指数。与之不同的是,考虑到高质量的评论可以通过帖子阅读量进行识别和传播[5],进而增强舆情影响力,本文依据帖子阅读量对股票情感倾向进行加权。具体计算公式为:

(2)

(3)

此外,本文将交易时间内的评论和交易时间外的评论带入公式(2)和(3),分别计算出日内投资者情绪记为IntraSenit,隔夜投资者情绪记为OverSenit。

1.2.2 日内收益率指标

1.2.3 控制变量

参考已有文献[11~15],本文采取成交量(Volumeit)、极差波动率(Volatilityit)、换手率(Turnoverit)、市场收益率(MktRetit)及公司规模(MVit)作控制变量。

1.3 模型构建

首先,为探讨投资者情绪对科创板股票市场收益率Retit的当期作用及其机制,本文构建了双向固定效应的联立方程模型,模型如下:

Retit=α0Volumeit+α1IntraSenit+

α2Xi,t-1+μi+γt+ε1,it

(4)

Volumeit=β0IntraSenit+β1Xi,t-1+μi+γt+ε2,it

(5)

其中,i表示25个科创板首批上市公司,t表示样本时期,Volumeit为成交量,IntraSenit为日内投资者情绪,Xi,t-1为控制变量,包括滞后一期的极差波动率(Volatilityi,t-1)、换手率(Turnoveri,t-1)、市场收益率(MktRett-1)和公司市值(MVi,t-1)。其中成交量、极差波动率、换手率和公司市值分别取对数处理。μi表示个体效应,γt是将样本按星期一至星期五划分的时间效应,εm,it(m=1,2)为方程的扰动项。方程中所有数据采用min-max方法进行标准化。

其次,参照陈晓红等[11]的研究,本文将投资者情绪指数取滞后值,以检验投资者情绪对科创板收益率的预测作用。模型基本形式如公式(6)和(7)所示:

Retit=φ0Volumeit+φ1IntraSeni,t-k+

φ2Xi,t-1+μi+γt+ε3,it

(6)

Volumeit=λ0IntraSeni,t-k+λ1Xi,t-1+μi+γt+ε4,it

(7)

其中,k为投资者情绪的滞后阶数,εm,it(m=3,4)为方程的扰动项。

考虑到日内投资者情绪与收益率之间同时变化,会导致内生性问题,本文选用隔夜投资者情绪(OverSenit)作为日内投资者情绪的工具变量。由于闭市后股价、成交量、换手率等信息不再变化,所以隔夜投资者情绪的变化不再受股价变化的影响。因此,选取隔夜情绪作为工具变量能较好克服被解释变量与核心解释变量同时变动造成的内生性问题。根据方程(4)至(7),本文提出以下假设:

首先,诸多学者研究均表明投资者情绪与收益率存在同期的正相关关系。根据以往研究,本研究假定投资者情绪越高,市场投资者对股市目前和未来发展越乐观,股票收益率越高,反之亦然,即方程(4)中α1为正数。基于此提出假设H1。

H1投资者情绪与收益率呈现正相关关系。

其次,熊熊等[16]研究表明投资者情绪对证券市场同时存在着直接的和间接的影响。即投资者情绪一方面通过影响投资者不同的交易行为直接作用于证券市场,另一方面也会作用于其他影响市场收益的因素,从而向证券市场产生间接的影响。高涨或者低迷的情绪都会致使噪音交易者增加买卖数量,故本文假设投资者情绪通过影响成交量进而影响收益率。即方程(4)中的α0和方程(5)中β0应为正数。基于此提出假设H2。

H2投资者情绪通过影响成交量进而影响收益率。

最后,Siganos et al.[10]基于Facebook日度投资者情绪指数的实证表明,周日闭市时的投资者情绪对周一的开盘价有显著的正向作用。即方程(6)中的φ0和方程(7)中λ0显著为正。基于此提出假设H3。

H3投资者情绪对收益率有预测作用。

2 实证研究

2.1 单位根及工具变量检验

为了保证变量的平稳性和避免伪回归现象,本文首先对所有变量进行单位根检验。LLC检验和Fisher式检验结果均表明,在1%的显著性水平下拒绝存在单位根的原假设。其次,检验工具变量与可能的内生解释变量是否强相关。在隔夜情绪指数和控制变量对日内情绪指数的回归结果中,F值为28.06(大于10),说明为IntraSenit选取的工具变量OverSenit不存在弱相关问题。此外,内生性检验的结果亦表明核心解释变量IntraSenit存在内生性问题。

2.2 回归结果分析

为验证假设H1和假设H2,本文使用2SLS对方程(4)和方程(5)进行估计,结果如表1所示。

表1 同期2SLS方法回归结果

由方程(4)的估计系数α1可知,在1%显著性水平下,投资者情绪指数对科创板股票市场收益率有显著的正向作用。这与本文提出的假设H1相符。本文认为其机制在于:当一只股票的论坛帖子看涨情绪增多,个人投资者购买概率随之增加。由于存在限制或禁止卖空的机制,股票价格在短期内有所上升,股票收益为正。由于中国的中小投资者具有强烈的追涨杀跌等投机特征,股价上涨导致关注溢价[6],而看跌的帖子将会增多,因此投资者会抛售高度关注的股票。因此,在短期内,股票回报会随着帖子情绪的高涨而上升,随着帖子情绪的低落而下降。

由方程(5)的估计结果可知,投资者情绪对收益率的间接作用(α0和β0)分别在5%和1%的水平下显著。说明投资者情绪通过影响成交量进而影响科创板收益率,这与本文提出的假设H2相符。其机制在于:由于科创板上市公司具有投入大、周期长、风险高等特点,导致估值难度较大,这增加了中小投资者信息不对称程度。基于信息不对称假说,交易的活跃程度随着信息不对称程度的增加而增加,具有惯性趋势,具体表现为成交量先行于股价的正相关关系。

为验证假设H3,本文使用2SLS方法对联立方程(6)和(7)进行估计。估计结果如表2所示,表中滞后1期的IntraSeni,t-1、滞后2期的IntraSeni,t-2分别表示联立方程(6)和(7)中k=1、k=2时的投资者情绪对应的系数。此外,本文在方程(6)和(7)中同时加入投资者情绪滞后1期和滞后2期变量,检验滞后期的不同设置是否会对结果造成影响。由表2结果可知,滞后1期的投资者情绪对收益率的直接作用(φ1)不显著,这与Antweiler和Frank[4]、部慧等[7]等的研究结论相符。但投资者情绪在1%的水平下可以通过预测下一期的成交量(λ0)进而预测收益率(φ0),这种预测作用在滞后2期时消失,故本文只列出滞后1期和滞后2期的情形。此外,同时加入投资者情绪滞后1期和2期变量后,回归结果的系数和显著性均未发生变化。

表2 取不同滞后期的回归结果

3 进一步分析

为排除样本时段选择造成实证结果的不一致性,本文将样本时段进行划分,在新冠疫情背景下检验回归结果的稳健性。北京时间2020年1月11日,国家卫健委宣布即日起每天更新疫情最新动态,自此,普通投资者得以获得实时疫情情况。本文以这一事件为分界,将科创板市场分为平稳运行期和冲击波动期,以检验上文结论的稳健性。此外,本文在联立方程(6)和(7)中同时加入投资者情绪滞后1期和滞后2期变量,以检验变量滞后期的不同设置是否会对方程稳健性产生影响。表3的Panel A和Panel B分别列示了市场平稳运行期和疫情冲击波动期下的回归结果。

在两种市场环境中,核心解释变量的符号和显著性均未发生显著变化(表3)。特别地,在新冠疫情爆发期间,投资者情绪对同期收益率的直接作用(α1)上升63.98%,间接作用(α0和β0)分别上升33.02%和27.68%,投资者情绪对未来1期收益率的间接预测作用φ0上升34.00%、λ0上升0.75%,即疫情期间股市收益率受投资者情绪影响更大。在股市平稳运行期,基于损失厌恶理论,投资者对于等量级的损失比等量级的收益更为敏感,因此愿意继续持有已经亏损的股票而不选择卖出;而在股市受疫情影响的时期,市场中悲观情绪较多,人们预期未来会有更大的亏损,纷纷抛售股票,造成较大的成交量和收益率变化。因此,疫情期间投资者情绪对投资者收益的影响程度比平稳运行期更强。

此外,比较Panel A和Panel B结果可知,MktRett-1和Volatilityi,t-1的系数由正值显著地变为负值。这是因为,在市场平稳运行期间,投资者可以通过科创板的高波动进行套利,而新冠疫情期间,人们追求稳定的收益,而厌恶过高的波动,因此波动率对收益率的作用发生了反转。同时,风险承受能力相对较低的投资者不愿承担疫情期间科创板的剧烈波动,因而将投资资产由科创板转向成立时间更久的A股市场,因此科创板收益率和上证指数收益率之间的关系发生了反转。

4 结论

本文基于文本挖掘方法,从东方财富股吧爬取科创板首批上市的25只股票上市之日起至2020年3月31日的全部股评,基于Bi-LSTM深度学习模型进行情感分类,建立投资者情绪指数。通过构建双向固定效应联立方程模型检验了我国投资者情绪对科创板股票市场收益率影响和其作用机制。主要研究结论如下:

投资者情绪通过影响交易量进而影响科创板收益率,且情绪对收益率同期的正向影响在1%的水平下显著。这种正向作用在新冠疫情对市场的冲击下保持稳健,且在疫情期间,投资者情绪对同期收益率的直接和间接作用均上升。投资者情绪对于收益率的直接作用不具有预测能力,但可以通过预测成交量进而预测下一期的收益率,且在疫情期间,投资者情绪对未来收益率的间接预测作用φ0上升了34.00%、λ0上升了0.75%。

基于上述结论,本文提出以下建议与启示:首先,我国科创板股票市场的投资者尚不成熟。尽管设置了较高的准入门槛,科创板仍未摆脱其较强的散户属性,这与科创板为科创企业提供直接融资渠道的定位相悖。在科创板市场运行过程中,监管部门需要不断调整政策,使科创板顺应成熟市场,更好地发挥为科创企业提供直接融资的功能。

其次,网络论坛中体现的投资者情绪对科创板股票市场的影响不可忽视。鉴于中国的股票市场尚未建立科创板投资者情绪指数,建立科学有效的科创板投资者情绪指数不仅有助于稳定投资者非理性情绪,还有助于证券市场监管部门提高监管效率,防范在论坛上操纵股票的风险,从而促进我国证券市场稳定健康发展。

最后,在突发事件的影响下,投资者情绪对科创板收益率的正向作用更加明显。在资本市场运行受到冲击时,监管部门更应加强舆情监控,实时跟进股市动态。在突发事件下,更加应该提高投资情绪透明度,保持市场的流动性,减小投资者非理性因素对经济的稳定运行造成负面影响。

表3 不同市场环境下的回归结果

猜你喜欢
创板收益率投资者
聊聊“普通投资者”与“专业投资者”
纠纷调解知多少
科创板的山东机会
科创板的圈外人
抢抓科创板
新兴市场对投资者的吸引力不断增强
股神榜
2016年10月债券平均久期、凸性及到期收益率
2016年10月底中短期票据与央票收益率点差图
2016年9月底中短期票据与央票收益率点差图