投资者情绪是否会影响股票定价效率?

2024-06-16 20:57尹海员王晓晓
关键词:投资者情绪机器学习数据挖掘

尹海员 王晓晓

[摘 要]股票定价效率是衡量股票市场有效性的重要指标,更高的定价效率有利于促进资本市场资源的合理配置,更好地服务实体经济高质量发展。本文挖掘东方财富的投资者社区的文本发帖信息,利用机器学习方法分析文本情绪状态,构建投资者情绪指标并分析其对股票定价效率的影响。研究表明,投资者情绪与股票定价效率之间存在显著正相关关系,也即乐观的投资者情绪会带动股票定价效率的提升。这种影响效应是通过乐观情绪降低了信息不对称程度,进而提升了股价信息含量,并与定价效率的机制路径产生作用。进一步看,随着卖空限制的降低,股票定价效率对情绪的敏感程度会增大;良好的信息环境会降低情绪对股票定价效率的影响。研究结论为从个体投资者情绪视角透视我国股票市场运行效率以及网络媒体信息监管的必要性提供了证据。

[关键词] 投资者情绪;股票定价效率;数据挖掘;机器学习

[中图分类号] F832.51;TP181[文献标志码] A[文章编号] 1672-4917(2024)03-0096-16

一、引言

我国资本市场经过30多年的大力发展,取得了非凡的成绩。但不可否认的是,目前我国资本市场仍然不够健全和成熟,存在着体系不完善、投资者决策行为跟风等问题。从市场现实看,个体投资者作为参与者占据了绝对多数,多数情况下处于信息劣势方,其获取信息渠道有限加之自身缺乏专业知识,决策行为更易受自身心理、情绪等因素影响,导致股票市场异常波动甚至股价崩盘风险。在中国经济高质量发展的背景下,提升股票市场的定价效率,完善证券价格的信号机制,对于优化资本市场的资源配置功能以更好服务实体经济具有重要意义。

在移动互联时代,网络社区为投资者提供了互相交流、互相学习、互相分享信息的重要平台,为资本市场的参与者提供了新的交流方式。越来越多的投资者愿意通过网络表达自己的观点并与其他投资者交流信息。随着网络挖掘技术的发展,从网络平台上获取研究所需的内容成为可能。探究网络平台上的情绪与信息含量成为学界近些年关注的重点,已有学者关注投资者情绪,特别是个体投资者情绪或者行为对股价信息含量的影响效应。比如杨菁菁等(2023年)发现,投资者情绪越趋于乐观则股价的信息含量越高,降低了股价同步性水平,而且随着投资者关注度的增加、境外投资者持股比例的上升,这一影响效应会减弱[1]。郑建东等(2022年)则关注社交媒体的投资者互动行为对资本市场定价效率的影响,他们利用股吧发帖数量来度量投资者交互行为程度,发现投资者在网络股吧中的发帖数量增加有助于公司特质信息融入股价,降低了股价同步性[2]。

但这一领域的研究尚有改进的空间,主要体现在投资者情绪度量方法的改进、情绪对股票定价效率的影响效应等方面。从前者来看,早期研究者主要利用客观指标构建主成分因子衡量情绪状态,随着互联网技术的发展,基于网络数据的挖掘和文本分析成为主流方法,但采用不同的文本分析模型可能导致结果的各异[3]。从后者看,学者们很早就注意到投资者情绪对市场定价的影响,比如噪声交易模型(DSSW)认为,投资者有限理性行为会相互影响,成为影响金融资产均衡价格的系统性风险。也有学者研究投资者情绪对资本市场效率的影响规律,但如何采用更为有效的投资者情绪指标值得进一步探讨。

本文挖掘了东方财富网股吧的2019年1月至2022年2月的实时发帖文本信息,利用朴素贝叶斯模型将文本进行情感倾向识别分类并构建了样本股票的投资者情绪指标。然后基于股价同步性和相关系数两个指标,构造了定价效率指标,利用面板模型探讨了投资者情绪和股票定价效率的关系、情绪影响股票定价效率的中介机制和市场制度、信息环境在其中起到的作用。我们发现,投资者情绪对股票定价效率有显著的正向影响,即投资者情绪越乐观,股票定价效率越高。进一步看,随着卖空限制的降低,股票定价效率对情绪的敏感程度会增大,而良好的信息环境会降低情绪对股票定价效率的影响。这些研究发现为透视我国股票市场投资者情绪如何影响市场运行,以及加强网络媒体信息传播监管的必要性提供了实证证据。

本文的边际贡献主要体现在如下两点:首先,拓展了股票定价效率、股价信息含量驱动因素的研究范畴和资本市场效率研究的视角。股票定价效率作为衡量市场健康发展的重要指标,学术界大多从宏观经济政策、公司角度去探究对其的影响。即使现有从投资者行为角度出发的研究,也多从投资者网络中心性、关注度、本地偏好和持股行为等变量出发进行研究。而本文从投资者情绪视角分析其对股票定价效率的影响,拓宽了股票定价效率、股价信息含量驱动因素的研究边界。其次,丰富了投资者情绪影响效应及其后果的研究内容。尽管投资者情绪成为了学术界关注的重点,但大多研究将其聚焦于对股票收益率、波动性和流动性的影响,少有文献从行为金融视角出发研究投资者情绪对股票定价效率的影响。区别于传统投资者情绪指标,我们抓取了股吧论坛的文本信息,使用朴素贝叶斯算法分类分析投资者情绪倾向,构建了基于网络数据挖掘的情绪指标,在此基础上探究其对股票定价效率影响规律,以及在不同的卖空限制程度和信息环境下的表现和中介机制,丰富了投资者情绪影响效应的研究内容。

二、文献综述与研究假设

(一)基于网络数据挖掘的投资者情绪

近年来,基于网络数据对投资者情绪进行挖掘分析已逐渐成为该领域的研究热点。早期研究者主要使用网络数据的数量指标,具体来说,即基于网络搜索信息来构造投资者情绪指数,包括谷歌、百度等搜索引擎的搜索数据等。比如Da(2015年)将谷歌搜索指数(SVI)作为投资者关注度指标,发现该指数可以预测股票市场回报率[4]。Gao(2020年)同样利用该指数构建了2004—2014年期间全球40个国家的周度搜索指数作为股票市场情绪指数,发现该指数是市场回报的反向预测因子[5]。国内学者大部分通过百度搜索指数构建投资者情绪指标,发现上市公司的日度百度指数显著解释其下一交易日股票集合竞价时的价格跳跃现象[6]。近年来,文本分析技术的发展推动研究重心从网络数据的数量指标转向了内容指标。构造投资者情绪指数的信息内容来源包括推特、财经网站、微博、微信、股吧论坛[7-8]。研究者们利用文本分析方法构建情绪指标,发现基于网络数据挖掘的投资者情绪可以传递到股票市场,影响成交量并能够预测股市收益。

从技术方法上看,机器学习模型可以在一定程度上消除研究者的主观性,近年来学术界逐渐运用机器学习模型来提取情绪状态。目前支持向量机、朴素贝叶斯、K邻近三种模型的使用最为普遍。杨晓兰等(2016年)以东方财富网股吧发帖为研究对象,通过IP地址识别构建本地关注指标,使用K邻近方法构建了投资者情绪指标[9]。Li等(2019年)使用支持向量机方法对中文网络论坛发帖进行情感分类,并使用情感指标对股票收益进行预测[10]。支持向量机、朴素贝叶斯、K邻近模型三种方法各有优势,其中朴素贝叶斯分类算法能更好地处理稀疏、高维、短文本的分类问题,最早Antweiler和Frank(2004年)利用朴素贝叶斯文本分类算法对雅虎财经上投资者发帖进行识别并构建了投资者情绪指标[11]。也有国内学者采用朴素贝叶斯算法识别了东方财富股吧发帖文本的情绪倾向,对投资者发帖情绪如何影响股票特质风险进行了探讨[12]。

(二)股票定价效率及其影响因素

股票市场定价效率是股价对企业特质信息吸收的快慢与准确程度,是衡量市场有效性的一个关键指标。有效识别那些能够影响股票定价效率的因素,可以更好地进行股票市场交易设计来提升市场有效性。众多文献已经从不同视角探索股票定价效率的影响因素,包括制度因素、公司内部因素、利益相关者行为因素,等等。

制度因素方面,包括卖空机制、市场开放、税收等变量对于股票定价效率的影响。比如孟庆斌和黄清华(2018年)[13]证明了融资融券制度有效改善了价格发现机制,两融标的股票的定价效率得到了显著提高。也有学者发现沪港通、深港通的推出提高了我国大陆上市公司股票定价效率[14]。公司内部因素方面,学者们发现公司治理水平、信用等级、会计信息透明度等水平的改善,会降低股价同步性,提升股票定价效率。另外公司信息管理能力越高则股票定价效率也越高,比如田高良等(2018年)发现上市公司对网络舆情的管理能够向市场传递特质信息,提升信息效率[15]。随着新媒体手段的广泛应用,有学者开始关注上市公司新媒体手段的应用对公司股价信息效率的影响,Zhou等(2019年)发现,上市公司开通官方微博在一定程度上可以增加公司股价中的信息含量,提高股票的定价效率,官方微博推文的数量与股价同步性呈负相关[16]。利益相关者行为方面,学者们研究了监管部门、证券分析师、审计师、新闻媒体等股票市场参与主体行为如何影响股票定价效率。He和Fang(2019年)发现市场监管部门针对上市公司的违规行为实施处罚时,被处罚公司的股票定价效率呈现先上升后下降的规律[17]。张大永等(2021年)从分析师羊群行为出发,证明了“非信息驱动”的真羊群行为增加了公司的股价同步性[18]。Steven(2021年)发现审计公司规模、审计事务所任期与股价同步性正相关,更好的会计审计专家的专业技能有助于向市场提供可靠的公司信息,进而提升股票定价效率[19]。还有学者发现,政府行为、媒体报道可以帮助更多企业特质信息融入股价,在一定条件下降低企业股价同步性,提高股价中公司特质信息的含量[20]。

(三)研究假设的提出

股票市场定价效率是衡量股市有效的重要指标,到底有哪些因素影响了定价效率值得深入研究。近年来,学者将投资者情绪因子加入到资产定价模型中,发现情绪是股票收益率的有效解释因子。除收益率之外,学者们后续开始探讨情绪是否与股票市场运行的其他变量存在相关性,这些变量包括股票交易量、波动性、公司盈利预测等。比如Das和Chen(2007年)衡量了24家在纳斯达克上市的科技类公司的董事会会议信息中透露出的情绪信息,发现这些情绪信息与股票交易量和波动率等具有高度的相关性[21]。Price等(2012年)利用上市公司的电话会议进行文本分析,提取文本中所包含的情绪信息,发现它是股票收益和交易量的重要预测指标[22]。Jiang(2018年)基于公司财务报表和电话会议的文本基调构建情绪指标,发现经理情绪越乐观则股票市场收益越低[23]。

学者们进一步研究投资者行为是否可以向市场注入有效信息,发现投资者之间的交流活动会为其理解信息提供参考,促进信息被更多投资者吸收消化,并提高市场效率[24]。还有文献证明了活跃的投资者情绪可以改善信息不对称程度,促进信息更好地融入股价[25]。投资者情绪是对未来股价走势的主观预期,如果投资者对股价未来走势预期越乐观,会更愿意通过网络社交媒体的互动进行交流,抱着积极的态度进行投资决策。其更多的交流互动行为会促进信息被更多投资者理解,加快了市场信息与公司特质信息融入股价的速度并提升股票定价效率。所以,活跃的投资者情绪会减少知情交易及信息不透明程度,从而降低了公司的信息不对称程度。反之,投资者的悲观情绪会产生心理压力和谨慎情绪,出于风险厌恶心理,投资者会弱化其在社交网络的交互行为,信息扩散受到阻碍,降低股价定价效率。基于以上分析,我们提出本文研究假设H1和假设H2:

假设H1:投资者情绪会影响股票定价效率,越乐观的投资者情绪会增加股票价格的特质信息含量,进而提升定价效率。

假设H2:投资者的乐观情绪通过降低公司信息不对称程度进而提升股票定价效率。

股价波动的根源在于信息的变化。投资者社交网络的交互行为以及由此集聚形成的情绪状态有可能包含有价值的公司特定信息,有助于提升股票定价效率,但外部制度变量可能会影响这一效应。市场卖空机制能够允许投资者通过买空和卖空行为操作,这样会促使更多的信息融入股价。如果缺乏卖空制度,投资者即使在看空股票时也无法通过卖空操作来获利。因此,在缺乏卖空机制的情况下,悲观情绪无法得到充分的表达和释放,进而影响股价的信息含量。另外,在不同信息环境中,信息传递效率不同,如果公司所处市场信息环境越透明,信息融入股价的时间越短,股票定价效率就越高。上市公司所处信息环境会影响投资者获取以及处理信息的质量,进而影响股价对信息的反应程度。良好的公司信息环境可以降低信息不对称程度,促进投资者的态度看法得到更多个体投资者的获取和理解,从而提升股票定价效率。基于以上分析,提出本文研究假设H3和假设H4:

假设H3:卖空限制程度越低的样本公司股票,投资者情绪对股票定价效率的影响效应越显著。

假设H4:信息环境越差的样本公司股票,投资者情绪对股票定价效率的影响效应越显著。

三、研究设计

(一)样本选择与数据说明

本文选择沪深300指数成分股作为研究对象,并剔除以下几类样本:(1)为满足数据处理需求,确保数据容量,剔除论坛中日平均发帖量少于10条的样本;(2)剔除金融类上市公司、ST和*ST的公司样本;(3)为避免“指数效应”偏差以及保证样本期内数据连续性,剔除在研究期间被调入或调出沪深300指数的样本,最终样本股票为166只,时间区间选取为2019年1月1日—2022年2月28日。

本文利用东方财富网股吧获取投资者情绪状态。作为中国最活跃的股票论坛之一,东方财富网股吧具有得天独厚的数据挖掘优势:从数据容量来说,用户数和浏览量大、论坛资讯内容丰富;从数据质量来说,论坛开设时间久、发帖频率高。这些优势有助于分样本获取个股文本信息。首先,本文利用Python编写爬虫程序,获取东方财富网股吧实时发帖,其中每条发帖包括标题内容、阅读量、评论量、发帖人及发帖时间,初步获取原始发帖18 381 202条。其次,对原始文本进行数据清洗,包括剔除完全重复、纯数字、纯标点符号、图片和表情以及无关外部链接的发帖。随后,将发帖日期与股市行情的交易日期进行匹配,剔除非交易日发帖,最终获得17 243 512条发帖。

本文实证所用样本股票财务数据、交易数据来自锐思(RESSET)金融数据库、国泰安(CSMAR)经济金融数据库。为保证数据的准确性,我们使用两个数据库的变量数据进行了交叉验证。同时为避免极端值的影响,对所有连续变量进行上下1%的Winsorize缩尾处理。

(二)文本情绪分析

本文运用Python中的Jieba分词工具对文本发帖进行分词,获得单个词语;然后,参考哈工大停用词库中的停用词,筛选出与股票无关的词,保留与股市相关的词汇,剔除停用词;最后,使用TF-IDF和卡方统计(Chi-square)筛选出前K个特征词,用特征向量来表示待分类文本,供计算机识别其语言。

为更好地量化投资者情绪,我们使用朴素贝叶斯模型进行情绪分类,共分为四个步骤:首先,通过人工标注“乐观”“中性”和“悲观”标签将发帖分为三类,准备训练数据集。其次,随机选出12 000条发帖,请30名金融学专业研究生人工标注发帖文本,每3人为一组,每人标注1200条,每条帖子的最终标签以3次结果中占比大的为最终的情绪状态,最终得到悲观发帖5564条,乐观发帖3368条,中性发帖3068条。再次,利用Python编写朴素贝叶斯情感分类模型的程序,通过Sklearn库中自带的Nave.bayes模块,选择不同Testsize和随机数种子,筛选不同的训练集比例与特征词数来训练模型,最终模型准确率为73%。最后,利用训练好的朴素贝叶斯文本分类模型预测所有发帖的情绪倾向,在此基础上构建投资者情绪变量。

(三)变量设计

1.投资者情绪

借鉴Antweiler和Frank(2004年)思路[26],基于当月得到的乐观/悲观发帖数来构建月度投资者情绪:

Sentimenti,t=ln[(1+posi,t)/(1+negi,t)](1)

公式(1)中,posi,t 和negi,t分别是股票i在第t月的乐观发帖数量和悲观发帖数量。很显然,当月度乐观发帖数大于悲观发帖数时,Sentimenti,t大于0,反之小于0。

为了检验该投资者情绪指标的有效性,我们选取CSMAR数据库的社交媒体数据库中的情绪指标proxy作为代理变量进行相关性验证。由于CSMAR数据库的社交媒体数据库中的情绪指数从2020年1月开始发布,我们选取对应样本时间段的数据,利用公式(2)进行月度数据拟合回归。表1结果表明,proxyi,t与基于公式(1)的Sentimenti,t在 1%的显著性水平上正相关。

Sentimenti,t=α0+α1proxyi,t+εi,t(2)

2.股票定价效率

现有文献主要从以下两个思路来衡量股票定价效率。一是从股价的信息含量角度,判定股票价格是否真实而充分地反映了市场信息,以股价同步性指标为代表;二是从股价对信息的反应速度角度,判定价格是否能及时而准确地吸收新的市场信息,以相关系数指标为代表。本文选择股价同步性(SYNi,t)和相关系数(ρi,t)来度量样本股的定价效率。

股价同步性指标主要反映股价随市场、行业股票组合变动而同向变动的程度。股价随市场、行业同涨同跌程度越强,股价中特质信息越少,股票定价效率越低。为计算股价同步性,首先需要计算市场和行业收益率水平如下:

Indretj,t=(k∈jWk,t×Rk,t-Wi,t×Ri,t)/(Ij,t-1)(3)

公式(3)中,Indretj,t是待计算的样本股i所处的行业j的收益率水平,Wk,t是样本股i在行业j中第t日市值权重,Ij,t是样本股i所在行业j在第t日的公司数量,对于样本股i自身,需要在计算行业收益率时将其自身收益率排除在外。按照同样的方法可以定义市场收益率Mktrett如下:

Mktrett=(Wk,t×Rk,t-Wj,t×Rj,t)/(It-1)(4)

公式(4)中,Mktrett是待计算的市场收益率,Wj,t是样本股i所处行业j在第t日市值权重,It是市场中在第t日的行业数量,也就是说,我们同样将样本股i自身所处行业排除在外。

参考Morck等(2000年)的做法[27],在上述计算的基础上,对于样本股i进行如下回归:

Reti,t=αi,t+β1Mktrett+β2Mktrett-1+β3Indretj,t+β4Indretj,t-1+εi,t(5)

公式(5)中,Reti,t表示样本股i在第t日的收益率,Mktrett和Indretj,t分别表示第t日的市场收益率和样本股所处行业j的收益率。我们加入了滞后一期的市场与行业收益率,用以控制可能存在的非同步交易偏差。按照公式(5)对样本进行回归,得到每个回归所产生的拟合优度值R2i,t。再通过公式(6)进行Logistic变换,得到股价同步性水平:

SYNi,t=ln(R2i,t/1-R2i,t)(6)

公式(6)中的R2i,t表示回归得到的拟合优度值,SYNi,t表示Logistic变换后的股价同步性指标,SYNi,t值越大,股价同步性水平越高。进一步看,通过公式(5)回归得到的拟合优度值中包含了行业收益率的影响,股票价格中可能包含了样本股票所处行业的信息,SYNi,t值较大不一定必然代表股价中缺乏信息。我们继续采用以下方法优化股价同步性指标:

Reti,t=α+β1Mktrett+β2Mktrett-1+εi,t(7)

R2i,t_DIFF=R2i,t-R*2i,t(8)

SYNdiffi,t=ln[R2i,t_DIFF/(1-R2i,t_DIFF)](9)

通过对公式(7)回归可以得到拟合优度R*2i,t,R2i,t-DIFF是公式(5)的拟合优度与公式(7)拟合优度之差,再通过公式(9)变换得到股价同步性指标SYNdiffi,t,其值越小意味着股价同涨跌程度越低,即定价效率越高。

相关系数指标用来表示个股股价对市场波动的延迟程度,通过当期股票收益率和滞后一期的市场收益率来计算,最早由Bris等(2007年)提出[28],计算如下:

ρi,t=|Corr(ri,t,rm,t-1)|(10)

公式(10)中,ri,t表示样本股 i在第t月的月度收益率,rm,t-1 是用来指代滞后一期的流通市值加权的市场收益率,用沪深300指数收益率来指代。作为股票定价效率的衡量指标,ρi,t越小,则当期个股收益率与滞后一期市场收益率之间关联程度越薄弱,个股能更及时地吸收新的市场信息,定价效率越高。

3.控制变量

参照郭照蕊和张天舒(2021年)相似主题的研究[29],我们选取以下11个控制变量: ①公司规模(Size)。公司规模越大,则企业信息披露机制越健全,受到外界的关注度越高,在一定程度上加快了信息融入股价的速度,进而提升定价效率。 ②资产负债率(Lev)。资产负债率反映了财务风险状况,债务因素会影响股票定价。③资产报酬率(Roa)。资产报酬率反映了盈利能力,其越强则会向市场传递正面信息。 ④账面市值比(Bm)。账面市值比越高,公司越具有投资价值,其受到外界的关注度越高,进而影响市场效率。 ⑤换手率(Turnover)。换手率越高,股票的流动性越强,越能促进公司层面的特质信息融入股价,进而提高股价信息含量。⑥上市年限(Age)。上市时间越久的公司,其信息含量会越多,信息反应速度会下降进而影响股票定价效率。⑦第一大股东持股比例(Top1)。第一大股东持股比例越高,意味着基于私有信息的交易越多。⑧机构投资者持股比例(Institution)。机构投资者是理性和知情交易的代表,其持股比例越多,股价越符合随机游走模式。⑨收益率波动(Volatility)。收益率的波动性越强,意味着股价包含的异质性信息越强。⑩企业性质(Type)。最终控制人的资本产权属性不同,可能会影响信息披露程度和股价信息含量。B11是否使用四大审计(Big4)。若上市公司由普华永道、德勤、毕马威、安永四大会计师事务所审计,意味着其信息披露的质量更高。

表2汇总了本文所用主要变量名称、符号和释义。

(四)基础模型

我们构建面板回归模型来分析基于网络社区股吧提取的投资者情绪是否会影响股票的定价效率:

Efficiencyi,t=α0+α1Sentimenti,t+γControli,t+year+industry+εi,t(11)

模型(11)中,被解释变量Efficiency表示股票定价效率,分别用股价同步性(SYNdiff)、相关系数(ρ)来衡量;Sentimenti,t为样本股i在第t月的投资者情绪;Controli,t为系列控制变量;模型中加入了行业和年度虚拟变量以控制行业和年度固定效应。接着对模型和数据的匹配问题处理如下:首先,选择合适的面板数据处理模型,经Hausman检验发现应该选择固定效应模型(p<0.01)。其次,为了避免面板数据异方差与序列相关的问题,以公司为聚类变量对所有回归模型标准误进行了聚类调整。

四、实证分析与结果讨论

(一)描述性统计与相关性分析

表3报告了各主要研究变量的描述性统计结果,投资者情绪(Sentiment)均值为-1.003,表明基于股吧文本信息提取的投资者情绪总体上比较悲观;最小值为-1.550,最大值为1.739,标准差为0.234,说明投资者情绪的波动也比较大。定价效率的两个度量指标中,股价同步性(SYNdiff) 和相关系数(ρ)均值分别为-1.802和-0.011,说明样本股票的定价效率较高;标准差分别为1.610和0.223,说明定价效率的波动性较高。样本期内换手率(Turnover)较高,均值为20.9%;股价收益率波动水平(Volatility)均值为0.023,标准差为0.010,说明样本期内收益率较为稳定。

表4报告了主要研究变量和部分控制变量的相关性分析结果。可以看出,投资者情绪(Sentiment)与股价同步性(SYNdiff)之间的相关系数为-0.090和-0.085,且在1%的显著性水平上显著负相关,说明了投资者情绪越高涨,越能提升股价信息含量,进而使股价同步性降低。投资者情绪(Sentiment)与相关系数指标(ρ)之间的相关系数为-0.027和-0.026,且在1%的水平上显著,说明情绪越高涨则股价反应的滞后程度越低。这些结果初步表明,投资者情绪与股票定价效率存在正相关关系。造成这一现象的原因可能在于,一方面,股吧论坛中上市公司对于市场信息的披露促进了信息在投资者之间的流动,并且投资者之间的相互交流也加快了市场信息的传播,有利于市场信息融入股价;另一方面,由于我国股票市场卖空限制的存在,投资者情绪更偏向乐观,进而吸引更多的投资者进入市场交易,提升了流动性水平并提高了股票定价效率。后续我们通过面板数据回归分析做进一步探讨。

(二)基础回归结果

表5报告了投资者情绪(Sentiment)对股票定价效率影响效应的回归结果,其中,列(1)和列(3)是考虑投资者情绪并加入控制变量后的回归结果。可以发现投资者情绪对股价同步性和相关系数的回归系数为-0.579和-0.075,且都在1%的显著水平下显著。列(2)和列(4)是进一步加入滞后一期投资者情绪(Sentimentt-1)后的回归结果,对股价同步性和相关系数的回归系数为-0.110和-0.039,分别在10%和1%的水平上显著。同时,当期投资者情绪的系数稍微有些下降,但仍显著负相关。表5结果进一步验证了前述相关性分析结果,也即当期情绪、滞后一期情绪的高涨会提高股票定价效率,假设H1得到验证。

控制变量方面,公司规模(Size)、账面市值比(Bm)与股价同步性、相关系数成反比,说明规模越大、账面市值比越高,股票定价效率越高;是否由四大会计师事务所审计(Big4)在各个回归中均与股价同步性、相关系数成反比,说明审计水平的提升会有助于信息融入股价,提升定价效率;资产报酬率(Roa)与股价同步性、相关系数成反比,越高的资产回报率其定价效率越高;此外换手率(Turnover)、收益波动性(Volatility)都与定价效率变量呈现显著的反比关系,说明高换手率、高收益波动性的股票,其流动性和收益变化对信息的反应更为敏感,股票定价效率更高。这些结论大部分与张延良等(2022年)的发现一致[30]。一个有意思的现象是,企业产权性质(Type)变量系数在回归中均呈现显著负向关系,说明国有控股上市公司其股票定价效率更高。这一现象背后的原因可能在于国有控股上市公司的治理结构更为完善,信息披露机制和渠道更为畅通,从而提升了信息传递效率和股价的信息含量。其他控制变量如机构投资者持股比例(Institution)、公司上市年限(Age)、资产负债率(Lev)、第一大股东持股比例(Top1)等,对股票定价效率没有显著影响。

(三)稳健性检验—替换变量

本部分对解释变量和被解释变量进行替换以验证回归结果的稳健性。使用公式(6)计算的股价同步性指标SYN代替SYNdiff,并利用CSMAR数据库中社交媒体情绪指标(Sentiment2),计算如下:

Sentiment2i,t=ln[(1+post)/(1+negt)](12)

公式(12)中,post是当月积极的文本条数,negt是当月消极的文本条数,Sentiment2是我们构建的投资者情绪替代指标。表6报告了对解释变量和被解释变量进行重新替换后的稳健性检验结果,列(1)是替换被解释变量后投资者情绪对股价同步(SYN)的回归结果。可以看出,情绪对股价同步(SYN)的回归系数为-0.297且在1%的显著性水平下显著,和前文实证结果一致。列(2)和列(3)是替换解释变量后,投资者情绪(Sentiment2)对定价效率的回归结果。可以看出投资者情绪回归系数为-0.217,对相关系数(ρ)的回归系数为-0.06,均在1%的显著性水平下显著。控制变量方面,除系数绝对值有大小变化差异外,在影响方向上和显著性方面,与前文实证结果一致,证实了本文基础结论的稳健性。

(四)内生性探讨—倾向得分匹配

为排除样本选择偏误可能带来的内生性问题,我们利用倾向得分匹配法(PSM),进一步来检验投资者情绪与股票定价效率间的关系。首先,按照投资者情绪值的大小排序,选取前50%作为实验组、后50%作为对照组。在两组样本中按照选取的控制变量运用Logit回归模型计算投资者情绪,控制变量包括账面市值比(Bm)、资产收益率(Roa)、资产负债率(Lev)、公司规模(Size)。其次,基于Logit回归模型估计系数,计算样本公司的倾向得分。最后,采用最邻近匹配法以得分高低作为匹配标准进行1∶1匹配,再计算实验组和控制组在Sentiment上的平均处理效应(ATT),其中Caliper设置为0.01且使用放回抽样法进行分析。结果如表7所示,可以看出平均处理效应(ATT)均在1%的显著性水平上为负,说明投资者情绪越乐观则股票定价效率越高,PSM检验结果和前文基础回归结果一致。

(五)内生性探讨—DID检验

尽管我们尽可能多地选择了可能影响股价泡沫的控制变量,同时加入了自变量滞后项,但变量遗漏问题仍可能是造成内生性问题的主要来源,比如随时间变化的影响因素仍然没有被充分考虑到。进一步地,我们利用双重差分模型(DID)通过组内差分和组间差分将随时间变化和不变的扰动项剔除掉,更有效地排除潜在的内生性问题。我们的研究期恰好横跨国内新冠疫情暴发时间点,将样本股票分为低情绪组和高情绪组,以新冠疫情暴发时间为节点建立DID模型,观察疫情暴发这一外生冲击事件对两组子样本的股票定价效率是否存在显著差异。我们设置虚拟变量sen和COVID-19,将投资者情绪按照样本个股生成50%的分位数,大于50%的分位数的取1为高情绪组,即sen=1;小于50%的分位数的取0为低情绪组,sen=0。虚拟变量COVID-19=1代表时间处于2019年12月8日及之后,新冠疫情暴发;COVID-19=0表示处于2019年12月8日之前,没有新冠疫情。

我们以2019年12月疫情暴发为节点做平衡趋势检验,图1中被解释变量为股价同步性(SYNdiff),纵轴表示平均股价同步性;图2被解释变量为相关系数(ρ),纵轴表示平均相关系数。两图中垂直于横轴的直线所对应时间为新冠疫情暴发时间点2019年12月8日,蓝色虚线对应高情绪组,红色实线对应低情绪组。可以发现,尽管疫情暴发前高情绪组平均股价同步性和平均相关系数均小于低情绪组,但二组有相同趋势,而疫情暴发之后二者趋势出现不同。

为了进一步检验平行趋势,我们生成月份虚拟变量Month与情绪虚拟变量sen的交互项加入模型(13)进行回归:

模型(13)中,m和n分别表示新冠疫情暴发前和后的期数,其余变量与模型11相同。我们将疫情暴发当月作为基准组,比较疫情暴发前各月的交叉项系数δj,发现其显著为0,进一步表明疫情暴发之前高、低情绪组之间的定价效率不存在显著差异,这一结果与图1和图2可以相互印证。

我们用did表示sen和COVID-19交乘项,将COVID-19、did引入基准回归模型中,表8报告了DID模型的检验结果。可以发现,引入这些变量后,投资者情绪对于股价同步性和相关系数的影响依然显著为负。另外,COVID-19对股价同步性具有显著的负向作用,新冠疫情的暴发反而抑制了股价同步性,提高了股票定价效率。

(六)安慰剂检验

我们继续选择安慰剂检验(Placebo-Test)来甄别股票定价效率是否受其他随机变量的影响。具体方法为:首先,打乱样本个股投资者情绪数据,将投资者情绪数据随机赋给样本股票;其次,将随机赋给样本个股的投资者情绪(random_s2)分别对股票定价效率(股价同步性、相关系数)进行回归;最后,将上述步骤重复500次,统计结果中投资者情绪(random_s2)系数的p值并与基准回归结果进行对比。

图3和图4分别报告了相应被解释变量下投资者情绪(random_s2)回归系数p值的核密度分布图,其中图3对应的被解释变量为股价同步性,图4的对应被解释变量为相关系数,横轴表示当期虚拟投资者情绪的系数,纵轴为对应系数的p值,水平虚线对应p值为0.1,垂直虚线为原基准回归结果的系数,左侧系数为-0.579,右侧系数为-0.075。可以看出,无论被解释变量是股价同步性还是相关系数,500次模拟所得虚拟投资者情绪的估计系数绝对值均远小于对应基准回归结果的系数,并以0为中心呈对称分布。大部分模拟情绪所得系数的对应p值大于0.1,并不显著。可以认为,基准回归结果并非偶然因素引起,投资者情绪对股票定价效率的影响作用比较稳健。

五、进一步研究:中介机制与调节效应

(一)信息效应中介机制检验

为了检验创业板上市企业良好的ESG表现是否发挥“信息效应”,降低了公司的信息不对称程度进而提高了股票定价效率,借鉴武鹏等(2023年)的研究方法[31],选取流动性比率(LR)、非流动性比率(IRR)和收益率反转指标(GAM)的第一主成分作为“信息不对称”(Asy)的代理变量。信息不对称(Asy)数值越大,说明公司向市场传递的特质信息越少,信息不对称程度越严重。我们进行了信息中介机制的检验,表9报告了检验结果。

列(1)—列(2)是以信息不对称(Asy)为被解释变量,投资者情绪及其滞后一期作为解释变量,逐步纳入回归的结果。可以发现,投资者情绪变量及其滞后一期变量的回归系数均在5%的显著性水平下显著为负,说明投资者情绪的乐观有助于缓解信息不对称程度。将解释变量和中介变量Asy同时纳入回归模型,列(3)—列(4)、列(5)—列(6)分别是以SYNdiff和ρ为被解释变量的回归结果。可以发现,情绪及其滞后一期、信息不对称指标分别显著为负和正,表明乐观的投资者情绪能够通过降低信息不对称程度,进而提高股票市场定价效率,假设H2得到验证。

(二)调节效应:卖空限制的影响

市场卖空机制通过允许投资者的买空和卖空行为,促使更多的信息融入股价。如果卖空受限,投资者即使在看空股票时也无法通过卖空操作来获利,悲观情绪无法得到充分的表达和释放,进而影响股价的信息含量。借鉴Liu 等(2015年)的观点[32],利用机构持股比例来衡量卖空限制程度。因为市场看空者要实施卖空操作,首先要从券商手中借入股票。机构投资者通常作为出借股票的一方,其持有股票的数量或者比例就决定了市场上卖空限制程度的强弱。这样可供借出的股票数量就可以间接衡量卖空限制的程度,如果机构持股数量越少,则表示卖空限制程度越强。首先,我们对个股每季末的机构持股数量取均值,再进行排序,之后按照50%分位数将样本股票分为机构持股数量高、低两组。机构持股数量最低组作为对照组,对投资者情绪对股票定价效率的影响效应进行分组回归。

表10报告了回归结果,其中列(1)和列(2)是投资者情绪对股价同步性的回归结果,列(1)是机构持股数量低的组,也即卖空限制高的组。投资者情绪的回归系数是-0.379,且在1%的显著性水平下显著。列(2)是机构持股数量高的组,也即卖空限制低的组。投资者情绪的回归系数是-0.705,且在1%的显著性水平下显著。列(3)和列(4)是投资者情绪对相关系数的回归结果,列(3)是机构持股数量低的组。投资者情绪对相关系数的回归系数是-0.067,且在1%的显著性水平下显著。列(4)是机构持股数量高的组,投资者情绪的回归系数是-0.097,且在1%的显著性水平下显著。很明显,无论对于股价同步性(SYNdiff)还是相关系数(ρ)来说,随着卖空限制程度的降低,Sentiment的系数绝对值都呈现逐渐增大的规律且始终保持显著。这意味着卖空限制越低,投资者情绪对股票定价效率的影响越明显,假设H3得到验证。

(三)调节效应:信息环境的影响

上市公司所处信息环境会影响投资者获取以及处理信息的质量,进而影响股价对信息的反应程度。参考孟庆斌和黄清华(2018年)的度量方法[33],以分析师关注度(Analyst),即在t年度分析师跟踪样本股票i的总数量的自然对数作为信息环境的度量指标,对样本进行分组回归。表11中列(1)和列(2)是投资者情绪对股价同步性影响效应的回归结果。可以发现,低分析师关注度组中,投资者情绪对股价同步性的回归系数是-0.752,在1%显著性水平下显著;高分析师关注度组中,投资者情绪对股价同步性的回归系数是-0.344,在5%显著性水平下显著。列(3)和列(4)是投资者情绪对相关系数的回归结果。低分析师关注度组中,投资者情绪对相关系数的回归系数是-0.074;高分析师关注度组中,投资者情绪对相关系数的回归系数是-0.073,两者均在1%显著性水平下显著。无论对于同步性还是相关系数来说,随着上市公司分析师关注度的提升,解释变量Sentiment的系数绝对值都逐渐减小且始终保持显著。这意味着分析师跟踪人数越少,投资者情绪对股票定价效率的影响越明显,也即公司信息环境的改善可以缓解情绪对股票定价效率的影响效应,假设H4得到验证。

六、结论与启示

本文以沪深300指数成分股作为研究样本,利用Python文本挖掘技术抓取东方财富网样本股股吧中2019年1月—2022年2月实时发帖文本,使用朴素贝叶斯方法对文本中隐含的情绪倾向进行分析并构建了投资者情绪指标,利用固定效应模型分析了投资者情绪对于股票定价效率的影响。进一步地,分析了这一影响效应在不同卖空限制程度和信息环境条件下的异质性表现。实证发现,首先,基于股吧论坛发帖构建的投资者情绪与股票定价效率之间存在显著正相关关系,也即越乐观的投资者情绪越能带动股票定价效率的提升。其次,中介机制分析表明,这种影响效应是通过乐观情绪降低信息不对称程度,进而提升股价信息含量和定价效率这一路径产生作用。在一定程度上说明,投资者情绪的高涨提高了股价信息含量,加快了市场信息融入股价的速度。再次,随着卖空限制的降低,投资者情绪对股票定价效率的影响会越明显,也即股票定价效率对投资者情绪的敏感度会随着卖空限制的降低而增强,而公司信息环境的改善可以降低投资者情绪对股票定价效率的影响效应。在经过一系列稳健性检验后,上述结论仍然成立。这些结论为透视股票市场中的投资者情绪如何影响市场信息效率和市场运行,以及加强网络媒体信息传播监管的必要性提供了实证证据。

在移动互联时代,越来越多的个体投资者会选择通过网络渠道获取信息、交流观点。这种情势的变化也为通过网络信息监督管理来提高股票市场运行效率提供了新思路。基于本文结论,对于上市公司来说,要充分重视对网络信息渠道的检测,同时切实履行信息披露责任,利于更多公司特质信息融入股价,提高股价的信息效率。对于监管部门来说,要加强对互联网平台的监管,保证信息的真实性以及可靠性。同时,应充分健全市场管理制度框架,比如由于卖空限制程度会影响股票定价效率对于投资者情绪的敏感程度,监管部门应结合我国实际情况逐步完善融资融券制度。对于网络平台来说,其高质量发展不仅需要监管部门的监督和制约,还要实现自我监督和管理,切实履行自己的责任,做高质量信息传递的渠道。网络平台可以对信息进行过滤甄别,对发布人身份与言论进行分析,为投资者提供技术支持,禁止互联网上不合理的信息散布与扩散。

[参考文献]

[1] 杨菁菁、胡锦、张朕东:《投资者情绪与资本市场信息效率——基于股价信息含量的视角》,《河北工业大学学报(社会科学版)》2023年第3期,第1—13+49页。

[2] 郑建东、吕晓亮、吕斌等:《社交媒体平台信息交互与资本市场定价效率——基于股吧论坛亿级大数据的证据》,《数量经济技术经济研究》2022年第11期,第91—112页。

[3] Behrendt S, Schmidt A: “The Twitter Myth Revisited: Intraday Investor Sentiment, Twitter Activity, and Individual-Level Stock Return Volatility”, Journal of Banking and Finance, Vol.96, No.8,2018, pp.355-367.

[4] Da Z, Joseph E, Gao P: “The Sum of All FEARS Investor Sentiment and Asset Prices”,The Review of Financial Studies, Vol.28, No.1,2015, pp.1-32.

[5] Gao Z, Ren H, Zhang B: “Googling Investor Sentiment around the World”, Journal of Financial and Quantitative Analysis, Vol.55, No.2,2020, pp. 549-580.

[6] 俞庆进、张兵:《投资者有限关注与股票收益——以百度指数作为关注度的一项实证研究》,《金融研究》 2012年第8期,第152—165页。

[7] Tsukioka Y, Yanagi J, Takada T: “Investor Sentiment Extracted from Internet Stock Message Boards and IPO Puzzles”, International Review of Economics and Finance, Vol.56, No.3, 2018, pp.205-217.

[8] 黄创霞、温石刚、杨鑫等:《个体投资者情绪与股票价格行为的互动关系研究》,《中国管理科学》 2020年第3期,第191—200页。

[9] 杨晓兰、沈翰彬、祝宇:《本地偏好、投资者情绪与股票收益率:来自网络论坛的经验证据》,《金融研究》2016年第12期,第143—158页。

[10] Li X, Qiao P, Zhao L: “CEO Mmedia Exposure, Political Connection and Chinese Firms Stock Price Synchronicity”, International Review of Economics and Finance, Vol.63, No.C,2019, pp.61-75.

[11][26] Antweiler W, Frank M Z: “Is All That Talk Just Noise? The Information Content of Internet Stock Message Boards”, The Journal of Finance, Vol.59, No.3,2004, pp.1259-1294.

[12] 尹海员、寇文娟:《基于朴素贝叶斯法的投资者情绪度量及其对股票特质风险的影响 》,《中国管理科学》2021年,DOI:10.16381/j.cnki.issn1003-207x.2021.0028。

[13][33] 孟庆斌、黄清华:《卖空机制是否降低了股价高估?——基于投资者异质信念的视角》,《管理科学学报》 2018年第4期,第43—66页。

[14] 连立帅、朱松、陈关亭:《资本市场开放、非财务信息定价与企业投资——基于沪深港通交易制度的经验证据》,《管理世界》 2019年第8期,第136—154页。

[15] 田高良、司毅、秦岭等:《网络舆情及其应对与上市公司的信息效率》,《系统工程理论与实践》2018年第1期,第46—66页。

[16] Zhou D, Zhao Y, Lin P, Li B: “Can Microblogging Information Disclosure Reduce Stock Price Synchronicity? Evidence from China”, Australian Journal of Management, Vol.44, No.2,2019, pp.282-305.

[17] He Q, Fang C: “Regulatory Sanctions and Stock Pricing Efficiency: Evidence from the Chinese Stock Market”,Pacific-Basin Finance Journal, Vol.58, No.8,2015, pp.101241-101241.

[18] 张大永、刘倩、姬强:《股票分析师的羊群行为对公司股价同步性的影响分析》,《中国管理科学》2021年第5期,第55—64页。

[19] Steven C, Lam B M, Li L Z, Jahidur R M: “Information Environment and Stock Price Synchronicity: Evidence from Aauditor Characteristics”, International Journal of Auditing, Vol.25, No.2,2021, pp.332-350.

[20] Dang T L, Dang M, Hoang L, Nguyen L: “Media Coverage and Stock Price Synchronicity”,International Review of Financial Analysis, Vol.67, No.C,2019, pp.1014-1030.

[21] Das S R, Chen M Y: “Yahoo! for Amazon: Sentiment Extraction from Small Talk on the Web”,Management Science, Vol.53, No.9,2007, pp.1375-1388.

[22] Price S M, Doran J S,Peterson D R, Bliss B A:“Earnings Conference Calls and Stock Returns: The Incremental Informativeness of Textual Tone”, Journal of Banking and Finance, Vol.36, No.4,2012, pp.992-1011.

[23] Jiang X, Xu N, Yuan Q: “Mutual-Fund-Affiliated Analysts and Stock Price Synchronicity: Evidence from China”,Journal of Accounting, Auditing & Finance, Vol.33, No.3,2018, pp.435-460.

[24] 潜力、龚之晨:《网络沟通对股票市场的影响——基于投资者有限关注视角的研究》,《金融论坛》2021年第2期,第47—58页。

[25] 孙鲲鹏、肖星:《互联网社交媒体、投资者之间交流与资本市场定价效率》,《投资研究》2018年第4期,第140—160页。

[27] Morck R, Yeung B, Yu W: “The Information Content of Stock Markets: Why Do Emerging Markets Have Synchronous Stock Price Movements?”, Journal of Financial Economics, Vol.58, No.1,2000, pp.215-260.

[28] Bris A, Goetzmann W N, Zhu N: “Efficiency and the Bear: Short Sales and Markets around the World”, The Journal of Finance, Vol.62, No.3,2007, pp.1029-1079.

[29] 郭照蕊、张天舒:《高铁开通对资本市场定价效率的影响研究》,《管理学报》2021年第4期,第614—623页。

[30] 张延良、崔海涛,李琪等:《媒体关注对股票定价效率影响研究》,《投资研究》2022年第9期,第143—158页。

[31] 武鹏、杨科、蒋峻松等:《企业ESG表现会影响盈余价值相关性吗?》,《财经研究》2023年第6期,第137—152+169页。

[32] Liu S: “Investor Sentiment and Stock Market Liquidity”, Journal of Behavioral Finance, Vol.16, No.1,2015, pp.51-67.

Does Investor Sentiment Affect the Efficiency of Stock Pricing?

——Textual Evidence from the Stock Community

Abstract: The efficiency of stock pricing is a crucial indicator for measuring the effectiveness of the stock market. Higher pricing efficiency facilitates the rational allocation of capital market resources and better serves the high-quality development of the real economy. This study explores the text postings within the investor community of Dongfang Fortune, analyzes the sentiment of the text using machine learning methods, constructs investor sentiment indicators, and examines their impact on the efficiency of stock pricing. The findings indicate a significant positive correlation between investor sentiment and stock pricing efficiency, suggesting that more optimistic investor sentiment drives an increase in stock pricing efficiency. This influence operates through a mechanism in which optimism reduces the degree of information asymmetry, thereby enhancing the information content of stock prices and improving pricing efficiency. Furthermore, with the loosening of short-selling restrictions, the sensitivity of stock pricing efficiency to sentiment will increase, and a conducive information environment will reduce the impact of sentiment on stock pricing efficiency. The research conclusion provides evidence for observing the operational efficiency of Chinas stock market from an individual investor sentiment perspective and the necessity of information regulation on online media.

Key words:investor sentiment; stock pricing efficiency; data mining; machine learning

猜你喜欢
投资者情绪机器学习数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
投资者情绪对项目融资型定向增发公告效应影响
投资者情绪短期对股票市场的影响研究
投资者情绪与成交量:基于网络论坛证据的分析
基于网络搜索数据的平遥旅游客流量预测分析
我国投资者情绪变化与不同规模股市收益率关系研究
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
一种基于Hadoop的大数据挖掘云服务及应用