方国斌 申钰鑫
摘要:随着互联网金融的不断发展,研究财经平台的发帖行为对股价涨跌的影响效应具有现实意义。本文以东方财富网股吧中的互联网金融上市公司的发帖行为为基础,使用2022年1—5月的股票相关数据研究股评数及股评情绪对股价涨跌的影响。研究发现:个人投资者情绪的高涨会使股价上涨,个人投资者情绪增加一个单位使股价上涨的胜算提高了24.69%;而个人投资者的关注度增加会使股价下跌,个人投资者关注度每增加1个单位使股价上涨的胜算降低了46.74%。发帖行为对股价涨跌的影响研究为个人投资者做出更合理的决策、互联网金融行业的发展及股市的平稳发展提供借鉴。
关键词:互联网金融;发帖行为;股评情绪;股价涨跌
一、引言
2013年起我国的互联网金融进入高速发展阶段,目前已经形成了稳定的发展局面。《中国互联网发展报告(2021)》指出,随着互联网金融和金融科技的快速发展,市场主体的起源和类别更加广泛,各市场主体间的交流与合作不断深入,金融“新基建”加速转型,金融开放程度不断扩大。数字经济增速持续加快,信息科技和实体经济加速融合,我国数字经济规模达到39.2万亿元,总量跃居世界第二。我国金融科技市场规模达到3958亿元,使用网络支付的用户数达到8.54亿户,占全部网民的86.4%。互联网金融的快速发展对我国的传统金融模式形成了有力补充,使中小型企业和个人的金融服务需求得到满足,让更多个人投资者有机会进入股市。这会促进股市的信息传递,进而对股价走势产生影响。
互联网金融背景下股市中个人投资者逐渐增加,目前已经成为其主要个人投资者。雪球、和讯股吧和东方财富网股吧等社交媒体为个人投资者提供了获取和传递信息的渠道,使股市的信息传递效应更加明显。如2021年的GameStop事件,GameStop是一家实体游戏店,当地的对冲基金普遍不看好这只股票,但该公司接连传出利好消息,如2020年的销售额增长率为519%、与微软达成战略合作等,散户的大量购买使其股价迅速上升,导致华尔街的对冲基金产生巨额亏损。基于此,本文研究散户对股票的关注及对股票走势的判断,是否会对股市的信息传递和股价的走势产生影响以及怎样的影响。
早期,在构建个人投资者情绪指数时,很多学者选择用换手率、开户数的增加量等作为其代理变量。姚远和王瑞倩(2021)将多个具体的量化指标整合成一个综合指标表示个人投资者的情绪,并建立TVAR模型研究在不同的经济状态下,个人投资者的情绪对股指的不同影响。研究发现,低区位时的股指更容易受到个人投资者的情绪影响。童元松(2020)以股市每月新增开户数作为代理变量,研究了个人投资者的情绪和股价指数的双向互动关系。研究发现,股票指数的波动与散户的情绪互为因果,机构个人投资者情绪较为稳定,不存在这样的因果关系。陆昌、刘洋和杨晓光(2020)以隔夜收益率表示个人投资者的情绪研究其对我国股市的影响。研究发现我国个人投资者的正向情绪与负向情绪对股市的影响不对称,且负向情绪的持续影响更大。这种现象在个人投资者为主要投资者的股票上更加明显。
雪球、和讯股吧和东方财富网股吧等社交媒体的评论内容为股价的影响因素研究提供了新思路。徐维军等(2022)以东方财富网股吧的股评文本为基础刻画个人投资者的情绪,通过改进构建了新的均值回归投资策略,且利用该策略进行投资能够提高收益。高扬、申怡然和徐嘉熙(2022)通过Bi-LSTM神经网络分类形成情绪指标,研究其对科创板股指的影响。研究发现,交易量在两者的影响机制中作为中介变量。黄雨婷、宋泽芳和李元(2021)采用文本挖掘技术构建情感词典,采用SVM将股评分为3类:积极、中立和消极,并探讨了其对股市产生的效应。研究发现,个人投资者的情绪在一个交易周内对股票收益率具有正向预测效应,而长期来看是负向预测效应。
基于此,本文以东方财富网股吧中的互联網金融上市公司的发帖行为为基础,利用Word2vec和K-Means聚类对股评文本进行分类,量化股评情绪,并利用有序Logistic回归模型研究发帖行为与股价涨跌之间的关系。
二、模型介绍
通过建立Word2vec模型将股评文本转化为词向量组成的矩阵,可以使股评文本结构化。将Word2vec模型训练后得到的词向量作为K-Means聚类模型的输入对互联网金融上市公司的股评进行三分类得到各股评的情感分类。然后建立有序Logistic回归模型分析股评数量和股评情绪对股价涨跌的影响。下面分别阐述三个模型的相关理论。
(一)词向量模型
Word2vec模型由Mikolov等提出的基于推理的文本表示模型,该模型通过自然语言的上下文关系将其转化为稠密向量,转化为词向量后有助于挖掘文本中词汇和句子间的特征,本文使用连续词袋模型(ContinuousBag-of-Wordmodel,CBOW)来获得词向量。该方法的主要操作是推理,当给出周围的词时,预测中间会出现什么词。通过反复求解这些推理问题并学习规律,可以学习到单词的出现模式。
图1为CBOW模型的二分类神经网络的全貌图,该图展示了上下文是“金融”和“序列”,作为正确解的目标词是“时间”的例子。在输入层为了提取单词ID的分布式表示,使用Embedding层实现从权重矩阵Win中抽取单词ID对应行(向量)。h表示中间层的神经元,然后计算中间层h与输出层权重Wout中对应的词向量的内积。该模型引入了反向抽样损失函数,这样无论样本词汇量有多大,都可以使模型计算量保持较低或恒定。负采样的核心是二分类,用二分类来拟合多分类,将输出层由全部词改为仅关注一个词,该词可能是目标词——正例,也可能是其他词——负例,每次只关注一个词,计算它的得分,得分最高的词为正例。
图1进行二分类的CBOW模型的全貌
(二)K-Means模型
K-Means模型是利用样本的分布进行集合划分的无监督分类方法。该模型通过不断迭代得到类中心,并将样本分为K类。
模型算法如下:
输入:样本集合X
输出:样本的分类结果
(1)初始化类中心。t=0,随机定义初始的类中心m0=m01,…,m0l,…,m0k;
(2)对样本进行聚类。设第t次迭代的类中心为mt=mt1,…,mtl,…,mtk,计算样本到每个类中心的距离,将样本分配到距离其最近的类中心所属的类中,结果满足
minC∑km=1∑Ci=lxi-ml2(1)
得到第t次迭代的聚类结果Ct;
(3)根据Ct计算新的类中心。计算当前分类结果Ct中各类样本的平均值
ml=1nl∑Ci=lxi(2)
为新的类中心mt+1=mt+11,…,mt+1l,…,mt+1k;
(4)若迭代达到收敛或停止条件,该聚类结果为最终的聚类结果,即C*=Ct。否则,令t=t+1,继续迭代。
(三)有序Logit模型
有序Logit模型适用于研究自变量对多类别顺序变量的因变量的影响问题。设y有k个取值,则y的取值超过j的概率表示如下:
pj=py≥j|x=πj+πj+1+…+πk(3)
πj=py=j|x(4)
其中,πj为y的等级为j的概率,pj为y的等级为j的向上累积概率,pj的Logit变换为
Logitpj=Logitpy≥j|x=lnpy≥j|x1-py≥j|x(5)
该式即为有序Logit回归模型,则该模型定义为
Logitpj=Logitpy≥j|x=α+∑nj=1βjxi(6)
三、研究设计
(一)数据来源
本文的研究区间为2022年1月1日—2022年5月31日,互联网金融行业上市公司名单来自Wind资讯数据库,目前我国互联网金融行业共有43家上市公司。股评来自股吧网站,个人投资者发帖数目从爬取的股评数据中整理获得。股市相关数据通过Python的Tushare库获取。
股评文本爬取过程如图2所示。
图2股评文本爬取过程
对爬取的股评进行预处理,删除公司名称、股票代码及特殊符号。经过预处理后的股评数如图3所示。从图3可以看出,东方财富网、恒宝股份的发帖总数最高,超过25000条,高于其他公司2倍,说明个人投资者对其关注度很高,这些公司的个人投资者中散户所占比例更高。鸿利智汇、东易日盛和派生科技的发帖总数最低,低于1000条,说明个人投资者对其关注度较低,这些公司的个人投资者中散户所占比例更低。
(二)关键变量定义
股价涨跌:当日收盘价高于前一日收盘价,则股价涨,取值为1,否则取值为0。
股评数量:东方财富网股吧的经预处理后的每日股评数取对数。
股评情绪:首先,利用Python爬取2022年1—5月股吧网站上的日股评数据250196条,接着利用Jieba中文分词系统将全部文本按词性拆成独立的词组集合,用Word2vec巡礼词向量,最后将词向量嵌入K-Means模型,用K-Means模型将股评分为积极、中立与消极3类。股评情绪的计算公式如下:
Sent=ln(∑SentiRevt)(7)
其中,Senti表示第t天第i条股评的情绪,Revt表示第t天的股评数量,即第t天的股评情绪为该日股评情绪的均值取对数。
控制变量:
参考股市相关领域研究和我国股市特征,将公司规模及股票的流动性作为控制变量。用公司总市值代表公司规模,公司总市值越大,则公司规模越大。用日平均换手率表示公司股票的流动性,股票的日平均换手率越大,则股票的流动性越大(见表1)。
图3互联网金融上市公司股票评價总数资料来源:东方财富网股吧。
(三)研究模型
为了研究股评情绪和股评数量对股价涨跌的影响,本文建立有序Logit回归模型:
Pricei,t=β0+β1Senti,t+β2Revii,t+β3Liqui,t+β4Sizei,t+μi+λt+εi,t(8)
其中,i和t分别表示公司和日期。解释变量Revii,t与Senti,t分别为时间t公司i的股评数量和股评情绪,本文从股价涨跌的角度(Pricei,t)评价解释变量对股价产生的影响。控制变量包括股票流动性(Liqu)和公司规模(Size),并控制了公司(μi)和日期(λt)效应,εi,t为随机扰诉项。
四、财经平台的发帖行为对股价涨跌影响的实证研究
(一)相关变量的描述性统计
使用上文所述方法得到的变量绘制互联网金融上市公司个人投资者关注度与个人投资者情绪的变化趋势图,分析该行业各公司个人投资者关注度和个人投资者情绪的变化情况。
图4为互联网金融上市公司2022年1—5月个人投资者关注度的变化趋势。从图4可以看出:各公司的个人投资者关注度相差较大,其中东方财富网、恒宝股份、润和软件、证通电子和新力金融的最高个人投资者月关注度达到1000以上,而鸿利智汇、东易日盛和派生科技的最高个人投资者月关注度只能达到100。行业内的关注度差异达到10倍以上,这说明个人投资者对该行业公司的关注有很大区别,在个人投资者中的知名度差异较大,这对该行业部分公司的发展前景造成一定影响,该行业公司发展不均衡。
图4互联网金融上市公司个人投资者关注度变化趋势资料来源:东方财富网股吧。
通过分析从互联网金融上市公司2022年1—5月的个人投资者情绪变化趋势可以看出由于版面有限,个人投资者情绪变化趋势图略,若有需要可以联系编辑部或作者。:股评情绪的波动幅度较大,这也说明了股票市场的瞬息万变,公司一旦放出利好或利空消息,股价会马上对该信息做出反应;生意宝、证通电子、协鑫集成、誉衡药业、海宁皮城、东易日盛、金一文化、三六五网、汇金股份、赢时胜、盛天网络、新力金融等20家上市公司的个人投资者情绪多为看跌情绪,润和软件、同花顺、金证股份、恒生电子、信雅达、大智慧等23家上市公司的个人投资者情绪多为看涨情绪,53.5%的互联网金融上市公司的个人投资者对其股价走势呈乐观态势,说明我国互联网金融上市公司发展状况较好,具有良好的发展前景,这与我国互联网和人工智能的高速发展是密不可分的。43家上市公司中有83.77%的公司的个人投资者情绪在1月底2月初时均为看跌情绪。这是由于该段时间临近春节,大量个人投资者卖出股票,导致股价出现一定程度的下跌。但春节结束后即2月底股价会恢复,个人投资者情绪也相应变化。
对使用上述方法得到的变量做描述性统计分析,了解相关变量的总体分布状况。描述性统计的结果如表2所示。从表2可以看出:Price的均值小于0且中位数为-1,说明对整个互联网金融行业而言,股价下跌的天数更多。Sent的中位数与平均值均为负数,说明个人投资者更偏向于股价会跌,可以看出股价的涨跌与个人投资者情绪的变化总体一致,说明个人投资者情绪会对股价涨跌造成影响,这一结果将通过下面的实证分析做进一步说明。Revi的最大值为2047,最小值为3,说明该行业某公司一天的股评数可以达到2047条,而另一公司某一天的股评数只有3条,这说明了各公司的个人投资者关注度以及不同时间的个人投资者关注度存在较大差异,研究个人投资者关注度对股价的影响具有实际意义。控制变量的统计结果没有异常。且相关变量的相关系数均小于0.6,说明变量间不存在需要特别考虑的多重共线性问题。
(二)財经平台的发帖行为对股价涨跌影响的回归分析
为了确定合适的拟合模型,需要进行相关检验,检验结果如表3所示。从表3可以看出:F检验拒绝原假设,在混合模型和固定效应(FE)模型中应选择FE模型;LM检验接受原假设,在混合模型和随机效应(RE)模型中应选择混合模型,豪斯曼检验拒绝原假设,在RE模型和FE模型中应选择FE模型。本文应选择固定效应模型进行实证分析。
表4为利用固定效应的有序Logit回归模型研究个人投资者发帖行为对股价涨跌的影响结果。在实证分析前,将解释变量和相关的控制变量对数化。其中,第二列为在控制日期和公司固定效应的情况下个人投资者情绪对股价涨跌的影响,经过3次迭代后得到最大似然估计。lnSent的系数为0.2995,在1%的水平上显著,说明个人投资者情绪的高涨会使股价上涨。第三列为在控制日期和公司固定效应的情况下个人投资者的关注度对股价涨跌的影响,lnRevi的系数为-0.6592,在1%的水平上显著,说明个人投资者的关注度增加会使股价下跌。第一列为在控制日期和公司固定效应的情况下个人投资者情绪与股票关注度对股价涨跌的影响,lnSent的系数为0.2207,在5%的水平上显著,进一步印证了个人投资者情绪与股价涨跌的正相关关系,说明东方财富网股吧的个人投资者情绪在股票市场中具有一定的主导性。lnRevi的系数为-0.6300,在1%的水平上显著,进一步印证了个人投资者关注度与股价涨跌的负相关关系。这与熊艳(2022)的研究结论相同,进一步说明了东方财富网股吧的主要效应为情绪宣泄。
表5从胜算比角度分析个人投资者关注度及个人投资者情绪对股价涨跌的影响。其中,第一列为两者共同作用对股价涨跌的胜算比,lnSent的系数为1.2469,则个人投资者情绪每增加1个单位使股价上涨的胜算提高了24.69%,lnRevi的系数为0.5326,则个人投资者关注度每增加1个单位使股价上涨的胜算降低了46.74%。第二列为个人投资者情绪对股价涨跌的胜算比,lnSent的系数大于0,说明个人投资者情绪的增加使股价上涨的胜算提高了。第二列为个人投资者关注度对股价涨跌的胜算比,lnRevi的系数大于0,说明个人投资者关注度的增加使股价上涨的胜算降低了。进一步证实了个人投资者关注度对股价涨跌的胜算比大于1,个人投资者情绪对股价涨跌的胜算比小于1本文的变量增加1个单位为对数化后的变量增加1个单位。
表6为个人投资者关注度与个人投资者情绪对股价涨跌的平均边际影响。对于第一列个人投资者关注度与个人投资者情绪对股价涨跌的整体边际影响而言,当个人投资者关注度和控制变量不变时,个人投资者情绪每增加1个单位,股价下跌的概率会减少5.50%,股价平稳的概率会增加0.05%,股价上涨的概率会增加5.44%。当个人投资者情绪和控制变量不变时,个人投资者关注度每增加1个单位,股价下跌的概率增加15.70%,股价平稳的概率会减小0.15%,股价上涨的概率会减小15.45%。第二列说明了个人投资者情绪的高涨使股价下跌的概率减小,股价上涨的概率增加。第三列说明了个人投资者关注度的增加使股价下跌的概率增加,股价上涨的概率减小。与第一列结果一致,进一步证实了个人投资者的关注度和情绪对股价涨跌的影响。
(三)财经平台的发帖行为对股价涨跌影响的稳健性检验
1.缓解内生性问题对结论的影响
本文使用工具变量法并基于2SLS回归的方法来缓解个人投资者关注度和个人投资者情绪对股价涨跌影响的内生性问题,选择滞后一期的内生变量作为工具变量,第一步将个人投资者关注度或个人投资者情绪作为因变量,滞后一阶的变量作为工具变量做回归,第二步将上一步得到的因变量作为解释变量,股价涨跌作为因变量进行回归,回归结果如表7所示。从表7可以看出,就个人投资者关注度对股价涨跌的影响而言,一阶段中工具变量(L1.lnRevi)的系数显著为正,说明模型是恰足确认的,不存在弱工具变量问题。二阶段中,经过工具变量回归的lnRevi的系数显著为负,结论仍然成立。就个人投资者情绪对股价涨跌的影响而言,一阶段中工具变量(L1.lnSent)的系数显著为负,说明模型是恰足确认的,且不存在弱工具变量问题。二阶段中lnSent的系数显著为正,结论仍然成立,说明本文研究不存在内生性问题。
2.缓解样本偏差对结论的干扰
通过缩小样本规模来缓解样本选择偏误对结论的干扰。由于春节前后的股评信息可能受到很多外部信息的干扰,所以利用2022年3—5月的股评数和股评情绪均值代表个人投资者关注度与个人投资者情绪,使用面板数据的有序Logit模型研究两个变量对股价涨跌的影响,实证结果如表8所示。观察表8发现实证结果与前文保持一致,说明本文研究结果较稳健。
五、结论与建议
本文以东方财富网股吧中的互联网金融上市公司的发帖行为为基础,以2022年1—5月的股票相关数据研究发股评数及股评情绪对股价涨跌的影响。研究结果表明:①个人投资者对互联网金融行业公司的关注度差别较大,这对该行业部分公司的发展前景造成一定影响。②53.5%的互联网金融上市公司的个人投资者对其股价走势呈乐观态势,说明我国互联网金融上市公司发展状况较好,具有良好的发展前景,这与我国互联网和人工智能的高速发展密不可分。③个人投资者情绪的高涨会使股价上涨,个人投资者情绪每增加1个单位使股价上涨的胜算提高了24.69%;而个人投资者的关注度增加会使股价下跌,个人投资者关注度增加1个单位使股价上涨的胜算降低了46.74%。印证了股吧的情绪宣泄效应。④当个人投资者关注度和控制变量不变时,个人投资者情绪增加1个单位,股价下跌的概率会减少5.5%,股价平稳的概率会增加0.05%,股价上涨的概率会增加5.44%。当个人投资者情绪和控制变量不变时,个人投资者关注度每增加1个单位,股价下跌的概率增加16.38%,股价平稳的概率会减小0.16%,股价上涨的概率会减小16.23%。
本文研究表明,互联网金融行业各公司的个人投資者关注度与个人投资者情绪差别较大,且行业的个人投资者关注度与个人投资者情绪对股价涨跌的影响作用相反,应对财经平台因势利导,使其更好地服务股票市场。因此,提出以下建议:①个人投资者由于缺乏专业方面的知识,容易被财经平台中的错误信息干扰。因此,个人投资者应加强专业知识的摄入,时刻保持清醒状态,在做出投资决策前尽量进行理性分析。②由于恰当的个人投资者情绪确实能反映未来的股价涨跌,财经平台如东方财富网股吧应当加强股票评论内容监管,将内容严重不符的股评进行删评或对用户禁言,帮助个人投资者做出正确的决策。③互联网金融行业要利用好个人投资者情绪与个人投资者关注度对股价涨跌的影响,在做好本公司主营业务的前提下可以通过培养一批情绪稳定的专业个人投资者,引导公司在股吧中的形象,稳定公司的股价。
参考文献
[1]叶德磊,姚占雷,刘小舟.公司新闻、个人投资者关注与股价运行——来自股吧的证据[J].华东师范大学学报(哲学社会科学版),2017,49(6):136-143,172.
[2]江婕,邱佳成,朱然,等.投资者关注与股价崩盘风险:抑制还是加剧?[J].证券市场导报,2020(3):69-78.
[3]刘维奇,刘新新.个人和机构投资者情绪与股票收益——基于上证A股市场的研究[J].管理科学学报,2014,17(3):70-87.
[4]黄德龙,文凤华,杨晓光.投资者情绪指数及中国股市的实证[J].系统科学与数学,2009,29(1):1-13.
[5]姚远,王瑞倩.宏观经济、投资者情绪与股指收益率的非对称性研究[J].价格理论与实践,2021(1):124-127,174.
[6]陆昌,刘洋,杨晓光.投资者情绪的不对称性及其原因——来自中国市场的实证[J].系统科学与数学,2020,40(4):612-633.
[7]童元松.我国股票价格指数与投资者情绪的互动效应研究[J].价格理论与实践,2020(9):98-101,179.
[8]BARTOVE,FAURELL,MOHANRAMPS.CanTwitterhelppredictfirm-levelearningsandstockreturns?[J].TheAccountingReview,2018,93(3):25-57.
[9]ANTWEILERW,FRANKMZ.Isallthattalkjustnoise?Theinformationcontentofinternetstockmessageboards[J].TheJournalofFinance,2004,59(3):1259-1294.
[10]徐维军,彭子衿,张卫国,等.基于文本信息考虑投资者情绪的均值回归策略设计——以东方财富股吧发帖文本和A股市场为例[J].运筹与管理,2022,31(3):193-198.
[11]高扬,申怡然,徐嘉熙.投资者情绪对科创板市场收益率的影响——基于文本数据挖掘视角[J].运筹与管理,2022,31(2):184-190.
[12]蔡毅,唐振鹏,吴俊传,等.异质投资者情绪对股市的影响研究——基于文本语义分析[J].系统科学与数学,2021,41(11):3093-3108.
[13]黄雨婷,宋泽芳,李元.基于文本挖掘的股评情绪效应分析[J/OL].数理统计与管理:1-14[2022-06-09].
[14]熊艳.论坛发帖与股价行为:情緒宣泄还是信息传递?[J].中央财经大学学报,2022(5):29-45.
[15]陈浪南,陈文博.中国股市非对称V字形处置效应的实证研究[J].管理工程学报,2020,34(1):63-78.
[16]施荣盛.投资者关注与分析师评级漂移——来自中国股票市场的证据[J].投资研究,2012,31(6):133-145.
[17]李倩.媒体报道与投资者关注对股票收益的影响机制研究[D].成都:四川大学,2021.
[18]陈健,曾世强.投资者情绪对股票价格波动的影响研究[J].价格理论与实践,2018(7):99-102.
[19]张祚超,张永杰,沈德华,等.大众媒体与新媒体信息传递对中国股市收益波动的影响[J].中国管理科学,2021,29(6):238-248.
[20]段江娇,刘红忠,曾剑平.中国股票网络论坛的信息含量分析[J].金融研究,2017(10):178-192.
TheInfluenceofInternetFinanceListedCompaniesPostingBehavioronStockPrice
FANGGuobinSHENYuxin
(SchoolofStatisticsandAppliedMathematics,AnhuiUniversityofFinanceandEconomics,Bengbu233030,China)
Abstract:WiththecontinuousdevelopmentofInternetfinance,itisofgreatsignificancetostudytheeffectofPostingbehavioroffinancialplatformsonstockpricetrend.BasedonthePostingbehavioroflistedInternetfinancialcompaniesinOrientalFortuneStockBar,thispaperusesstockrelateddatafromJanuarytoMay2022tostudythenumberofsharecommentsissuedandtheimpactofsharecommentsentimentonstockpriceriseandfall.Therisinginvestorsentimentwillmakethestockpricerise,eachadditionalunitincreasestheprobabilityofthestockpriceriseby24.69%.However,wheninvestorspaymoreattention,stockpricesfall.Anincreaseininvestorattentionbyoneunitreducestheoddsofastockpricerisingby46.74%.TheresearchontheinfluenceofPostingbehavioronstockpricecanprovidereferenceforinvestorstomakemorefavorabledecisions,thedevelopmentofInternetfinanceindustryandthestabledevelopmentofstockmarket.