网络舆情作为社会传感器对股票指数的影响
——基于LDA主题模型的挖掘分析

2018-06-21 01:08吕伟欣

财务与金融 2018年6期

徐翔靳菁吕伟欣

一、引言与问题的提出

新媒体环境下，网络舆情作为社会公众意见的重要“传感器”，在不同领域发挥着越来越重要的作用。中国互联网信息中心（CNNIC）发布的第41次《中国互联网络发展状况统计报告》显示，截至2017年12月，我国网民规模已达7.72亿，全年共计新增网民4074万人，互联网普及率为55.8%。网民规模的增加，说明网络舆情的来源愈加丰富，网络舆情的辐射范围也更加广泛。

研究证券市场的涨跌与网络舆情的变化之间是否存在相关性联系的课题，有利于从传播学角度探讨网络舆情的“社会传感器”作用及其产生的社会影响。目前有关网络舆情变化和股票市场关联性的研究主要集中在经济学、金融学领域。本研究从网络舆情动力学的角度考察舆情主题变化对股价涨跌的影响，有利于为传播学的跨学科发展提供新的视角。另外，影响网络舆情的因素众多，受众的选择性注意、信息不对称、缺少信息把关等问题，都有可能造成公众的非理性投资行为，甚至导致股票市场异常。因此，挖掘网络舆情的“社会传感器”作用对证券市场的影响，还有利于加强证券市场的监管，完善投资环境，促进金融市场的稳定。综上，将网络舆情变动和金融市场分别建立相应的指标，通过文本挖掘和实证研究考察其关联性的研究，具有一定的理论意义和现实关照。

本文的核心观点是，网络舆情的变化与证券市场涨跌之间存在相关性。网络舆情指向一定时期内社会公众的重大关切，而网络舆情作为公众认知的重要“传感器”，其变化说明受众注意力的结构发生改变。那么这种结构性变化会不会对证券交易造成影响，会产生何种影响，就是本文试图探讨的话题。

二、理论分析与文献综述

本研究的理论依据主要包括两个学科视角。首先，行为经济学表明金融市场的投资并不是完全理性的。投资过程可能存在认知偏差。造成这种认知偏差的因素多样。一方面，市场有效性强调信息在股价预测中的作用。有效市场内的信息会全面、迅速地反映在价格上。传统股票市场的信息一般是单向传播为主、并且有少数专业机构发布，而随着信息社会的发展，网络舆情呈现出碎片化、多元化、智能化的特点，投资者接受信息的渠道随之增加，但良莠不齐的信息质量并不一定能够减少投资者的认知偏差，还有可能误导投资者。另一方面，投资者的内在情绪和选择性注意机制也会深刻影响决策活动。非理性行为还会引发群体效应，影响群体投资行为，形成“羊群效应”。行为金融学突破了传统金融学的理论桎梏，将金融市场的一些乱象从心理学、社会学角度进行归因，成功地从跨学科交叉的角度解释了许多市场行为。

其次，传播学的经典理论“议程设置”认为，大众传播具有为受众“设置议程”的功能。网络所营造的“拟态环境”通过网络舆情敏锐地将信息传递给投资者，造成投资者的注意力结构、刻板印象和认知水平等方面的变化，从而作用于证券交易市场。新媒体时代传者泛化的特征，使得信息的提供者也不再仅仅局限于上市公司和监管机构，普通股民也成为股市信息的提供者、传播者和执行者。从海量网络舆情表现出的“议题”，可以代表受众的重大关切和社会的普遍感知，实现了公共信息的凸显和个性化信息的满足。因此，网络舆情的“社会传感器”作用是不言而喻的。这种“社会传感器”投射在本就对意见气候极其敏锐的证券市场上，就很有可能影响市场的投资行为。

国内外学者从不同角度对于二者的关联性进行了研究。国外研究方面，Wysocki（1999）最早开始对网络论坛讨论进行研究，他发现发帖量大的公司往往对应的是交易量大的，市值价值比高的，机构持股比例更小的公司。这表明前一日的股票评论数量对于后一日的股票收益率和成交量有一定的预测解释能力。Antweiler（2004）等利用贝叶斯和向量机方法对RagingBull和雅虎金融板块的论坛进行分析，建立了投资者情绪指数和投资者意见分散度指数,发现股票收益率与当天论坛中的信息指标呈显著的相关关系。随着社交媒体的发展，Blankespoor、Miller和White（2014）等人从市场有效性的角度研究社交媒体与股票交易的关联，他们发现，公司在twitter上发布新闻，能够减少信息不对称性，以降低异常的买卖差价。

国内研究方面，饶育蕾（2010），金雪军等（2013）以及马俊伟等（2014）都通过分析不同数据源，证明了媒体信息与股价的相关性。游家兴等（2012）借用"沉默的螺旋"理论,从金融市场的资产误定价现象入手研究媒体情绪对于金融市场的负面影响。金曦（2016）分析了个股成交量与百度媒体指数的动态关联，得出了在不控制任何条件的情况下新闻量越大，个股成交量越大的结论。孔翔宇等（2016）深度挖掘了财经新闻主题内容与股市市场的相关性,并提出了一种基于理解当日新闻主题分布来分析中国股市涨跌的预测模型。宋双杰等（2011）人则通过分析网络搜索量研究投资者关注和IPO溢价的异常情况。李正辉等人（2018）从文献综述的视角梳理了网络舆情和金融市场的关系，围绕投资者关注、信心和情绪等方面分析网络舆情对资产定价波动的影响。

但是，另一方面，也有学者认为媒体信息和股票市场可能呈现不相关的情况。Tumarkin和Whitelaw（2001）分析了美国RagingBull论坛，以互联网行业的72只股票为研究对象，着重观察事件日前后各五天内证券市场变量的变化情况。作者最后认为，发帖者的情绪并不能预测股票成交量和回报，论坛上的开源信息主要是“市场噪音”。Das和Chen（2001）研究发现，网络讨论能够迅速反映信息，但无法预测股票收益。

另外，还有研究认为投资者情绪和关注度、搜索强度等媒体提供的信息也是对股价进行预测的重要指标。Bollen、Mao（2010）等学者对美国大型社交网站twitter近1000万条网络信息中表现出的投资者的不同情绪进行挖掘分析，结果表明，把某情绪指数向后移动3天左右得到的结果，同道琼斯工业的平均指数非常相近，准确率甚至达到了86.7%。同样关注投资者情绪对股价影响的还有Ljungqvist（2003）和Sapienza（2004）等。以搜索强度的媒体信息作为影响因素的研究中，Da和Gao（2009）通过网民在互联网中的搜索指数来说明股票市场中投资者情绪的变化。他们搜集了Russell3000指数中所有公司股票简称的搜索强度数据，得出的结论是规模较小的市场的搜索强度对于股价的预测能力更强。

三、研究设计与概念界定

研究假设即网络舆情的变化与股票交易指数的涨跌幅有关联，网络舆情变动能够解释股票市场交易量涨跌幅的变动。具体来说，通过LDA主题模型的反复迭代生成了100个主题，这些主题从第0天起到第6天末的变化情况，与上证指数、沪深三百、深证成指、创业板指这四个主要股指相对应的交易日涨跌幅之间存在关联。

研究的基本思路是，首先，抓取今日头条（https://www.toutiao.com）的约一千六百万条帖子，这些帖子以传者用户为线索。这些用户采取判断抽样方式，从今日头条的“热点”版块中获得发文者的url。对发问者的历史发帖，按照从新到旧的顺序排列，通过python编写爬虫抓取，其中由于页面是“瀑布流”的下拉式ajax页面，采用selenium技术模拟人类用户在浏览今日头条页面时的下拉等操作行为。最后对数据进行清洗和选择，得到2016年2月15日至2017年11月29日所有交易日帖子样本，并对这些帖子进行LDA主题模型的分析。其次，分别获取上证指数、沪深三百、深证成指、创业板指的数据，整理这些股指在上述时间内的涨跌幅变化数据。之所以选择以上四个股指，是因为这四个股指的代表性较强，上证指数和深证成指分别代表了沪深两市的最综合最全面的金融指标；沪深三百覆盖沪深两市，合理选择样本股描述股市投资情况；创业板指数全面地反映了创业板市场情况，向投资者提供了更丰富的金融指标参考。因此，四个股指的涨跌幅分析能够帮助我们更宏观地了解股市变动情况，从而考察其与网络舆情的关联。第三，通过多元线性回归分析计算出今日头条帖子的LDA模型主题变动数值与各个股指的股价涨跌幅之间存在何种联系。回归分析可以从二者的关联强度、显著性检验、拟合优度、稳健性等方面进行。第四，运用支持向量机（SVM）算法进行机器学习，输入回归结果中具有显著作用的LDA数值作为训练样本，运用五折法进行学习和预测（将样本分为5份，机器学习五分之四的训练样本之后，对剩余五分之一的样本的股价涨跌进行预测，反复进行五次）。这一实证结果表明，通过回归结果中具有显著作用的LDA列生成的机器学习模型具有比较强的泛化能力，即LDA所代表的网络舆情的变动能够对股价涨跌进行预测。

概念界定方面，首先，网络舆情的概念学界尚未形成统一界定，一般来说，网络舆情是指网民自发形成的零散的意见表达。在本研究中为了使网络舆情可操作化，我们将“今日头条”帖子作为数据源，通过LDA模型进行文本分析，得出比较具有代表性的网络舆情表达。“今日头条”是基于数据挖掘和个性化推荐生成新闻资讯的平台，包括新闻门户网站、手机新闻客户端等产品，其内容包含娱乐、科技、财经、体育等方面，受众分布也比较广泛。根据今日头条公布的数据，截止2018年7月31日，其日活跃用户数已经达到了1.2亿。基于庞大的用户群和访问量，我们可以认为抓取的共约1600万今日头条帖子代表了一定时期内的社会关注和意见表达。其次，所谓网络舆情的“社会传感器”作用，是指网络在生成海量信息的同时，也作为“社会传感器”感知着社会意见分布，并将这种感知传导到网络的拟态环境中。这种“社会传感器”作用对整合个体的感知能力，进行统筹资源调配，都具有重要意义。为了使网络舆情的“社会传感器”作用在研究中变得更加可操作化，在本研究中我们引入了LDA主题模型以分析舆情文本的变化情况。LDA主题模型通过对头条帖子的文本进行挖掘，建立离散数据模型，分析不同主题的概率分布。我们可以通过观察LDA主题模型相对于前0到6天的变化，了解公众的注意力转向何方，这种转向是否与主要股指涨跌幅有关，以此证明网络舆情在金融市场中是否存在“社会传感器”的作用，影响力有多少。

四、网络舆情的文本挖掘

对于网络舆情的文本挖掘，我们采用的是建立LDA主题模型以观察其在第0天起到第6天末变动的方法。LDA主题模型是一种对于文本内容进行分析的方式，它通过对离散数据集建立模型，分析概率主题。这种模型的核心思想是，一个文档包含了若干主题，而每一主题又包括若干个主题词。本研究中，对于每条帖子，考察它在这些主题上的分布概率，这些概率的总和为1。这种处理方法很好地适应了网络内容的多主题性及其模糊性。

LDA主题模型的优点主要包括以下三点。首先，LDA模型简短描述文档，并且引入先验参数，减少了过度拟合的可能性。即使文档数量增加，主题参数也不会随之线性增加，而只会留下最本质的统计信息，这使得大规模处理文档信息，进行文本分类变得更加高效。其次，3层贝叶斯结构的LDA模型具有清晰的层次划分，包括文档集合层、主题、主题特征词三层，这使得潜在语义分类更加科学化、智能化，减小了人工分类带来的主观偏见的影响，有助于提高聚类效果的质量。第三，本文中的LDA是动态化的主题模型，不再关注单个静态因素对因变量的影响，而是关注主题的动态变化与因变量的关联，这种动态演化过程很好地反映了主题相对于前段时间的演化过程，更有助于把握文本变化。但是，我们也应该看到，LDA主题模型依然存在比较明显的弊端，主要表现在采用强制方法分配隐含主题，挖掘语义上下文的能力有限。

本研究的分析中，考虑到主题之间的差异度，将网络舆情内容的划分设定为100个主题，LDA主题模型共迭代了500次，生成了区分度较优的主题分布结果。划分通过python程序语言及其LDA模块进行。LDA主题的确立很好地引导我们了解社会关注和舆情热点，文本语义挖掘结果比较合理。

需要注意的是，我们需要明确的不是网络舆情内容指向与股价指数关注指向之间的静态联系，而是网络舆情的动态变化，能否解释股价市场的涨跌。因此，为了了解网络舆情的动态变化，我们计算出了今日头条每天的帖子在100个主题上的分布概率，相对与前一天的变化差值，了解LDA主题模型从第0天其到第6天末的变动情况。实际上，这种变化也是一阶差分的处理，有助于通过舆情变化情况而非直接的舆情情况，更好地了解公众的注意力变化情况和“议程设置”的情况。这里我们截选七天内LDA前10列的变动差值如下。（见表1）

表1 主题分布概率及相对于前一天的变化差值（以7天内的部分主题为例）

五、主要股指涨跌幅和网络舆情主题变化的回归分析

（一）上证指数与从第0天起到第6天末的网络舆情主题变化的多元回归分析

上证指数（000001）的样本股是在上海证券交易所全部上市股票，包括A股和B股，反映了上海证券交易所上市股票价格的变动情况。多元线性回归分析的因变量为上证指数在对应日期内的涨跌幅，自变量为2016年2月15日至2017年11月29日今日头条帖子呈现的LDA主题模型从第0天起到第6天末的变化。变量的筛选采用了“逐步”分析策略，在每个变量进入方程之后再次判断是否可以剔除，这就在引入变量之后的每一个阶段都提供了剔除不显著变量的机会。

关联强度方面，回归模型的调整R方为0.714（见表2），说明网络舆情的变动能够解释上证指数约71.4%的变化，这说明网络舆情对上证指数和证券市场的波动具有比较显著的正向影响。

显著性检验方面，从回归方程的显著性来看，F值为15.076，P-值为0.000（见表3），小于0.05，说明拒绝原假设，认为自变量和因变量的线性关系显著。回归方程的显著性检验结果与拟合优度也有一定关联，P-值较小，说明拟合优度较好。从回归系数的显著性来看，仅有两个t统计量对应的概率P-值均大于0.05，需要被剔除，可以认为自变量和因变量的线性关系显著。

残差分析方面，残差均值为0（见表4），说明总体上服从以0为均值的正态分布。残差独立性方面，Durbin-Watson值为1.651，约等于2，说明序列不存在自相关关系。另外，标准化残差的标准P-P图中，数据沿对角线方向分布（见图1），说明回归模型满足正态要求。

多重共线性诊断方面，最大特征值为3.767，最小特征值为0.208，最大的条件指数为4.260，可以认为多重共线性较弱，特征值检验系统比较平稳，结论基本稳健。

表2 上证指数的模型汇总

表3 上证指数的方差分析

表4 上证指数的残差统计量

图1 上证指数标准化残差的标准P-P图

（二）沪深300与从第0天起到第6天末的网络舆情主题变化的多元回归分析

沪深300（000300）是由沪深证券交易所联合发布的覆盖沪深两市的金融指标，该回归分析的因变量是沪深300在对应日期内的涨跌幅，自变量依然是基于网络舆情生成的LDA主题模型的从第0天起到第6天末的变化。采用“逐步”策略进行分析。

关联强度方面，回归模型的调整R方为0.667（见表5），说明网络舆情的变动能够解释上证指数约66.7%的变化，这说明网络舆情的变动对沪深300股指也有比较显著的影响，但是影响幅度小于上证指数。

显著性检验方面，从回归方程的显著性来看，F值为12.617，P-值为0.000（见表6），小于0.05，认为自变量和因变量的线性关系显著。回归方程的显著性检验结果与拟合优度也有一定关联，P-值较小，说明拟合优度较好。从回归系数的显著性来看，每一个t统计量对应的概率P-值均小于0.05，说明自变量和因变量的线性关系显著。

残差分析方面，残差均值为0（见表7），说明总体上服从以0为均值的正态分布。残差独立性方面，Durbin-Watson值为1.600，约等于2，说明序列不存在自相关关系。另外，标准化残差的标准P-P图中，数据沿对角线方向分布（见图2），说明回归模型满足正态要求。

多重共线性诊断方面，最大特征值为3.573，最小特征值为0.191，最大的条件指数为4.325，说明多重共线性较弱，特征值检验系统比较平稳，结论基本稳健。

表5 沪深300的模型汇总

表6 沪深300的方差分析

表7 沪深300的残差统计量

图2 沪深300标准化残差的标准P-P图

（三）深证成指与从第0天起到第6天末的网络舆情主题变化的多元回归分析

深证成指（399001）是深圳证券交易所的主要股指，它按一定标准选出500家有代表性的上市公司作为样本股，以观察股价变动的金融市场指标。该回归分析的因变量是深证成指在对应日期内的涨跌幅，自变量和分析策略与之前股指的分析相同。

回归结果表明，关联强度方面，回归模型的调整R方为0.627（见表8），说明网络舆情的变动能够解释上证指数约62.7%的变化，这一结果小于上证指数和沪深300的解释力。

显著性检验方面，从回归方程的显著性来看，F值为12.566，P-值为0.000（见表9），小于0.05，认为自变量和因变量的线性关系显著。回归方程的显著性检验结果与拟合优度也有一定关联，P-值较小，说明拟合优度较好。从回归系数的显著性来看，仅有两个t统计量对应的概率P-值均大于0.05，需要被剔除，可以认为自变量和因变量的线性关系显著。

残差分析方面，残差均值为0（见表10），说明总体上服从以0为均值的正态分布。残差独立性方面，Durbin-Watson值为1.797，约等于2，说明序列不存在自相关关系。另外，标准化残差的标准P-P图中，数据沿对角线方向分布（见图3），说明回归模型满足正态要求。

多重共线性诊断方面，最大特征值为3.165，最小特征值为0.260，最大的条件指数为3.492，说明多重共线性较弱，特征值检验系统比较平稳，结论基本稳健。

表8 深证成指的模型汇总

表9 深证成指的方差分析

表10 深证成指的残差统计量

图3 深证成指标准化残差的标准P-P图

（四）创业板指与从第0天起到第6天末的网络舆情主题变化的多元回归分析

创业板指数（399006）是从深交所创业板上市的A股中选出500家代表性较强的公司作为样本股，以观察股价变动的指标。创业板指的推出为我们分析资本市场提供了更多层次和角度。该回归分析的因变量是创业板指在对应日期内的涨跌幅，自变量和分析策略与之前股指的分析相同。

回归结果表明，关联强度方面，回归模型的调整R方为0.638（见表11），说明网络舆情的变动能够解释上证指数约63.8%的变化，这一结果小于上证指数和沪深300的解释力。

显著性检验方面，从回归方程的显著性来看，F值为12.062，P-值为0.000（见表12），小于0.05，认为自变量和因变量的线性关系显著。回归方程的显著性检验结果与拟合优度也有一定关联，P-值较小，说明拟合优度较好。从回归系数的显著性来看，每一个t统计量对应的概率P-值均小于0.05，可以认为自变量和因变量的线性关系显著。

残差分析方面，残差均值为0（见表13），说明总体上服从以0为均值的正态分布。残差独立性方面，Durbin-Watson值为1.828，约等于2，说明序列不存在自相关关系。另外，标准化残差的标准P-P图中，数据沿对角线方向分布（见图4），说明回归模型满足正态要求。

多重共线性诊断方面，最大特征值为3.950，最小特征值为0.158，最大的条件指数为5.005，说明多重共线性较弱，特征值检验系统比较平稳，结论基本稳健。

表11 创业板指的模型汇总

表12 创业板指的方差分析

表13 创业板指的残差统计量

图4 创业板指标准化残差的标准P-P图

六、结语

通过多元线性回归分析我们发现，上述四个股指的调整R方均大于0.6，说明不同股指的影响因素虽然存在差异，但是总体上都能够解释网络舆情变化超过60%的概率。所有股指的回归分析结果均通过了显著性检验和稳健性检验，得出的结论基本稳健。从不同股指的个体差异来看，不同股指与舆情主题变化的关联强度由小到大排列为：上证指数、沪深300、创业板指、深证成指。这说明不同股指所反映的市场变动存在差异，上证指数的样本股包括在沪全部上市股票，总体即样本的强大数据描述能力可能是其解释力更加理想的原因之一。而创业板指只针对创业板市场，深证成指的样本股为挑选得出的500家公司，不同股指的代表市场不同可能是解释力稍低的原因。

本研究关注的并非网络舆情内容与股票投资指向之间的关联，而是从网络舆情动力学的角度出发，描述网络舆情变化与股指涨跌幅之间的关系，这种变化更能够准确揭示网络舆情的“社会传感器”作用，反映网络舆情将社会意见分布传导到股票市场的动态过程。在研究方法方面，我们采用量化方法进行文本挖掘和数据分析，通过建立LDA主题模型进行文本聚合和分析，建立多元统计的分析模型。将文本抓取和挖掘、数据分析等多种方法相结合的实证研究也彰显出计算传播学与金融研究融合创新的张力。

网络舆情作为社会传感器对股票指数的影响——基于LDA主题模型的挖掘分析