微博情感对股票市场影响的计量分析

2019-09-25 04:59李述山
关键词:互信息参数估计股票市场

陈 玉,李述山

(山东科技大学 数学与系统科学学院,山东 青岛 266590)

微博博主的专业性和微博内容传递的广泛性与快捷性使得微博信息成为影响消费者信息评价的重要因素,微博情感分析可以显示博主对当前事件的情感和观点,张淯婷提出一种基于决策树的微博情感度判断方法[1]123-126,并对微博情感做了探索性空间分析,为中文微博平台的海量文本规律研究提供一个新的视角。刘德喜提出与特定语言无关的基于分类思想的微博新情感词抽取方法[2]1-23,并根据微博数据集和情感词典自动构建训练数据、训练分类器并判别候选词的情感极性,最后采用投票机制确定候选词的情感极性。Keran(1971)在研究货币供给量与货币供给增长率、货币供给量与股票价格、货币供给增长率与股票价格之间的线性关系时,在模型中额外加入利率作为一种影响因素[3]635-654。Hamburger与Kochin(1972)在Keran研究的基础上额外加入公司债券利率和当期价格水平,并以此识别货币供给量确实对股票价格波动造成了直接的影响[4]27-34。

基于上述研究,本文拟利用情感倾向点互信息算法建立微博情感量化方法,以EGARCH—GED模型为基础,通过添加微博情感变量的方式建立模型,并采用实际微博数据及股市数据进行实证研究,综合考查微博情感对股票市场收益率、波动率等方面的影响。

一、微博情感对股票市场影响的计量分析模型

(一)微博情感的量化

本文基于简体中文情感极性词典,通过SO—PMI算法筛选出部分领域情感词并计算情感倾向点互信息[5]89-95,具体方法如下。

1.在新浪微博选取若干位在上证市场分析方具有较大影响力博主,粉丝量要在20万以上。

2.假设某日(t-1日)的微博内容能够对第二日(t日)的股市收益产生影响,根据博主在该天发布的微博内容,将微博内容进行分词法分析。

(1)建立数据集{set},包括积极基准词组Pword和消极基准词组Nword两类;

(2)运用情感倾向点互信息算法计算情感倾向。

首先,计算基准词word1和候选词word2的点互信息(PMI),其计算公式为:

(1)

式(1)中PMI>0表示两个词正相关,值越大,相关性越强;PMI=0表示两个词是统计独立的不相关也不互斥;PMI<0表示两个词负相关;

其次,计算一个词的情感倾向点互信息(SO—MI),其计算公式为:

(2)

式(2)中,word表示候选词,Pword与Nword分别表示该文本的积极基准词组和消极基准词组,Pwords与Nwords分别表示积极词集合和消极词集合。

通常情况下,将0作为SO—PMI的阀值,相应得到三种状态:SO—PMI>0表示该词有正面倾向,即褒义词;SO—PMI=0表示该词有中性倾向,即中性词;SO—PMI<0表示该词有负面倾向,即贬义词。

3.量化微博情感变量。本文采用如下方式量化微博情感:针对t-1日的微博,定义t日的微博情感变量WBt=

(3)

式(3)中,N表示博主(博文)的数量,gs与SO—PMIst分别表示第s博主(博文)的权重及t日的情感倾向点互信息,k表示博文中积极词的个数,l表示消极词的个数。此时,-1WBt1,-1WBt<0表达消极情感;WBt=0表达中立情感;0

(二)加入微博情感的模型

经典的ARMA(m, n)—EGARCH(p,q)具体结构如下:

(4)

将得到的微博情感变量作为外生变量加入EGARCH模型,以考察微博情感对股票市场的影响,参数估计采用极大似然估计法,相应的假设检验采用渐进似然比检验法。

1.在均值方程中加入微博情感变量,得到模型(5):

(5)

在模型(5)中考虑检验问题:原假设H0∶θ1=0,备择假设为H0∶θ1≠0,如果拒绝原假设,说明微博情感对市场收益有显著影响。

2.在方差方程中加入微博情感,模型为:

(6)

在模型(6)中考察检验问题:原假设H0∶θ2=0,备择假设为H0∶θ2≠0,如果拒绝原假设,说明微博情感对市场的条件波动率有显著影响。

3.在均值方程和方差方程中均加入微博情感,模型的表达式为:

二、实证分析

(一)数据来源

本文实证数据来源为网易财经,选取起始时间为2016年6月1日,截止时间为2017年12月31日,同时对数据进行节假日处理,即非周末的休市日期,按照最近一个交易日的数据进行补齐,最终处理指数是频率为一周五天的日数据,共388个对数收益率。选定杨德龙、水皮、李大霄、但斌、花荣5位博主的微博(388天),积极基准词和消极基准词如表1所示。

(二)EGARCH模型拟合

表2给出了上证指数对数收益率序列的ADF单位根检验结果,对数收益率序列为平稳序列。

利用赤池信息准则,建立ARMA(1,1)模型,采用ARCH—LM检验法对残差序列进行异方差性检验,认为对数收益率序列存在ARCH效应,可以使用条件异方差模型进行建模。由表3 可以看出,对数收益率的偏度值小于0,说明序列分布左偏;对数收益率峰度值高于正态分布的峰度值3,呈现出高峰厚尾形态。因此,我们采用基于广义误差分布的ARMA—EGARCH模型,结合赤池信息准则最终建立ARMA(1,1)—EGARCH(1,1)—GED模型,其参数估计结果列于表4。

表1 积极和消极基准词表

积极基准词看涨、抄底、反弹、利好、利多、突破、中阳线、收复、反攻、牛市、慢牛、涨停、满仓、加仓、攀升、上攻、上扬、修复、止跌、稳企、阳线、乐观、上升、探底、高升、高走、井喷、补仓、补涨、回暖、看好、普涨、增量、强反消极基准词看跌、减仓、跌、跌破、利空、空头、恐慌、低迷、筑底、危险、熊市、悲观、阴线、低、低开、解禁、空仓、回调、割肉、看空、跳水、下跌、跌停、弱势、暴跌、冲高、砸盘、观望、疲软、被套、平仓、谨慎、调整、缩量、恶战、观察、歇整、走低

表2 ADF单位根的检验结果

ADF值1% level5% level10% levelProb-11.18964-3.495677-2.890037-2.5820410.0000

表3 对数收益率统计性描述

均值标准差偏度峰度J-B检验0.0011211.914941-0.1392397.402920785.8288

表4 基于模型(4)的参数估计

φ0φ1η1ωα1β1γ1AIC0.00163(0.5700)0.92424(0.0125)-0.99648(0.0223)-0.248634(0.02095)-0.15456(0.05219)0.97307(0.19249)-0.2411(0.000)-6.5562

ARCH效应检验表明模型消除了 ARCH效应,因此模型的拟合效果良好。

(三)微博情感对股票市场影响

鉴于ARMA(1,1)—EGARCH(1,1)—GED模型表现良好,故在该模型基础上通过添加微博情感变量建立相应模型,即分别在模型(5)、(6)、(7)中取m=n=p=q=1对微博情感对股票市场的影响进行实证研究,参数估计及假设检验结果分别列于表5、表6及表7。

表5 基于模型(5)的参数估计

φ0φ1η1ωα1β1γ1θ1AIC-0.00147(0.53636)0.46955(0.0000)-0.66020(0.00000)-6.30497(0.00014)-0.65804(0.0064)0.33364(0.03429)0.08686(0.7799)1.20042(0.0106)-7.2352

表6 基于模型(6)的参数估计

φ0φ1η1ωα1β1γ1θ2AIC0.00183(0.83970)0.75277(0.0110)-0.89709(0.1494)-8.21737(0.0082)-0.85752(0.0131)0.21804(0.4666)0.1314(0.7068)-0.00333(0.0000)-7.23279

表7 基于模型(7)的参数估计

φ0φ1η1ωα1β1γ1θ1θ2AIC0.00135(0.3822)0.79505(0.0068)-0.92757(0.0278)-0.94276(0.0000)-0.14961(0.0323)0.89959(0.0000)-0.01539(0.6319)0.0026(0.0000)0.17628(0.0000)-7.23956

ARCH效应检验表明三个模型皆消除了 ARCH效应,因此模型的拟合效果很好。

由表5可以看出,微博情感变量的系数θ1的p值为0.0106,表明微博情感对股市收益有显著的影响。其估计值显著大于0,说明微博博主的市场分析与实际市场行为一致程度较高。

由表6可以看出,微博情感变量的系数θ2的p值为0.0000,说明对股市波动有显著的影响。其估计值显著小于0,说明微博博主的市场分析有利于市场稳定。

针对模型(7),经计算检验问题H0:θ1=0,θ2=0检验的p值为0.0001,说明博情感对股市收益或股市波动有显著影响。

三、结语

本文研究微博情感对股票市场的影响为目的,主要进行了三方面工作。第一,以情感倾向点互信息 (SO—PMI)为基础建立了一种微博情感的量化方法。第二,通过在EGARCH模型中添加微博情感变量作为外生变量的方法建立了三个考察微博情感对股票市场影响的计量模型。第三,使用上证市场的实际数据及实际的微博数据针对微博情感对股票市场的影响问题进行实证研究,实证结果表明所建模型是有效的,专业人士的微博内容对股票市场影响显著,我国股市投资者具有跟风的特点,投资理念不强,较易受到外界信息影响。

但本文的研究还存在一些不足之处。

第一,微博信息的利用方面还有待进一步加强。本文实证分析中只是选择了5位有影响的博主及其博文,尚不能较充分的利用微博信息。基于网络大数据的数据挖掘方法的研究及应用将能较好的破解信息利用不够充分的问题。

第二,微博情感的量化方法方面还有待进一步研究。微博情感信息的挖掘具有很强的专业性及很高的技术性,本文实证研究只是采用了一种较成熟的方法;另外在微博情感的量化方面仅仅给出了一种量化方法,尚需与专业人员配合并采用多种方法进行量化比较。

猜你喜欢
互信息参数估计股票市场
基于新型DFrFT的LFM信号参数估计算法
误差分布未知下时空模型的自适应非参数估计
一种GTD模型参数估计的改进2D-TLS-ESPRIT算法
中国股票市场对外开放进入下半场
货币政策与股票市场流动性的互相关关系研究
货币政策与股票市场流动性的互相关关系研究
我国股票市场的有效性研究
我国股票市场的有效性研究
基于改进互信息和邻接熵的微博新词发现方法
浅谈死亡力函数的非参数估计方法