莫易娴,周乐敏(华南农业大学,广东广州510642)
“大数据”的概念起源于美国,由思科、威睿、甲骨文、IBM 等公司倡议提出。2011年,国际著名咨询公司麦肯锡提出,大数据已经与劳动力、资本一样,成为重要的生产要素。此后,大数据被越来越多地运用于金融业,进而对金融市场产生一系列影响。股票市场有效性一直是金融领域重要的研究内容之一,股票市场是否有效以及有效性达到何种程度,对衡量金融市场平稳性和成熟性具有重要意义。从宏观角度来看,股票市场有效性影响着国家宏观经济政策的制定和金融监管部门对证券市场的监管效率;从微观角度来看,股票市场有效性是投资者做出合理投资决策的重要参考依据。因此,在大数据时代背景下,分析我国股票市场有效性变化具有重要的理论与现实意义。
国外学者对股票市场有效性的研究成果很多,理论发展也较为完善。股票市场中,股票价格的涨跌是否有迹可循是投资者们最关心的问题。1965年,美国芝加哥大学的Fama (1965) 提出了著名的有效市场假说。在此基础上,Sharma and Kennedy(1977)利用随机游走模型进行实证研究,认为发达国家的证券市场有效性较强,成熟度较高。Angadi and Kulkarni(2015)采用自回归求和移动平均模型预测股票价格走势,帮助投资者选择投资时机。国内学者对于我国股票市场是否已经达到弱有效仍存在争议。静态分析方面,张锐力和董彦峰(2009)采用序列相关性检验对沪深两市收盘指数进行分析,认为股票市场价格波动符合随机游走模型,具有弱式有效;但是,该研究只在沪深两市中选取了4 只具有代表性的股票,因而实证结果具有片面性。朱孔来和李静静(2013)运用Johansen 协整检验,发现沪深两市不存在长期均衡关系,认为沪深股市已达到联合弱式有效。也有学者认为中国股票市场不是弱有效市场。谢家泉和杨招军(2005)利用GARCH 模型证明外部冲击对股票价格的影响有无限期延续的趋势,因而股市仍未达到弱有效。叶航和林水山(2005)通过测算Hurst指数也得到类似结论。动态分析方面,刘荣茂和刘恒昕(2015)证明我国股票市场有效性在沪港通开通之后有所提高。曾劲松(2005)发现投资者利用技术分析长期获得超额收益基本不可行。
“大数据”被普遍提及是在2012年之后,因而在此之前有关大数据对股票市场有效性影响的文献并不多。席文帅等(2016)认为投资者对云计算技术在建模中的运用所知甚少,通常做法是将猜想的数据代入模型,然后根据不同情况进行模型修正,从而实现利用计算机编程技术探索正确投资策略。徐力(2015)认为我国应借鉴先进资本市场的经验,让数据信息化得到高速发展。
本文根据国内外研究成果,采用自相关性检验和协整检验,讨论我国股票市场有效性。通过对2007-2012年及2013-2017年沪深300 和中证500日对数收益率进行实证分析,对比大数据时代开启前、后的自相关系数,考察我国股票市场有效性的变化,并根据实证研究结论提出提升我国股票市场有效性的建议。
麦肯锡于2011年最早提出“大数据时代”,而“大数据”被越来越多地提及是在2012年之后。因此以2012年为时间节点,选取2007-2012年及2013-2017年的股票价格指数为研究样本。数据来源于锐思金融研究数据库。
2005年4月8日,上海证券交易所和深圳证券交易所联合发布了“沪深300”指数。该指数以规模和流动性为标准,赋予强流动性股票更高的权重,保证了指数的权威性和稳定性。考虑到证券市场中还存在着大量中小型公司,因此同时选取“中证500”指数作为研究样本。该指数去掉沪深300 指数成分股和总市值排名前300 的股票,由总市值排名靠前的500 只股票组成,可以反映两市中小型公司的股票价格波动情况。以2012年年未为时间节点,两个指数不同时间段的样本分别为:
Pt1 表示2007年1月4日至2012年12月31日沪深300 指数日收盘价;Rt1 为对应的日对数收益率。
Pt2 表示2007年1月4日至2012年12月31日中证500 指数日收盘价;Rt2 为对应的日对数收益率。
Pt3 表示2013年1月4日至2017年12月31日沪深300 指数日收盘价;Rt3 为对应的日对数收益率。
Pt4 表示2013年1月4日至2017年12月31日中证500 指数日收盘价;Rt4 为对应的日对数收益率。
图1和图2显示了2007-2012年,沪深300 和中证500 指数日对数收益率波动特征。2007-2012年,两个指数的日对数收益率在大多数时间较为平稳,围绕0 上下波动。但在2008年,由于全球性金融危机的影响,沪深300 和中证500 指数日对数收益率波动较剧烈。
图1 2007-2012年沪深300 指数日对数收益率波动情况
图2 2007-2012年中证500 指数日对数收益率波动情况
图3和图4显示了2013-2017年,沪深300 和中证500 指数日对数收益率波动特征。由于利好经济刺激政策以及巨额杠杆资金的作用,我国股市在2015年上半年形成5年来最大上涨行情,而之后的股票价格泡沫破裂造成沪深300 和中证500 指数日对数收益率产生了异常波动。此外,对比2007-2012年日对数收益率波动情况可以发现,在大多数时间段,2013-2018年日对数收益率波动更小,因此2013年后的收益率更加平稳。
图3 2013-2017年沪深300 指数日对数收益率波动情况
图4 2013-2017年中证500 指数日对数收益率波动情况
表1为日对数收益率的描述性统计。由表1可知,4 组样本偏度系数都小于0,说明数据较正态分布呈左偏特征;峰度系数都远大于3,表明样本呈现了尖锋厚尾的特征。此外,4 组样本的JB 检验p 值都显著为0,拒绝服从正态分布的原假设。
表1 日对数收益率描述性统计
对自相关检验滞后阶数AR(n)的选择,若选择阶数太少,会忽略高阶相关性;若滞后阶数太多,会出现检验结果不可信以及模型拟合度低的情况。结合数据自相关图,经过多次自回归模型试验(这里省略自相关图及试验过程),发现选择滞后六阶进行自相关检验时模型的拟合度最好。
1.平稳性检验
对大数据时代前,即2007-2012年的沪深300 指数日收盘价Pt1 进行平稳性检验,检验结果如表2所示。从表2可以看出,伴随概率p 值大于5%的显著性水平,即ADF 检验的三种情况(分别为无截距项和时间趋势项、仅含截距项、含截距项和时间趋势项,下同)都表明变量Pt1 有单位根,序列不平稳。
表2 ADF 平稳性检验1
分别对2007-2012年沪深300 指数日收盘价对数log(Pt1)以及日收盘价对数的一阶差分D(log(Pt1)),即日对数收益率Rt1 进行平稳性检验。日对数收益率转化公式为:
其中,Pt1(-1)代表日收盘价Pt1 滞后1 期收盘价。由表2可知,变量log(Pt1)不平稳,日对数收益率Rt1 平稳,即log(Pt1)经过一阶差分后平稳,为一阶单整序列。
为解决自相关模型拟合度不高的问题,需要在自相关模型中加入控制变量,且控制变量必须与因变量有稳定的相关性。由于中证500 指数与沪深300 指数并没有重复的样本,且沪深300 指数代表了大企业股价变化,中证500 指数代表中小企业股价变化,因此在信息敏感的证券市场上,可通过协整检验考察二者是否相关。在进行协整检验前,需要对2007-2012年中证500 指数日收盘价Pt2、日对数收盘价log(Pt2)和日对数收益率Rt2 进行平稳性检验。由表3可知,Pt2 和log(Pt2)不平稳,日对数收益率Rt2 平稳,即log(Pt2)经过一阶差分后平稳,为一阶单整序列。
表3 ADF 平稳性检验2
2.协整检验
平稳性检验显示log(Pt1)和log(Pt2)都是一阶单整的,因此可以构建log(Pt1)关于log(Pt2)的协整检验。由log(Pt1)关于log(Pt2)的OLS 回归中可以得到线性方程:
对回归残差项进行ADF 检验,得到模型在5%的显著性水平下拒绝存在单位根的假设,即残差序列是平稳的。因此,log(Pt1)和log(Pt2)具有(1,1)阶协整关系,即长期均衡关系,回归残差E01 期望值为0。但短期来看,两个变量可能会出现偏离均衡的现象,需要对log(Pt1)和log(Pt2)进行修正和调整,将非均衡状态恢复至均衡状态。表4为误差修正模型估计结果。
表4 误差修正模型估计结果1
由表4可知误差修正模型为:
即:
因此,D(log(Pt1))与D(log(Pt2))呈同方向变化,即Rt1 与Rt2 呈同方向变化,可以加入控制变量Rt2 进行2007-2012年沪深300 指数的滞后阶相关性检验。
3.自相关检验
为了检验大数据时代前,即2007-2012年沪深300 指数的自相关性,采用该时期沪深300 指数日对数收益率Rt1 构建AR(6)模型,并加入同期中证500 指数日对数收益率Rt2 作为控制变量。由于同一时期的变量Rt1 和Rt2 包含的股票没有重叠,所以不会影响目标股票指数日对数收益率的自相关检验结果。从表5可以看出,模型拟合程度较好。控制变量Rt2 系数对应的p 值小于5%的置信度,系数是显著的。此外,滞后一阶AR(1)和滞后六阶AR(6)的系数对应p 值小于5%的置信度,可以认为2007-2012年沪深300 指数在5%的置信度下存在滞后一阶和滞后六阶自相关,自相关系数显著不为0。因此,2007-2012年我国股票市场仍未达到弱式有效。
表5 Rt1 自相关回归结果
1.平稳性检验
对大数据时代后,即2013-2017年的沪深300 指数日收盘价Pt3、对数收盘价log(Pt3)以及对数收益率Rt3 进行ADF 平稳性检验。由表6可知,变量Pt3、log(Pt3)不平稳,Rt3 平稳,即log(Pt3)经过一阶差分后平稳,为一阶单整序列。
表6 ADF 平稳性检验3
协整检验前,需要对2013-2017年中证500 指数日收盘价Pt4、日对数收盘价log(Pt4)和日对数收益率Rt4 进行平稳性检验。由表7可知,变量Pt4、log(Pt4)不平稳,日对数收益率序列Rt4 平稳,即log(Pt4)经过一阶差分后平稳,为一阶单整序列。
表7 ADF 平稳性检验4
2.协整检验
ADF 检验显示log(Pt3)和log(Pt4)都是一阶单整的,因此可以构建log(Pt3)关于log(Pt4)的协整检验。估计log(Pt3)关于log(Pt4)的OLS 回归结果,得到如下模型:
对回归残差项进行ADF 检验,在5%的显著性水平下拒绝存在单位根的假设,即残差序列是平稳的。因此,log(Pt3)和log(Pt4)具有(1,1)阶协整关系。表8为误差修正模型估计结果。
表8 误差修正模型估计结果2
由表8可知误差修正模型为:
即:
由误差修正模型可知,D(log(Pt3))与D(log(Pt4))呈同方向变化,即Rt3 与Rt4呈同方向变化,可以加入控制变量Rt4 进行2013-2017年沪深300 指数滞后阶相关性检验。
3.自相关检验
为了检验大数据时代后,即2013-2017年沪深300 指数的自相关性,采用该时期指数日对数收益率Rt3 建立AR(6)模型,并加入同期中证500 指数日对数收益率Rt4 作为控制变量。从表9可以看出,该模型拟合效果较好。控制变量Rt4 的系数对应的p 值小于5%的置信度,认为系数是显著的。此外,滞后一阶AR(1)、滞后二阶AR(2)、滞后四阶AR(4)和滞后五阶AR(5)的系数对应的p 值也小于5%的置信度,可以认为2013-2017年沪深300 指数在5%的置信度下存在滞后一阶、滞后二阶、滞后四阶和滞后五阶自相关,自相关系数显著不为0。因此,2013-2017年我国股票市场仍未达到弱式有效。
从沪深300 指数日对数收益率的自相关检验结果中可以发现,大数据时代前后都有滞后项系数显著不为0,表明历史信息对当期收益率有影响,市场仍未达到弱有效。表10 显示了沪深300 指数自相关检验对比结果,可以发现大数据时代后,滞后一阶AR(1)的系数明显变小,显著不为0 的高阶滞后项数量有增加,但系数较小。整体而言,历史信息对当期收益率的影响在减弱,我国股票市场有效性在增强。
表10 沪深300 指数日对数收益率自相关检验结果对比
1.协整检验
由上文ADF 检验结果可知,2007-2012年沪深300 指数日收盘价Pt1、对数收盘价log(Pt1)非平稳,日对数收益率Rt1 平稳。同样,2007-2012年中证500 指数日收盘价Pt2、对数收盘价log(Pt2)非平稳,日对数收益率Rt2 平稳。log(Pt1)和log(Pt2)都为一阶单整,可以构建log(Pt2)关于log(Pt1)的协整检验。log(Pt2)关于log(Pt1)的OLS 回归方程为:
对回归残差项进行ADF 检验,得到模型在5%的显著性水平下拒绝存在单位根的假设,即残差序列是平稳的。所以,log(Pt1)和log(Pt2)具有(1,1)阶协整关系。表11为误差修正模型估计结果。
表11 误差修正模型估计结果3
由表11 可知误差修正模型为:
即:
因此,D(log(Pt2))与D(log(Pt1))呈同方向变化,即Rt2 与Rt1 呈同方向变化,可以加入控制变量Rt1 进行2007-2012年中证500 指数的滞后阶相关性检验。
2.自相关检验
为了检验大数据时代前,即2007-2012年中证500 指数的自相关性,采用该时期指数日对数收益率Rt2 建立AR(6)模型,并加入同期沪深300 指数日对数收益率Rt1作为控制变量。由表12 可以看出,模型拟合度较好。控制变量Rt1 系数对应的p 值小于5%的置信度,系数显著。此外,滞后一阶AR(1)、滞后五阶AR(5)系数对应的p 值小于5%的置信度,系数显著,即2007-2012年中证500 指数在5%的置信度下存在滞后一阶和滞后五阶自相关。因此,2007-2012年我国股票市场仍未达到弱式有效。
表12 Rt2 自相关回归结果
1.协整检验
由上文ADF 检验可知,2013-2018年沪深300 指数日收盘价Pt3、对数收盘价log(Pt3)非平稳,日对数收益率Rt3 平稳。同样,2013-2017年中证500 指数日收盘价Pt4、对数收盘价log(Pt4)非平稳,日对数收益率Rt4 平稳。log(Pt3)和log(Pt4)都为一阶单整的,可以构建log(Pt4)关于log(Pt3)的协整检验。log(Pt4)关于log(Pt3)的OLS回归结果为:
对回归残差项进行ADF 检验,得到模型在5%的显著性水平下拒绝存在单位根的假设,即残差序列是平稳的。因此,log(Pt4)和log(Pt3)具有(1,1)阶协整关系。表13为误差修正模型估计结果。
表13 误差修正模型估计结果4
由表13 可知误差修正模型为:
即:
由误差修正模型可知,D(log(Pt4))与D(log(Pt3))呈同方向变化,即Rt4 与Rt3呈同方向变化,可以加入控制变量Rt3 进行2013-2017年中证500 指数的滞后阶相关性检验。
2.自相关检验
为了检验大数据时代后,即2013-2017年中证500 指数的自相关性,采用该时期指数日对数收益率Rt4 建立AR(6)模型,并加入同期沪深300 指数日对数收益率Rt3 作为控制变量。从表14 可以看出,该模型拟合度较好。控制变量Rt3 的系数对应的p 值小于5%的置信度,认为系数是显著的。此外,滞后一阶AR(1)、滞后三阶AR(3)、滞后五阶AR(5)系数对应的p 值也小于5%的置信度,可以认为2013-2017年中证500 指数在5%的置信度下存在滞后一阶、滞后三阶和滞后五阶自相关,自相关系数显著不为0。因此,2013-2017年我国股票市场仍未达到弱式有效。
表14 Rt4 自相关回归结果
从中证500 指数日对数收益率序列的自相关检验结果中可以发现,大数据时代前后都有滞后项系数显著不为0,表明历史信息对当期收益有影响,市场仍未达到弱有效。表15 显示中证500 指数自相关检验对比结果,发现大数据时代后,滞后一阶AR(1)的系数明显变小。显著不为0 的高阶滞后项数量有增加,但系数较小。整体而言,检验结果依然表明历史信息对当期收益率的影响在减弱,我国股票市场有效性在增强。
表15 中证500 指数日对数收益率自相关检验结果对比
研究结果显示,无论是沪深300 指数还是中证500 指数,其日对数收益率滞后一阶项系数在大数据时代后大大降低,表明大数据时代开启后,历史信息对当前股票收益率的影响在变小。我国股票市场虽仍未达到弱有效,但是有效性在增强。大数据时代后,我国股票市场有效性增强的原因可以分为以下三点:
首先,信息披露制度在大数据时代越来越完善。通常情况下,上市公司在信息披露时,会优先或及时发布对自己有利的信息,而不利信息则会延迟发布甚至隐瞒不发。在大数据时代,互联网使信息披露更加透明,公司运营的各种数据得到及时公布,信息的公开化、透明化使信息披露机制更加完善。
其次,随着大数据互联网技术在证券监管方面的广泛应用,违规信息、关联交易及内幕操纵等违规行为更容易被及时发现并得到有效制止。大数据技术的应用有利于我国证券市场监管体系的完善,使监管监控即时化。
最后,越来越多的投资者可以通过互联网等渠道了解企业信息,并利用大数据技术分析整理海量信息。信息透明化使投资者越来越不能利用历史信息长期获取超额收益。
股票市场是体现我国经济发展状况的窗口,提高股票市场的有效性可以促进我国金融市场的繁荣,提升经济活力,并为经济发展提供稳定的金融环境。为提高大数据时代我国股票市场的有效性,提出以下建议:
第一,监管部门应该推进市场数据信息化,加大资金技术投入,利用大数据和互联网技术普及数据电子化,使市场数据能够被及时披露,以解决冗杂的文本问题,提高市场运行效率。此外,加强大数据平台建设,使政策制定者及时了解市场运行情况,如系统性金融风险大小、货币政策传导速度等,为国家宏观政策的制定提供依据。
第二,建立能够对市场进行实时监控的数据信息系统,对互联网上海量信息进行管理,及时筛选并纠正市场上错误的信息。同时,金融业对数据安全性要求比较高,应建立保密系统对用户交易数据以及用户隐私等信息加以保护。
第三,提升投资者对股票市场的认知水平,利用大数据技术引导投资者进行理性投资。同时,向投资者开放信息,打通信息共享渠道,及时传递跨市场、多维度的数据信息。
第四,利用大数据技术推进金融创新,促进各种金融要素的重新组合,提高金融业可持续发展能力,并为证券市场注入活力。同时,通过叠加其他创新技术,如云计算等,使得大数据技术更好地应用于金融市场。