王文胜 吴娜
近年来,互联网大数据的快速发展对整个社会和经济的发展都产生了深远影响。研究学者发现,互联网搜索数据信息能够帮助我们预测宏观经济。选取百度搜索指数作为高频解释变量,采用不同权重函数形式的混频数据模型(MIDAS)以及多变量组合预测模型预测分析其与我国季度GDP增长率之间的关系。结果表明:对比同频的传统计量经济模型,MIDAS模型可以显著降低预测误差。在多变量组合预测模型中,在传统政府统计指标基础上加入互联网搜索行为数据信息作为补充,可以显著提高对GDP增长率的预测精度。其中,基于MFSE为权重函数形式的组合预测的效果最优。因此,互联网搜索行为数据可以作为GDP预测指标体系的有效补充。
一、引言
宏观经济的发展走向对于政府经济政策的制定和企业的经营战略的确定都有着极其重要的作用。如何科学有效地预测宏观经济的发展是国内外学者关注的重要课题。在宏观经济中,GDP被视为最具概括性的宏观经济指标。因为它紧紧围绕着生产创造的价值,衡量了整体经济的发展。但是传统预测模型的局限性和经济数据的滞后性影响了GDP预测的精确度和时效性。
就现有的文献来看,预测宏观经济发展研究方法主要有传统的计量经济模型、机器学习法、投入产出法等。近年来基于混频数据模型处理宏观经济的短期预测问题的方法较为突出。许多宏观经济数据频率并不相同,例如GDP增长率是按季度发布,但固定资产投资额同比增长率等数据是按月度发布。因此传统的计量经济模型同频的要求就无法满足。Ghysels, Santa-Clara, and Valkanov(2004)提出混频数据模型,根据变量的特征、权重多项式函数和滞后阶数,综合计算出该模型参数的最优估计值,解决传统计量模型中无法利用不同频率数据的问题。Pan等(2018)运用时变参数MIDAS模型(TVP-MIDAS)研究原油价格的涨跌对美国实际增长率的预测分析,研究表明该模型的预测效果相较于传统预测模型更优。在国内有关MIDAS模型的研究中,徐剑刚、张晓蓉等(2007)将MIDAS模型应用在金融领域。刘金全等(2010)结合MIDAS模型,证明该模型在研究宏观经济发展中对混频数据处理方面具有明显的优势。刘汉等(2011)构建了预测我国季度GDP的混频数据模型,实证结果显示:有关我国季度GDP增长率的预测,MIDAS模型具有即时性、可行性和精准性等特点。
與此同时,国内外学者选取预测GDP的指标从传统的政府统计指标转向新兴的微观高频数据。杨东伟(2013)选取我国电力消费弹性指数,研究分析宏观经济增长与电力消费之间的规律与趋势。卢秀等(2020)基于夜间灯光数据和土地利用数据,对云南沿边地区GDP进行空间化和预测。近年来,不同频率数据的大量涌现,海量的数据信息对整个社会和经济的发展有着深远影响。因此如何利用大数据对宏观经济进行分析预测是一个新领域。Schlegel(2014)研究如何用大数据信息进行预测。刘涛雄和徐晓飞(2015)利用“两步法”确定最优模型,研究表明互联网在线搜索行为数据能帮助预测宏观经济。因此,作为互联网搜索行为中的代表性数据,百度搜索指数在一定程度上能够反映经济的发展,成为预测宏观经济的有效指标。
基于以往的文献,文章使用百度搜索指数专业版数据库,利用传统同频计量模型、MIDAS模型和组合预测模型,对季度GDP增长率预测进行研究。文章可能存在以下的创新点:一是根据我国的宏观经济的发展特点,从关于消费、投资、进出口、劳动力、资本和技术创新六个方面选择相应的搜索关键词。结合互联网搜索行为信息数据和传统政府统计指标对季度GDP增长率进行预测,有效提升预测的合理性。二是在构建模型的过程中,不仅包括MIDAS模型,也通过不同权重函数构建组合预测模型并找到其中最优的模型。
二、模型构建
(一)同频预测模型
对于样本数据中变量频率不一致的问题,最简单的解决方法是通过计算平均值将高频数据转化为与低频数据相同的频率。接着再对变量进行简单回归,构建时间平均模型。
其中,和yt属于同一时间域内并且数据频率相同,rj是时间平均x上的斜率系数。
时间平均模型是假设x的每个单独观测的斜率系数相等,步进加权模型则是假设每个单独观测的斜率系数是不相等。
(二)混频预测模型
时间平均模型存在很大局限性,会损失高频数据中的潜在信息。步进加权模型虽然保留了高频数据的时间信息,但是需要估计大量的潜在参数。为了解决以上信息丢失和参数扩散的问题,Ghysels et al.(2004)提出了MIDAS模型:
其中,函数Φ(k;θ)是高频变量的权重多项式。权函数Φ(k;θ)可以是任意数量的函数形式,文章采用四种函数形式,分别为Beta公式、Beta Non-Zero公式、Almon公式和Exp Almon公式,以此来保证参数节俭和模型的灵活性。
(三)多变量组合模型
组合预测模型是t时刻的预测组合,即n个h步向前预测的加权值。具体形式如下:
其中,M为解释变量的个数。
文章选用四种不同的加权方案,分别为等权函数、AIC权函数、BIC权函数和MSFE-related权函数。
三、互联网搜索行为数据对中国季度GDP增速预测的实证研究
(一)指标选取与数据处理
百度搜索指数是用来衡量互联网搜索行为的指标,其表示某关键词在百度网页搜索中搜索频次的加权。根据何强、董志勇等人(2020)的研究,选取与宏观经济增长相关性较强的代表性关键词并收集对应的百度搜索指数。文章将搜索关键词分为消费、投资、进出口、劳动力、资本和技术进步六大类。基于横截面平均的思想,利用主成分分析对选取的30个搜索关键词所对应的百度搜索指数数据进行降维。根据主成分选择准则确定六个关于百度搜索指数的主成分。根据成分矩阵对六个主成分进行命名,分别为消费类代表(PC1)、投资类代表(PC2)、进出口类代表(PC3)、劳动力类代表(PC4)、资本类代表(PC5)、技术进步类代表(PC6)。
参照王国维和于扬(2016)的研究,选取进出口总额增速、社会消费品零售总额增速、固定资产投资完成额增速这三个政府统计指标作为控制变量,加入百度搜索指数作为补充进行实证分析。文章选取的数据均为同比增长率,样本数据区间为2012年1月至2021年10月。在数据预处理方面,所有样本数据进行季节性调整和对数化差分处理。
(二)传统预测模型与MIDAS模型的参数估计结果与对比分析
文章基于MIDAS模型通过百度搜索指数对我国季度GDP预测分析,采用估计方法分别为固定窗口估计和滚动窗口估计。鉴于百度搜索指数(从2012年开始)样本量较少,模型估计时只考虑最大的滞后阶数为15。表2给出了不同权函数下MIDAS模型的预测效果。
比较分析不同估计预测窗口以及不同权函数下的MIDAS模型预测的MSFE值可以得出如下的结论:第一,所有MIDAS模型预测的MFSE值几乎都小于简单时间平均模型和步进加权模型,这就意味着基于MIDAS模型进行的预测效果更好。第二,在四种权函数的MIDAS模型中,属于Exp Almon和Almon形式的权函数的预测精准度要更优。
采用前文所述方法确定估计窗口和最优权函数,下图展示了在滚动窗口下各高频解释变量的最优权函数的权重估计结果。
上图展示了MIDAS模型中六个高频解释变量在最优权函数下的权重估计结果。由于篇幅限制,文章只分析由滚动窗口预测的输出图。其中,在代表技术进步类(PC1)、资本类(PC4)和劳动力类(PC5)的百度搜索指数对季度GDP增长率预测中,模型中各滞后项前面的系数为正并在十阶后趋向于零。这表明代表技术进步类、资本类和劳动力类的百度搜索指数对下一个季度GDP增速的影响效果为正。代表进出口类(PC2)的百度搜索指数在前五阶之前为负,表明进出口类代表的百度搜索指数对于下一个季度的GDP的影响效应为负,并且在五阶滞后趋于零。代表投资类(PC3)的百度搜索指数在七阶滞后之后对下一个季度GDP的影响效应持续为正,即对投资领域关注度越高对经济增长越有益。代表消费类(PC6)的百度搜索指数在滞后三阶至八阶对下一个季度GDP增长率的影响效应为正。
(三)多变量组合模型预测分析
单变量MIDAS模型的预测效果会随着样本量和预测区间而发生改变。为了得到更有效、更精准的季度GDP增速的预测结果,文章进一步构建多变量组合预测模型。文章采用等权重、AIC、MSFE、DMSFE这四种权重形式的组合预测方法进行季度GDP增速的预测。与此同时,设定两种组合预测模型进行对比:组合一为根据月度宏观政府统计指标对季度GDP增速进行预测;组合二为在组合一的基础之上加入互联网搜索行为指标作为补充,对季度GDP增速进行预测。通过组合一、二的对比分析来探究互联网搜索行为是否可以预测季度GDP增速以及能否显著提升模型的预测精度。根据Yu等(2018)的研究,本文采用MSFE、RMSE、MAE这三种指标来衡量各组合预测模型的最终预测效果。结果如表2所示。
根据表2的结果可得到如下结论:第一,传统政府统计指标并加入互联网搜索行为指标进行补充的组合预测模型(组合二)在AIC、MSFE、DMSFE的权函数形式下的组合预测误差均显著小于只有政府统计指标的组合预测模型(组合一),证明百度搜索指数作為新的预测指标加入对季度GDP增速的预测中可以显著提升预测效果。这是因为百度搜索指数作为非结构性数据可以提供除了传统政府统计指标之外有效的、潜在的增量信息从而提升模型的预测效果。第二,对于不同权函数形式的组合预测,在MSFE、RMSE、MAE这三种损失函数下,基于MSFE权函数模型的预测误差最小,即预测效果最优。其也说明该权重选择方法对比等权重、AIC、DMSFE权函数形式在预测季度GDP方面具有较好的稳健性。
四、结论与启示
混频数据模型相较于传统计量经济模型更具灵活性和精准性,在短期预测方面有着显著优势。特别是在当今大数据时代,随着不同频率数据的大量涌现,MIDAS模型已成为宏观经济分析和短期预测相关领域的重要工具。文章运用不同权函数下的MIDAS模型对互联网搜索行为指标与季度GDP增速的关系进行实证分析,结果表明以百度搜索指数为代表的互联网搜索行为指标是能够对宏观经济进行预测的。不同权函数下的MIDAS模型的预测效果是不同的,其中基于Exp Almon和Almon的权函数的模型预测效果更优。
在传统政府统计的经济指标中,加入互联网搜索行为指标能够显著提高模型对季度GDP增速的预测精准度,从而帮助改进模型的预测效果。其中,传统政府统计指标属于结构化数据,其数据规范、噪音小,但是数据往往存在一定时间上的滞后。然而,互联网搜索行为指标属于数据更新快、实时可得的非结构性数据,但有着数据信息噪音大、数据来源和形式多样化的缺点。互联网搜索行为指标往往包含着传统政府统计指标所没有的数据信息,因此其是对传统宏观经济指标一定程度上的补充。两种数据信息各有优劣,在对宏观经济进行预测时,合理应用结构和非结构的数据信息两种指标可以有效降低预测误差。
文章的实证结果还表明,对比单变量MIDAS模型,多变量组合的预测模型能够显著提高模型的预测精度,其中以MFSE为权重的组合模型的预测效果最优。其背后的机理是将几个预测精度较高的单变量MIDAS模型通过不同的权重组合起来进行预测,预测精度会得到显著提升。对比传统同频计量经济模型,混频数据模型可以深度攫取高频数据中潜在的信息,充分利用样本数据对我国宏观经济波动做出更精准的预测,对未来的经济趋势做出合理的判断和分析。文章的研究还存在很多的不足之处,比如互联网在线搜索数据只选取百度搜索指数,没有充分利用其他的互联网大数据的在线信息,存在一定程度上的局限性。
(作者单位:杭州电子科技大学 经济学院)
作者简介:王文胜,男,浙江武义人,博士,教授,博导。研究方向:统计理论与应用研究
基金项目:国家自然科学基金项目(11671115)。