网络搜索数据与我国GDP的关联机理分析

2024-03-29 17:55王书平卢子晗冀承秀
中国商论 2024年6期
关键词:VAR模型宏观经济主成分分析

王书平 卢子晗 冀承秀

摘 要:网络搜索数据是研究我国宏观经济现象的重要微观信息依据。本文从需求、供给与政策三方面选取和筛选关键词合成网络搜索指数,并与我国GDP进行相关性研究。结果表明:网络搜索指数与GDP的相关性较高,且两者存在长期均衡关系与短期误差修正机制,当GDP逐渐偏离均衡,将会以1~2个月的调整速度从非均衡态过渡到均衡态;网络搜索指数的增长对我国GDP有促进作用。

关键词:网络搜索数据;GDP;VAR模型;主成分分析;宏观经济

本文索引:王书平,卢子晗,冀承秀.<变量 2>[J].中国商论,2024(06):-118.

中图分类号:F123 文献标识码:A 文章编号:2096-0298(2024)03(b)--04

GDP(國内生产总值)是体现一国宏观经济运行情况的重要指标。当前,我国经济已由高速增长阶段转向高质量发展阶段,但国内外制约其发展的不确定因素增多,给宏观经济带来了较大的下行风险,因而亟需高效准确的宏观经济预警数据帮助研判对策。网络搜索数据是近年来新兴的一种能够准确记录网民在互联网上搜索活动的指数化数据源。第50次《中国互联网络发展状况统计报告》显示,截至2022年6月,搜索引擎利用率为78.2%,可以看出互联网用户是我国目前经济活动中最主要的参与者,也是宏观经济的微观基础,网络搜索量则是其把信息当作决策基础的一种数据表现。基于互联网数据实时更新的特点,将这些网络搜索数据利用起来,可以及时有效地了解经济运行状况,分析我国所处的经济周期状态,同时其作为一种新型的数据资源,还可为国家战略发展和其他各领域的研究提供思路。

利用网络搜索数据来研究宏观经济问题已成为学者们关注的热门课题,主要体现在消费指标预测、社会事件监测等领域,侧面反映出运用网络搜索数据开展研究的可行性(Fu, Dong, 2018)[1]。在网络搜索数据预测GDP的研究中,部分学者同时运用官方统计数据和网络搜索数据,构建包含有两种数据的混频预测模型(G?tz, Knetsch, 2019;张伟等,2020)[2-3],也有部分学者采用两步法原则,先通过官方统计数据选择最优模型,再加入网络搜索数据从而得到最终预测模型(刘涛雄和徐晓飞,2015)[4]。关于网络搜索数据与经济指标的关系,张崇等(2012)揭示了网络搜索数据与CPI存在协整关系 [5]。现有文献大多集中于研究网络搜索数据对GDP的预测作用,较少文献探讨GDP与网络搜索数据的关联机制。本文以我国季度GDP为研究对象,分析网络搜索数据与GDP的变化趋势和相互作用,说明用户的网络信息搜索对GDP造成的影响,为更高效预测GDP走势提供参考意义。

1 理论分析

GDP构成因素的分析可从需求侧和供给侧两方面展开。需求侧从“拉动国民经济的三驾马车”——消费、投资和净出口入手,三者分别体现内部需求、财政投入和外部需求。供给侧以经济增长理论和柯布-道格拉斯生产函数为基础,从劳动力、资本、技术三个方面反映国民经济增长动力。由此可见,需求侧体现GDP的静态构成,供给侧体现GDP的动态增长,故有必要将两方面结合进行分析。

基于网络搜索数据监测并分析社会经济活动的研究在国内外已取得了较多成果,该方法的主要原理是捕捉消费者对微观经济活动的关注行为,通过对蕴含用户意图的关键词搜索数据汇总分析形成对宏观指标的监测与预测。百度作为我国最大的搜索引擎,记录了我国网民行为数据,形成了以百度指数为核心的数据共享平台。

宏观经济形势影响着搜索引擎用户对经济活动热点的关注,消费者或生产者在开展经济活动前,需要结合宏观经济形势和行业经济特征为实施购买或投资决策提供判断依据。以投资为例,城镇住房价格水平的波动或住房政策调整将吸引投资者在网络上进行搜索活动,了解相关政策和行业形势变化;同时,搜索引擎用户自身对微观经济活动的关注也将产生对宏观经济发展的影响。消费者或生产者通过搜索活动作出的购买或生产决策将影响相关行业的发展动力,从而影响未来走势。以劳动力市场为例,用户对就业市场不同职位关注的偏好将影响相关行业的人才流入和未来发展,从而对宏观经济的总量和结构造成潜在影响。

目前,利用网络搜索数据进行对GDP的相关性分析的研究还较少,对关键词的筛选依据也没有公认的标准。此外,由于时代背景差异,我国经济在十九大以来进入高质量发展阶段,宏观经济增速变慢,宏观经济结构也不断改善。供给侧结构性改革、经济发展双循环战略等的提出将作为选取政策环境维度关键词时的部分参考依据。

2 实证分析

2.1 数据来源与预处理

本文旨在研究网络搜索数据与我国GDP的相关性,采用的数据主要分为两部分:一部分是我国季度GDP值,该数据选自国家统计局;另一部分为网络搜索关键词,该数据选自百度指数官方网站。为了获取更为全面的网民搜索行为数据,本文所选取的关键词的搜索指数,既包括PC端搜索指数(2006年开始),也包括移动端搜索指数(2011年开始),因而样本跨度为2011Q1-2022Q4。

网络搜索关键词的选取按照以下步骤进行:

(1)选取核心网络搜索关键词。根据现代经济学的基本思路,对一国或一地区的宏观经济发展状况可以从供需两方面进行分析。基于国民经济核算与经济增长理论,宏观经济发展状况在需求端主要受居民消费、投资和净出口的影响,在供给端主要受劳动力、资本和技术的影响,且考虑到上文中采用的数据样本为2011年至今的数据,我国经济从该时期逐步进入新常态的发展时期,宏观经济增速变慢,经济结构也不断调整,所以在选择关键词数据上也充分考虑到我国宏观经济增长的政策条件。因此,本文将从需求、供给与政策三方面来选取网络搜索关键词。

(2)拓展网络搜索关键词。根据核心网络搜索关键词的分类,对各类关键词进行拓展以获得更全面且丰富的信息,结合百度指数的关键词推荐功能和需求图谱,最终将初选关键词扩充到148个。

(3)数据预处理。首先,排除未被百度收录和指数较低的关键词;其次,由于百度指数关键词数据是日度数据,而国家统计局公布的是GDP季度数据,需要把日度搜索数据转换成季度平均搜索数据;最后,为消除短期波动,采用三期移动平均对百度指数数据进行平滑处理。

(4)筛选网络搜索关键词。利用时差相关分析法计算各个关键词与GDP之间的时差相关系数,考虑到后续建模时样本容量与变量个数的关系,本文剔除掉与GDP相关系数小于0.7且滞后于GDP数据变化的关键词指标。最终选取关键词42个。部分关键词如表1所示。

2.2 网络搜索指数的合成

为解决在使用网络搜索数据进行综合指标合成过程中共线性较难消除、指标权重不能合理确定等问题,本文基于数据降维的思想,引入主成分分析方法来构建综合指数。

首先,对原始數据进行KMO和Bartlett检验,发现KMO值为0.680,Bartlett球形度检验的显著性值p<0.001,表明数据的内关联性很高,有助于进一步开展主成分研究。其次,运用特征值大于1的提取方法,提取5个主成分,其方差累计贡献率为91.802%,即5个主成分能表示原来42个指标91.802%的信息。最后,以每个主成分所对应的特征值和得分矩阵为基础,得出各个主成分和综合主成分值,从而编制出网络搜索指数F(见式(1))。主成分得分如表2所示。

通过比较合成的网络搜索指数F和我国各季度GDP的真实数值(见图1),发现 F的变化趋势和GDP的变化趋势基本一致,经皮尔逊相关系数检验,GDP和网络搜索指数F之间的相关性达到0.944。基于此,本文建立向量自回归(VAR)模型,深入探讨两者之间的关系。

2.3 网络搜索指数与我国GDP相关性的实证研究

(1)平稳检验及协整检验。本文选取的网络搜索数据和GDP数据的长度均为2011Q1-2022Q4,考虑到直接使用非平稳的时间序列数据进行实证分析会造成伪回归,因此利用ADF方法对样本的平稳度进行单位根检验,并以此来确定序列单整阶数。研究发现,所有变量都在5%的显著性水平下二阶差分平稳,即二阶单整,均满足协整检验的条件。

为了进一步验证网络搜索指数F与GDP之间的长期稳定性,利用Engle和Granger 共同提出的两步协整检验法。首先建立了网络搜索指数F与GDP之间的回归方程,并对所生成的残差序列进行了单位根检验。结果表明,残差单位根检验的t统计量为-3.7743,其相应的p<0.001,即残差序列为平稳序列。由此可以得出,网络搜索指数F与GDP之间存在着协整关系,协整向量为(1,-13031.95),协整方程为:

式(2)刻画了序列F与序列GDP的长期均衡关系。为了考察网络搜索指数F与GDP之间的动态关联,构建误差修正模型。研究结果表明,模型估计结果的F统计量相应的p<0.001,从而说明了模型估计整体上是显著的。误差修正项ECM(-1)的系数估计值为-1.7495,也就是存在反方向的误差修正机制,对应的P值为0.000<0.05,即在5%的检验水平下是显著的。因此,为了保持网络搜索指数F与GDP之间的长期均衡状态,当期会用1~2个月的时间来修正上一时期两者间的不平衡,使之回归到均衡态(1/1.7495≈0.57季度)。

(2)构建VAR模型。要探讨网络搜索指数F和GDP之间的动态影响,还需要通过脉冲响应函数来分析两者之间的冲击效应。在进行脉冲响应之前,首先要建立VAR模型,然后确定最优的滞后阶。以信息准则为依据,考察LR、FPE、AIC、SC、HQ值,得出最优滞后阶数为3,即建立VAR(3)模型。滞后检验结果见表3。

对VAR模型做3次滞后阶的AR特征多项式逆根图,结果显示单位根全部在单位圆内,表明所建立的VAR(3)模型已经相当稳定。

(3)脉冲响应函数分析。在图2中,横坐标指冲击作用的滞后时间,纵坐标指脉冲响应函数的幅度值,图2中间的实线指脉冲响应函数,上下的两条虚线指两倍标准差的偏离值。如图2所示,当给网络搜索指数F一个正向冲击后,前4期GDP会有一个正向效应,即在这个期间网络搜索指数的增长会对我国GDP有促进作用。究其原因,生产者和消费者出于满足决策需要而进行的网络信息搜索行为,可以直接反映出市场主体对GDP的预期,预期越高,各市场主体对GDP信息的需求越大,其搜索的动机也就越大。如图3所示,当给GDP一个正向冲击后,同样地,在前4期网络搜索指数F的冲击始终是正向的,并在以后时期趋于在零值上下波动。

3 结语

本文首先对网络搜索数据与我国GDP的相关性进行了理论分析,并揭示了基于网络搜索数据监测GDP的内在机理,进而通过实证对其相关性进行了检验。得出以下结论:网络搜索指数F与我国GDP之间关系密切,相关系数高达0.944,且两者既存在长期均衡关系,又存在短期误差修正机制,即为保持网络搜索指数F与GDP的长期均衡状态,当期会用1~2个月的时间来修正上一时期两者间的不平衡,使之回归到均衡态。此外,当给网络搜索指数F一个正向冲击后,前4期GDP会有一个正向效应,即在这个期间网络搜索指数的增长会对我国GDP有促进作用。

本文通过理论与实证分析表明,关键词数据所构成的网络搜索指数F与GDP存在高度相关性。因此,可以利用网络搜索指数来预测GDP,从而提高GDP预测的时效性。

参考文献

Fu L, Dong Y. Research on internet search data in Chinas social problems under the background of big data[J]. Journal of Logistics, Informatics and Service Science, 2018, 5(2): 55-67.

Thomas B. G?tz and Thomas A. Knetsch. Google data in bridge equation models for German GDP[J]. International Journal of Forecasting, 2019, 35(1): 45-66.

张伟, 田金方, 曹灿. 基于混频大数据的宏观经济总量实时预测研究[J]. 宏观经济研究, 2020(2): 15-29.

刘涛雄, 徐晓飞. 互联网搜索行为能帮助我们预测宏观经济吗?[J]. 经济研究, 2015, 50(12):  68-83.

张崇, 吕本富, 彭赓,等. 网络搜索数据与CPI的相关性研究[J]. 管理科学学报, 2012, 15(7): 50-59+70.

何强, 董志勇. 利用互联网大数据预测季度GDP增速的方法研究[J]. 统计研究, 2020, 37(12): 91-104.

猜你喜欢
VAR模型宏观经济主成分分析
即时经济:一场实时革命将颠覆宏观经济实践 精读
2021—2022年中国宏观经济更新预测——提高中等收入群体收入增速的宏观经济效应分析
从G20视角看国际宏观经济政策协调
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
我国快递业与经济水平的关系探究
安徽省产业集群与城镇化的互动关系
碳排放、产业结构与经济增长的关系研究
扩大需求:当前宏观经济政策最重要的选择