网络搜索数据与宏观经济景气指数的关联研究

2024-12-17 00:00林智敏王书平
中国商论 2024年23期

摘 要:网络搜索数据作为研究我国宏观经济现象的重要微观信息依据,具有显著意义。本文分别从消费、投资、进出口、工业生产、政策、劳动力及经济形势七方面选取并筛选关键词,进而合成网络搜索指数,通过深入的相关性研究发现,网络搜索指数与宏观经济之间呈现较高的相关性。这意味着网络搜索指数一方面能为宏观经济政策制定者提供更为准确且及时的决策参考,使政策制定更具针对性和有效性,助力宏观经济的稳定与发展;另一方面也能为市场参与者提供有价值的信息,帮助其更精准地把握市场动态,从而做出更明智的投资和经营决策,促进市场健康有序运行。

关键词:网络搜索数据;工业增加值;宏观经济;主成分分析;经济景气指数

中图分类号:F724.6 文献标识码:A 文章编号:2096-0298(2024)12(a)--04

1 引言

据第54次互联网统计公报显示,截至2024年6月,我国网民规模已达11亿人,较2023年12月增长742万人,互联网普及率高达78.0%;手机上网用户达10.96亿人,使用手机上网比例为99.7%[1-3]。随着现代科技不断更迭,获取并储存海量数据已成为现实,网络搜索信息相比传统信息涵盖了更多领域和层面,能够从不同角度反映出社会经济活动的动态变化、人们的关注点及市场的潜在趋势等,为我国互联网的规模和普及率为相关问题的研究提供了一个很好的样本,这是传统数据收集模式所无法企及的。近些年来,随着算力水平的不断提升及大数据算法的持续演进,机器学习、深度神经网络、并行计算、云计算等一系列先进技术得以广泛应用,它们为宏观经济指数的高频构建带来具有革新意义的解决方案。但就目前文献来看,大多数内容主要侧重于探究网络搜索数据对于 GDP、CPI、PPI 等指数所具备的预测效能,然而,涉及宏观经济景气与网络搜索数据之间关联机制的文献相对较少。本文通过爬虫技术,充分运用网络搜索数据信息,将其进行整合以合成网络搜索指数,从而进一步构建宏观经济景气指数展开分析与预测工作,能够切实有效增强宏观经济预测预警的成效。

随着网络搜索引擎的普及,网民们能够更加便捷地获取和传播信息,对社会热点问题进行关注和讨论,网络搜索数据往往能够反映出社会环境的动态变化。目前已有不少学者开始利用网络搜索行为信息在经济领域开展预测研究。刘涛雄和徐晓飞(2015)[4]探讨互联网搜索行为对宏观经济预测的影响。通过对比多种模型,发现互联网搜索行为可辅助预测,但不能替代传统数据,并提出“两步法”,即先利用政府统计指标,再加入搜索指数,可提高预测效果。袁铭(2016)[5]运用混频模型研究了网络搜索数据和宏观经济总量的相关性,且搜索量在预测模型中的贡献度分布具有不同模式;Simionescu等(2020)[6]利用英国脱欧事件网络搜索行为信息预测当地每月失业率,通过建立面板数据模型和混合效应模型,证明使用谷歌趋势收集的数据所预测的失业率更为及时高效;阳向军等(2021)[7]以广西为例,研究网络搜索数据对区域经济预测的作用,选取工业总产值和居民消费价格指数为基准指标,利用数据构建ARIMA和ARDL系列模型,结果表明引入搜索数据的模型预测更优;王巍等(2021)[8]以海南为对象,基于均衡价格理论揭示网络搜索数据与旅游消费价格指数的关系。通过主成分分析构建旅游价格指数模型,结果表明网络搜索数据有一定时效性,新模型效果更佳。徐之韵等(2023)[9] 对网络搜索数据在心理学中的应用进行综述,得出通过网络搜索数据可以提高研究的信度和效度,更深入地探讨网络搜索行为背后的心理机制,并有助于更好地理解新冠疫情对公众心理健康的影响,并为之制定有效的干预措施提供科学依据;易艳萍等(2024)结合 EM 算法和Lasso方法提出混频动态多因子模型用于GDP即时预测。本文共选取17个宏观经济指标,通过实证对比不同模型,结果显示该模型预测精度更高,还分解出对GDP即时预测影响较大的几个宏观经济变量。程实等(2024)构建了基于16个高频指标的ICHI指数体系,涵盖消费、投资等层面。通过计算指标周变动率等步骤合成指数,经评测,该指数能够模拟中国经济短期运行,为政策制定者和市场参与者提供实时数据和预测工具。

2 理论分析

经济景气指数犹如经济领域的灵敏指示器,能够精准反映出经济运行的态势和变化趋势。经济景气指数的影响因素,可从宏观及微观两个角度展开分析。

从微观层面进行剖析,经济景气指数广泛涉及经济活动的方方面面,其中包含生产环节,涵盖了从原材料的采购到产品的制造等一系列过程;流通环节,涉及商品在市场中的运输、储存及销售渠道等诸多方面;分配环节,关乎到生产成果在不同群体、不同领域之间的分配方式与比例;消费环节,涵盖了消费者的购买行为、消费偏好及消费能力等相关因素。它涵盖了各个行业与产业的运营状况,例如原材料市场中,原材料的价格波动、供应稳定性及市场竞争态势等都会对经济景气指数产生影响;劳动力市场里,劳动力的供求关系、工资水平及劳动力素质等方面的变化也与之密切相关;消费市场中,消费者的信心指数、消费结构的转变及市场饱和度等都是重要的影响因素;金融市场上,利率的波动、资金的流动性及金融产品的创新等都会对经济景气指数产生作用;国际商品市场方面,国际贸易政策的调整、汇率的变化及国际市场的供求关系等因素也不容忽视。

依据均衡价格理论可知,商品的价格深受供求关系的制约。当市场上对某种商品的需求增加,而供应相对不足时,价格往往会上升,这可能会促使相关行业扩大生产规模,提升运营效益;反之,当需求减少,供应过剩时,价格则会下降,可能导致行业面临产能过剩、利润下滑等问题,进而影响到各个行业的运营状态。与此同时,由于价格调整存在黏性,即价格不会立即随着市场供求关系或其他因素的变化而迅速调整,所以商品价格的水平调整对宏观经济运行存在一定的时滞性。这意味着宏观经济环境发生变化时,商品价格可能不会立即做出相应调整,而是需要一段时间来逐渐适应新的经济形势,从而对经济景气指数的反映也存在一定延迟。

从宏观角度来讲,经济景气指数会受多种因素的影响。货币政策主要通过货币供给和利率来对物价进行调控。财政政策则是借助调节财政支出和税收来稳定经济波动的重要手段。例如,在基础设施建设方面增加财政支出,可能会带动相关产业的发展,提高市场活跃度,对经济景气指数产生积极的影响;而税收政策的调整也会影响企业和个人的经济行为,从而间接作用于经济景气指数。此外,诸如自然灾害及公共卫生事件等各类突发事件,往往会给经济的正常运行带来巨大冲击。它们会扰乱原本稳定的供求关系,使市场预期发生混乱,进而对经济景气指数造成不可忽视的影响。

互联网时代背景下,人们获取信息的方式变得极为丰富多样,搜索引擎、网上购物甚至网上交友等均是常见途径。同时,这些数量极为庞大的搜索行为还会构建起一个规模宏大的数据库。百度不仅是中国第一个现身于国内市场上的搜索引擎,而且其市场占有率和用户数量都位居第一名。

宏观经济的运行变化能够影响生产者和消费者的抉择与行动,此行为又会进一步在市场和网络信息中有所展露,主要体现为网络关键词搜索频次、网页浏览等指标的变动,这些变动具备及时性。故而,本文认为选取能够体现宏观经济运行状况的关键词,剖析网络搜索数据和宏观经济景气之间的相关联系及先行滞后联系是全然可行的。

3 宏观经济景气网络搜索指数构建

3.1 数据选择与预处理

3.1.1 数据选择

为确保数据具备充分的合理性与高度的权威性,本文数据来源于两个部分,一部分是基准指标,当前,GDP是刻画宏观经济运行状态的主要指标,但GDP是季度数据,在时间维度上与月度经济指标存在差异,从而导致无法直接将其与其他月度经济指标进行有效比较分析,因此本文需选用能够在时间频率上与月度经济指标相匹配的其他指标作为基准指标。结合各方面考虑,本文选取工业增加值作为判断的参照系;另一部分是网络搜索指数,其数据选取源自百度指数网站。百度指数凭借对网民搜索行为的记录和分析,能够精准反映在特定时间段内,一个或多个关键词受到关注的程度和状况。这种反映是基于真实的用户行为数据,具有较高的可信度和参考价值,也能够清晰反映出网民在网络世界中的关注点和兴趣倾向,为研究网络行为及相关领域的趋势变化提供了有价值的数据支撑,不仅有助于了解社会热点的动态演变,还能在一定程度上为市场分析、舆情监测等工作提供重要的参考依据,帮助相关人员更好地把握公众需求和市场脉搏。为确保数据量充足,并且使计算所得到的结果更具精确性,本文百度指数的关键词指数选取PC端(2006年开始)和移动端数据(2011年开始)两个数据端数据,因此宏观经济景气一致指数选取的时间段是2011年1月—2023年12月。

关键词选择按以下步骤进行处理:第一,筛选关键词。首先根据宏观景气一致指数的构成因素初选关键词,并根据国家统计局对宏观经济景气一致指数的定义依据,本文选取关键词制定了7个基准,分别是:进出口、消费、投资、工业生产、政策、劳动力以及经济形势。依据网民搜索行为和宏观经济景气之间的相关性,先筛选出具备代表性的搜索词,再结合百度指数的关键词推荐功能,将初选关键词扩充到143个。为提高分析的精确度和可靠度,对得到的143个关键词进行预处理,最终得到核心关键词共37个,本文最终选取代表进出口类搜索词包括:汇率、天然气等7个;消费类搜索词包括:粮食价格、汽车等15个,投资类搜索词包括:外资、上证指数4个;工业生产类搜索词包括:固定资产投资、供应链等8个;政策类搜索词包括:财政政策、转移支付2个;劳动力类搜索词包括:失业率、五险一金等5个;经济形势类搜索词包括:gdp、税率等6个。通过爬虫技术,获取这些关键词在2011年1月1日—2023年12月31日的日搜索量数据,能够为深入研究网络搜索数据和宏观经济景气之间的关系提供有力支持,同时更好地剖析两者之间的相关联系及先行滞后联系。

3.1.2 数据预处理

本文运用python爬虫技术针对整理好的关键词开展数据爬取工作,所获取的数据属于日度数据。由于要和工业增加值的数据标准达成一致,所以需把爬取到的日度数据进行转化合并成为月度搜索量数据,并运用三项移动平均法消除月度数据所具有的周期性以及季节性影响。在进行平均处理之后,会丢失两期关键词数据,因此数据跨度为2011年3月—2023年12月。

运用时差相关分析法来计算各个关键词和工业增加值之间的时差相关系数。充分考虑到后续进行建模时样本容量和变量个数之间的关系,本文将那些与工业增加值相关系数小于0.5,并且在时间变化上滞后于工业增加值变化的关键词指标予以剔除,在后续研究分析中,能够更精准地把握对工业增加值有显著影响且在时间序列上具有同步性或先行性的因素,使研究结果更具科学性与可靠性,最终选取关键词37个。其中部分关键词相关性高达0.8以上,例如物业费的相关系数为0.849,政府采购相关系数为0.847,蔬菜价格相关系数为-0.819等。

3.2 网络搜索数据的降维处理

对于所获取的关键词需再度实施降维操作,以便提炼出更有价值的信息。本文采用主成分分析的方法进行降维处理,提取累计贡献率达到70%及以上的主成分作为全新变量,并构建主成分综合模型。首先需要对样本数据开展KMO和Batrtlett球形检验,其主要作用在于检验所得到的关键词数据是否适宜运用主成分分析来进行降维及提取信息。

通常来说,KMO的值越接近于1,表明样本数据越适合用主成分分析。由检验可知,KMO的值为0.885,大于0.6,Bartlett球形度检验的显著性值p<0.001,表明数据的内关联性很高,有助于进一步开展主成分研究。通过主成分分析,得到各个关键词的累计贡献率及成分矩阵,选取特征值大于1的成分为主成分,结果如表1所示。提取出7个主成分,可知七个有效成分的特征根分别为l1=21.780,l1=2.800,l1=1.909,l1=1.578,l1=1.369,l1=1.137,l1=1.002,其方差累计贡献率为85.335%,即7个主成分能表示原来37个指标85.335%的信息。

根据得分矩阵获得各主成分和综合主成分,得到网络搜索指数ZS。

ZS=0.3644Z1+0.1527Z2+0.1495Z3+0.1068Z4+0.0964Z5+0.0652Z6+0.0650Z7(1)

通过作图观察发现,ZS 的变化趋势与工业增加值的变化趋势呈现基本一致的态势。经过皮尔逊相关系数检验,结果表明ZS和工业增加值之间的相关性高达0.741,这一数据充分说明ZS与工业增加值之间存在较为紧密的关联,进一步验证了基于网络搜索数据构建的宏观经济景气指数在反映宏观经济实际情况方面的有效性和可靠性,为宏观经济研究和分析提供了有力支撑和参考依据。

3.3 网络搜索指数检验

将宏观经济景气一致指数(C)和网络搜索指数(ZS)取对数, 分别为LnCt 和 LnZSt,检验平稳性。经单位根检验,两序列均不平稳,一阶差分后的变量在5%的显著水平下ADF检验结果平稳,说明两序列均为一阶单整序列,如表2所示。

建立一阶自回归时间序列模型,利用协整关系检验法检验两者之间是否存在长期稳定的关系,经检验,回归系数等各项指标均能顺利通过检验程序。在此基础上,获取到残差序列,经过严格的单位根检验,结果显示残差序列处于平稳状态。

检验结果充分表明两者之间存在协整关系,进而建立差分模型,所得到的回归结果较为理想,有力地说明网络搜索指数对于宏观经济景气具有预警作用,能够在一定程度上提前反映宏观经济的变化趋势和潜在风险,为相关决策和研究提供有价值的参考依据。

4 结语

本文选取2011年1月—2023年12月的数据作为样本,运用主成分分析法构建了基于网络搜索数据的宏观经济指数,得出网络搜索指数ZS与我国宏观经济景气指数之间关系密切,且网络搜索指数对宏观经济有预警作用。因此,可利用网络搜索指数来编制宏观经济景气指数,从而帮助宏观经济政策制定者和市场提供更准确且及时的决策依据。因此,政府在依赖传统统计方法和数据来源的基础上,可以考虑网络搜索指数等来源数据,从微观层面为宏观经济分析提供新的视角和补充信息作为辅助,提高数据质量,为政府制定更加科学合理的经济政策提供坚实的数据支撑。

参考文献

中国互联网络信息中心.第53次《中国互联网络发展状况统计报告》[R/OL].2024-03-22, https://www.cnnic.cn/n4/2024/0322/c88-10964.html.

刘涛雄,徐晓飞.互联网搜索行为能帮助我们预测宏观经济吗?[J].经济研究,2015,50(12):68-83.

袁铭.基于网络搜索量和混合频率模型的经济变量预测研究[J].统计与信息论坛,2016,31(5):27-35.

Mihaela Simionescu and Dalia Streimikiene and Wadim Strielkowski. What Does Google Trends Tell Us about the Impact of Brexit on the Unemployment Rate in the UK?[J]. Sustainability, 2020, 12(3).

阳向军,谢金芸,梁宗经,等.基于百度搜索数据的区域经济指标预测模型研究[J].生产力研究,2021(1):59-66+161.

王巍,郑文慧,钱小宇.基于网络搜索数据改进的旅游消费价格指数与应用[J].乌鲁木齐职业大学学报,2021,30(3):17-21.

徐之韵,刘子源,王燕.疫情中基于网络搜索大数据的心理健康研究综述[J].心理技术与应用,2023,11(11):673-684.

易艳萍,黄德金,王熙.基于宏观大数据的GDP即时预测[J].经济学(季刊),2024,24(3):843-860.

程实,张弘顼,徐婕,等.中国经济高频合成指数的设计与应用[J].金融市场研究,2024(2):1-8.