林 勇,殷三杰
(西北师范大学 经济学院,甘肃 兰州 730070)
加入网络搜索行为能提升CPI的预测效果吗*
林 勇,殷三杰
(西北师范大学 经济学院,甘肃 兰州 730070)
传统的CPI预测模型利用的数据主要来源于政府统计局,由于政府统计数据规范、噪音小等特点,使得这样的预测模型在CPI变化不大的时期预测效果较好,但是在CPI变化趋势出现拐点的时期,预测效果往往较差;网络搜索数据作为一种新兴的数据结构类型,被运用到经济社会问题的预测当中,其实时可得的特点,能够提前预测到趋势变化的拐点。因此将网络搜索数据加入到传统的CPI 预测模型中,分析增加网络搜索行为能不能提升CPI 的预测效果,尤其是在CPI出现拐点的时期。分析结果显示,当CPI趋势出现拐点的时期,在传统预测模型中加入网络搜索数据,的确可以提升模型的预测效果。
网络搜索数据;CPI预测;趋势拐点;预测效果
引言
居民消费价格指数(CPI)是根据居民生活相关的商品和服务价格统计出来的物价变动指标,反映了社会通货膨胀的水平,是经济运行和社会稳定重点监测的指标。能否准确预测未来CPI的变动,是国家制定宏观经济政策,进行紧急调控的关键,因此,能够实施监测和提前预测CPI具有重要的意义。
在现有文献中,对CPI预测研究的数据类型主要有结构化数据和非结构化数据。前者是能够用数据或统一的结构加以表示的数据,比如国家统计局公布的官方数据;而后者其数据来源和形式都十分多样化,无法用数字或统一的结构表示,网络日志、图片、音视频等属于非结构化数据。结构化数据的优点是噪音小、数据规范,但缺点是数据会有一定的滞后;非结构化信息的优点是信息更新快、 数据实时可得,但缺点是信息噪音大、数据来源和形式多样化。以往的研究或者侧重对结构化数据的利用,或者侧重对非结构化数据的挖掘应用,而没有文献将两者合理地结合起来,充分利用结构化数据和非结构化数据的优点来对CPI作出预测。本文通过使用向量自回归模型对CPI进行预测,然后在此模型基础上加入网络搜索行为这样的非结构化数据,通过比较模型自变量仅包括结构化数据或既包括结构化数据又包括非结构化数据,来探索网络搜索数据能不能帮助我们提升CPI的预测效果。
(一)CPI影响因素及预测的相关研究
在我国,国家统计局负责编制CPI,并于次月中旬发布,因此国家统计局对 CPI 的发布存在两周左右的滞后。为了能够提前得知CPI,学者们提出了多种定量预测方法,如王宇、李旭东(2009)利用BP神经网络对我国 CPI 做了预测[1];龚玉婷、陈强、郑旭(2014)基于混频模型对CPI做了短期预测[2];吴强、付永利(2013)运用ARMA-EGARCH模型探寻CPI发展变化规律,并对2013年的CPI走势进行预测分析[3];董梅(2011)运用VAR模型对CPI做了预测[4];门小琳(2012)通过给季节性ARIMA模型、自回归分布滞后模型、VEC模型确定组合权重这样的组合预测模型来预测CPI[5]。这些方法的基本原理都是用历史数据来拟合未来,用当前的趋势外推未来的情况,但历史数据难以反映未来的不确定性,无法把握未来的突变情况,因此基于这种原理的预测对结构性变化的预测准确度不是很高,特别是不能有效预测未来趋势变化的拐点。
(二)基于互联网搜索数据的经济社会行为预测
近几年利用互联网搜索数据来预测经济社会问题已经成为了一个热门话题。张崇、吕本富、彭赓(2012)从商品市场的角度建立概念框架为出发点,以均衡价格理论为理论基础,揭示了网络搜索数据与居民消费价格指数(CPI)之间存在一定的相关关系和先行滞后关系,并取得了良好的预测效果[6];刘颖、吕本富、彭赓(2011)从微观的投资者行为视角建立理论框架,揭示了网络搜索与股票市场之间存在一定的相关关系和先行滞后关系,在时差相关分析的基础上,运用经济含义将搜索数据合成为股民行动指数、市场行情指数和宏观形势指数三类搜索指数,并实证检验搜索指数对股票市场具有显著的预测能力[7];袁庆玉、彭赓等(2011)从网络关键词搜索数据与汽车销量的角度建立了理论基础框架,采用了综合赋权法对关键词进行提取,并对不同价格区间的汽车销量进行了预测,与传统模型相比则取得了很好的效果[8]。可见,搜索数据可以作为传统数据的良好补充,对某些典型的社会、经济类行为存在一定的预测能力。
虽然较传统领域研究来说,该领域研究取得了一定程度上的突破,但是该领域研究还处在摸索发展的初级阶段,未形成一套完整的理论体系,所以在理论上有待改进与完善,特别是对网络搜索数据与研究对象之间的内在机理尚未进行深入的研究。另外,在合成综合指数方法方面,目前研究的学者就如何选取和合成关键词的标准并未达成统一共识。
(三)CPI与互联网搜索相关关系研究
随着互联网的飞速发展,人们获取信息的渠道已经由传统的方式转向互联网。据中国互联网络信息中心 (CNNIC) 的数据显示,截至2016年6月我国互联网搜索引擎用户规模达5.93亿,使用率为83.5%。生产者和消费者通过互联网获取信息的同时,互联网记载了他们的查询和浏览记录,在商品市场上的交易价格及交易量,反映在互联网上就是网络搜索、浏览等指标量,这两种表现是对同一事物的反映,所以二者有一定的相关关系。张崇(2012)等人研究了网络搜索数据与CPI的相关性,从理论分析的角度,分析了市场主体的行为对网络搜索数据的传导路径,认为市场主体的行为对价格的影响有一定的传导过程,反映在价格上的变化是滞后的,但是反映在互联网搜索数据的变化是及时的,所以市场价格和网络搜索数据存在先行滞后关系,网络搜索数据领先于市场价格的变化,所以利用网络搜索数据对CPI具有一定的预测能力[6]。
目前,对CPI的预测的相关文献大多主要利用的是结构化数据,鲜有利用非结构化数据来预测CPI。本文拟通过将结构化数据和非结构化数据合理的利用,来尝试提高CPI的预测精度,尤其是对CPI的结构性变化做出预测。
(一)网络搜索指标的选择与判断
本文采用的网络搜索数据来源于百度指数网站(http:// index.baidu.com/)。虽然百度搜索指数是经过标准化处理的,但因为其来源为网民的搜索行为,而搜索行为是非常复杂和不规范的,在本质上是非结构化的,所以百度搜索指数属于非结构化信息。百度指数能够告诉用户:某个关键词在百度的搜索规模有多大,一段时间内的涨跌态势以及相关的新闻舆论变化,关注这些词的网民是什么样的,分布在哪里,同时还搜索了哪些相关的词。关键词搜索数据是从百度指数网站“趋势研究”版块中获得的,考虑到“趋势研究”数据有PC趋势和移动趋势,PC趋势积累了电脑端2006年6月至今的网络搜索数据,移动趋势数据是移动互联网设备从2011年1月开始至今的网络搜索数据。为了准确预测CPI,我们选择了整体趋势,也就是既包括PC趋势数据,又包括移动趋势数据,因此时间段选取2011年1月至2016年8月共68个月的互联网搜索数据。
张崇、吕本富、彭赓、刘颖(2012)等人在研究网络搜索数据与CPI的相关性研究中,选取了“货币政策”“中行外汇牌价”“携程网”共44个网络搜索关键词[6];孙毅、戴维、董纪昌、吕本富(2014)等人在基于主成分分析的网络搜索数据合成方法研究一文中,选取了“货币”“通货膨胀”“原材料”等14个网络搜索关键词[9];去除重复的关键词后,抓取百度指数网站上的日搜索量,然后将日数据合并为月度数据,最后计算每个关键词与 CPI 的皮尔逊相关系数,该系数表示候选词搜索变化曲线与 CPI曲线的相似程度,相关系数越高,二者的相似程度越大,最终选取相关系数大于0.7的关键词共10个。选取的关键词如表1。
表1 网络搜索关键词
(二)政府统计指标的选择与判断
长期以来,学者们对于导致CPI上涨的因素分析,主要围绕货币供给、利率汇率、外汇储备、投资与消费、食品和住房价格等。高玲、李时椿 (2008)利用统计数据分析了我国20年来的定期存款利率的变化,并且实证分析了2005年1月到2008年7月之间我国CPI的变化和货币供应量变化之间的相关关系,得出了这段时间内消费价格指数的变化率和货币供应量的变化率之间的关系是正相关的[10]。王众、魏慧丰、郭希明(2006)分析了影响CPI的众多因素, 重点是居民消费率与全社会固定资产投资对CPI的影响, 结果表明我国居民消费率对CPI指数的影响不大,与此相反固定资产投资对CPI的影响却很明显[11]。王军平(2006)分析了住房价格对CPI的影响,他认为住房价格上涨对CPI的影响是复杂且多维度的,房价上涨通过一个住房类权数这个中间纽带将上涨的效应传递至CPI中去, 结果不仅提高了CPI的整体水平,也会导致CPI构成中其他商品的价格发生上涨[12]。李庆华(2006)认为消费价格指数对本身的冲击和对滞后的固定资产投资的冲击是敏感的[13]。董梅(2011)在居民消费价格指数预测一文中,研究了CPI对其自身的影响,以及货币和准货币的同期增长率(M2)、工业生产者出厂价格指数(PPI)、原材料、燃料和动力购进价格指数对居民消费价格指数(PPIRM)的影响,得出CPI对自身反应较为敏感,原料、燃料和动力购进价格指数对CPI的影响较弱,工业产品出厂价格指数以及货币供给增长率对 CPI 的影响也较弱,但有3个月的时滞[4]。
本文从影响CPI的各个因素着手, 选取居民消费价格指数、货币和准货币的同期增长率、原材料、燃料和动力购进价格指数 、工业生产者出厂价格指数这四个指标,采用全国2011年1月至2016年8月(共68组)的月度数据资料并利用向量自回归模型进行实证研究,并据此预测走势。本文采用的样本期是从2011年1月到2016年月共68组数据,2011年1月到2015年12月共60组数据作为训练集,2016年1月到8月的数据作为预测集。
(一)模型的构建
1.单位根检验
利用Eviews8.0分别对上述的4个变量及其差分之后得到的新的序列逐一的进行ADF单位根检验,检验的结果总结在表2。
表2 时间序列变量的ADF单位根检验
由表2各个变量和其差分之后的新的序列的对比中可以很明显地看出上述四个指标中有三个是非平稳的一阶单整序列。
2.变量的协整关系检验
选用Johanson协整关系检验,在进行检验前,检验协整关系的个数是我们比较关注的一点。选取两个检验统计量:迹检验统计量(Tface Testing Statistic)和最大特征根检验统计量(Maxima Eigenvalue Testing Statistic)。分析结果显示,本文的指标变量居民消费价格指数、货币和准货币的同期增长率、原材料、燃料等的购进价格指数以及工业生产者出厂价格指数之间由两个协整关系存在,即变量间存在长期均衡关系,可以建立VAR模型。
3.建立VAR模型
向量自回归模型中存在一个很重要的问题那就是如何判断一个模型是几阶最优的,在确定滞后阶数的过程中,为了能够全面地反映所建立模型的动态特征,就要使阶数足够大,但随着滞后阶数的增加,所要估计的模型的参数也会随着增加,而模型的自由度会随着减少。如果阶数太少的话就无法全面地反映出建立的模型的特征。所以如何确定具体的滞后阶数非常关键。确定一个模型是滞后几阶的方法有很多种,其中最主要有以下几种: LR(似然比)检验、AIC和SC信息准则。
根据AIC和SC准则,结果我们可以确定最优的滞后阶数为二阶,即我们可建立VAR(2)模型。本文构建的如下包含四变量的向量自回归模型系统如(1):
(1)
其中A1、B1、C1是系数矩阵,在这四个变量中,我们重点关注CPI受自身以及其他三个变量的影响。利用Eviews8.0我们建立如下的Unrestrieted VAR模型,估计结果如表3所示。
表3 VAR模型系统
4.模型系统稳定性的检验
检验所建立的模型系统的稳定性,其充分必要条件就是模型所有的特征值均要落在单位圆之内。如果检验得出的结果显示特征根模的倒数全部落于单位圆内,那么所构建的VAR系统就是稳定的;如果存在有部分特征根模的倒数在单位圆之外的情形,那么所建立的VAR系统不是特别稳定的,也就是说我们估计的有些结果可能无效。另外,对所建立的VAR模型是否稳定进行检验也是进行脉冲响应分析的前提,否则,就会出现脉冲响应函数分析过程不稳定的情形。
根据图1可以明显地看出,所有AR根的模的倒数都在单位圆之内,因此所建立的VAR(2)模型系统是稳定的,所以可以进行脉冲响应分析。
图1 VAR(2)模型系统的AR根图
(二)模型分析与预测
1.脉冲响应分析
脉冲响应函数主要是描述其他变量在当期和以前各期均保持不变的情形下施加一次冲击的响应过程。下面主要用来描述加入一个标准差大小的随机新息是否会对CPI产生影响,如果产生影响,对CPI现在和以后产生的影响程度又是多少。
图2是运用Eviews软件输出的CPI的脉冲响应情况图。由图形可以看出:首先,居民消费价格指数对其本身始终保持一个正的影响,在未来一期的影响程度是非常大的,但是到未来二期影响的程度迅速减小,此后第三期影响程度虽然有一个微小的提高,但总体来看,后面几期影响程度是不断减小的,这说明CPI一次偶然的增加,可能会使CPI自身在未来的第一期有一个非常大的提高,此后一段时间内虽然也会使得CPI提高,但是幅度不大。其次,M2对CPI的影响在未来一期几乎是没有影响的,但到了未来二期影响程度迅速变大,到了第三期又迅速减小到0.075左右,此后影响程度逐步增加,这说明M2一次偶然的增加,对CPI未来第一期几乎没有影响,到了第二期效果才显现出来。再次, 工业生产者出厂价格指数对CPI的影响程度和M2是非常相似的,即PPI对CPI在未来一期几乎没有影响,第二期影响程度迅速变大,此后一直减小。最后原材料、燃料等的购进价格指数对CPI的影响和M2在未来第一期也是没有影响,此后影响程度逐渐变大,到第六期达到最大,从第六期开始影响程度又逐渐减小,到了第十期其影响程度相对来看依然较大,说明PPIRM对CPI未来影响较大,影响效果随着时间推移越来越明显。
图2 CPI的脉冲响应图
2.方差分解分析
方差分解主要提供的是模型中每个扰动项因素对VAR模型中每个内生变量的影响的相对程度,它可以将VAR模型系统中的一个变量的方差具体地分解到每个扰动项上。
从图3可知,CPI的预测误差主要来自其本身新息的影响,第二期占的比重虽然也很大,但是相对于第一期比重下降得很快,之后逐步递减,到第十期占了22.195%,从而说明CPI的预测误差主要来自其本身新息的影响。换言之,CPI自身的变化情况就可很好的预测其以后短期内的变化趋势,而其他三个变量对物价水平的影响相对来说较小。对于PPIRM所占的比重,前四期比重一直很小,也就是说PPIRM对CPI的预测误差影响不大,但是在第六期PPIRM所占的比重超过了CPI,到了第八期,M2所占的比重也超过了CPI的比重,但是却一直小于PPIRM所占的比重。由此也能够看出,推动CPI增长的主要因素是其自身、PPIRM,M2和PPI对CPI增长的贡献都非常微小。方差分析结果见表4。
图3 各变量的方差分解图
3.样本外预测
由表3可得基于VAR的居民消费价格指数预测模型公式(2)和参数如下:
CPI=0.187456*CPI(-1)+0.197764*CPI(-2)+0.168672*M2(-1)-0.107627*M2(-2)+0.233294*PPI(-1)-1.020223*PPI(-2)+0.242245*PPIRM(-1)+0.493532*PPIRM(-2)+67.22067
(2)
在上述变量中加入网络搜索行为,重新建立VAR模型,通过对比加入网络搜索行为的模型预测效果与没有加入网络搜索行为的模型预测效果,以此来论证加入网络搜索行为能不能帮助我们提高CPI的预测效果。
(一)网络搜索指数的合成
由于各个搜索词之间存在共线性,又考虑到“维数灾难”对建模的影响,因此需要进一步将关键词合成为关键词指数,达到降维的目的,以消除 “维数灾难”。孙毅、戴维、董纪昌、吕本富(2014)等人运用主成分分析的方法对网络搜索数据进行合成,取得了不错的效果[9]。因为主成分分析方法是从整体的角度出发,在充分反映整体趋势的前提下剔除了变量间的多元共线性影响,其次,将各个分量的载荷系数作为赋权的依据从而解决了指标合成的权重问题。因此本文运用主成分分析的方法合成关键词指数。
首先,通过SPSS统计软件,得到核心关键词方差分解主成分提取表5,以及核心关键词成分矩阵见表6。
表5 核心关键词方差分解主成分提取表
表6 核心关键词成分矩阵
然后,以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型,即可得到综合主成分模型,如下述方程所示:
y综合=0.69659y1+0.13845y2
其中,y1、y2分别是第一、二主成分。
最后,计算综合主成分值,绘制网络搜索合成指数,将网络搜索合成指数作为代表网络搜索行为的变量INTERNET加入到变量当中,以CPI、M2、PPI、PPIRM、INTERNET五个变量构建新的VAR模型并且做出评价预测。
(二)模型的构建
经过ADF单位根检验可知,变量INTERNET是一阶单整序列,协整检验显示,变量间存在协整关系。根据HQ和SC准则,结果我们可以确定最优的滞后阶数为二阶,即我们可以建立VAR(2)模型。本文构建如下包含五变量的向量自回归模型系统如(3):
(3)
其中A2、B2、C2是系数矩阵,在这五个变量中,我们重点关注CPI受自身以及其他四个变量的影响。利用Eviews8.0我们建立如表7所示的Unrestrieted VAR模型。
表7 加入网络搜索行为的VAR模型系统
检验模型的稳定性,由VAR(2)模型系统的AR根图4可知,所构建的VAR模型系统是稳定的。
图4 VAR(2)模型系统的AR根图
(三)模型分析与预测
1.脉冲响应分析
图5 加入网络搜索行为的CPI脉冲响应图
由CPI的脉冲响应情况图5可知,由图形可以得出,首先,居民消费价格指数对其自身在五期内都是正的影响,其中第二期和第三期CPI对其自身的影响几乎相等,但是五期滞后影响程度变为负数,且影响程度不断变大。其次,M2对CPI的影响在第二期到第三期有一个急剧的下降,随后逐步上升。再次,工业生产者出厂价格指数对CPI的作用力度在第一期到第二期是上升的,但在第二期滞后影响程度就逐渐下降,五期滞后影响程度就变得非常小了。原材料、燃料等的购进价格指数对CPI的影响在第一期几乎为零,从第二期开始,作用力度就逐渐变大,到第五期作用力度达到最大值,之后作用力度就逐渐变小。最后,网络搜索指数对CPI的影响力度大致呈上升态势,其中第三期和第四期影响力度大致相等。
2.方差分解分析
从方差分解函数合成图6、方差分析结果表8可知,居民消费价格指数的预测误差主要来自其本身新息的影响,第二期占的比重虽然也很大,但是相对于第一期比重下降得很快,之后呈现线性递减的形式,到第十期占了23.159%,从而表明居民消费价格指数的预测误差主要来自其本身新息的影响。换言之,居民消费价格指数自身的变化情况就可很好地预测其以后短期内的变化趋势,而其他四个变量对物价水平的影响相对来说较小。尤其是网络搜索指数对CPI的方差影响程度很低,也就是说,只利用网络搜索指数来预测CPI的短期变化趋势,其效果是很差的。
图6 各变量的方差分解图
PeriodS.E.CPIM2PPIPPIRMINTERNET10.331873100.00000.0000000.0000000.0000000.00000020.41999667.8693015.7046615.642230.7717410.01207330.46909159.0811415.2309117.350567.6361600.70122540.52822446.7932519.4227916.9623515.699391.12222150.58307238.4179021.1306314.8642323.487872.09937560.63751132.4708623.8105112.8623427.673223.18307570.68579628.6660426.3877111.3317929.034144.58032180.72814226.1605729.1312110.2333628.397366.07749890.76473124.4381731.682719.46805926.832607.578464100.79628523.1599833.897698.95064525.055588.936102
由表7可得加入网络搜索行为构建的基于VAR的居民消费价格指数预测模型公式(4)和参数如下:
CPI=0.136202*CPI(-1)+0.173043*CPI(-2)+0.156718*M2(-1)-0.107959*M2(-2)+0.208777*PPI(-1)-0.973814*PPI(-2)+ 0.284969*PPIRM(-1)+0.421906*PPIRM(-2)+0.010809*INTERNET(-1)+0.097398*INTERNET(-2)+ 75.90813
(4)
根据以上得出的两个模型,即不包括网络搜索行为的VAR(2)模型和包括网络搜索行为的VAR(2)模型,将2016年1月到8月的政府统计指标数据和网络搜索行为数据代入上述模型,分别得到两组预测值,其中预测值F1是不包括网络搜索行为的模型预测结果,F2是包括网络搜索行为的模型预测结果,根据预测值与真实值的对比分析,得到均方误差MSE,通过显著性检验,均拒绝均方误差MSE等于0的原假设,得出均方误差MSE显著不为零的结论。但是通过对比发现,MSE2总和大于MSE1总和,预测值F2的效果没有预测值F1的效果好,也就是说在模型中加入网络搜索行为并没有使预测效果得到提升。
做出CPI的变化趋势图,如图7,发现CPI在2011年4月到2012年2月之间变化幅度较大,因此通过向模型中代入政府统计数据和网络搜索数据,以此来预测2011年4月到2012年2月之间的CPI。
图7 CPI变化趋势图
预测结果如表9,通过显著性检验,均拒绝均方误差MSE等于0的原假设,得出均方误差MSE显著不为零的结论。对比两个模型的预测效果,发现MSE3总和大于MSE4总和,即预测值F3的效果没有预测值F4的效果好,其中预测值F3是不包括网络搜索行为的模型预测结果,F4是包括网络搜索行为的模型预测结果,也就是说在模型中加入网络搜索行为使预测效果得到了一定的提升。
表9 预测值及均方误差
通过选取两个不同的时间段,我们发现,在CPI变化幅度较大的时期,加入网络搜索行为的模型要比没有加入网络搜索行为的模型预测效果好,在CPI变化幅度较小的时期,加入网络搜索行为的模型预测效果反而没有无网络搜索行为模型预测效果好,这也正好验证了最初的设想,即网络搜索行为数据不是对政府统计数据的替代,而是补充,网络搜索行为数据是及时的,因为将这一影响价格变化的即时因素代入了模型,所以该模型能够反映出CPI的结构性变化,提前预测CPI变化趋势的拐点,因此在CPI变化幅度较大,或者出现拐点的时期,加入网络搜索行为的模型预测效果要好一些。
[1] 王宇,李旭东,等.基于BP神经网络的我国CPI预测与对策[J].计算机科学,2009(10):256-264.
[2] 龚玉婷,陈强,郑旭.基于混频模型的CPI短期预测研究[J].统计研究,2014(12):25-31.
[3] 吴强,付永利.中国近年通胀原因与2013年CPI预测分析[J].经济问题,2013(3):51-55.
[4] 董梅.基于VAR模型的居民消费价格指数预测[J].统计与决策,2011(1):29-31.
[5] 门小琳.组合预测方法在我国CPI预测中的应用[D].南京财经大学,2012.
[6] 张崇,吕本富,彭赓,刘颖.网络搜索与CPI的相关性研究[J].管理科学学报,2012(7):50-59.
[7] 刘颖,吕本富,彭赓,张崇.网络搜索对股票市场的预测能力:理论分析与实证检验[J].经济管理,2011(1):172-180.
[8] 袁庆玉,彭赓,刘颖,吕本富.基于网络关键词搜索数据的汽车销量预测研究[J].管理学家学术版,2011(01):12-24.
[9] 孙毅,戴维,董纪昌,吕本富.基于主成分分析的网络搜索数据合成方法研究[J].数学的实践与认识,2014(21):121-128.
[10] 高玲,李时椿.关于我国近年货币供给和CPI的实证分析[J].产业与信息论坛,2008(11):151-153.
[11] 王众,魏慧丰,郭希明.居民消费价格影响因素的协整分析[J].统计与决策,2006(9):61-62.
[12] 王军平. 住房价格上涨对CPI的传导效应——兼论我国CPI编制体系的缺陷[J].经济学家,2006(6):78-82.
[13] 李庆华.基于VAR模型的中国消费价格指数分析[J]. 华中师范大学学报(人文社会科学版),2006(4):56-61.
CanWebSearchBehaviorHelpUsPromotethePredictionEffectofCPI
LIN Yong, YIN San-jie
(SchoolofEconomics,NorthwestNormalUniversity,GansuLanzhou730070,China)
The traditional CPI forecast model uses the data mainly from the government bureau of statistics, because the government statistics data have low noise and are regular, which makes the forecasting model predict better in the period of little CPI change, but its effect is poor in the period of CPI turning point. However, network search data as a new type of data structure, which is applied to the forecast of economic and social problems, and its real-time available features, can predict in advance the turning point of the trend. Therefore, this paper adds the network search data to the traditional CPI forecasting model, and analyzes whether increased network search behavior can promote the prediction effect of CPI, especially for the CPI turning point period. The analysis results show that in the period of the turning point of CPI, the network search data can be added to the traditional model, and the model’s prediction effect can be promoted.
web search data; CPI prediction; trend turning point; prediction effect
10.3969/j.issn.1672- 0598.2018.01.007
2017-06-30
林勇(1959—),男, 四川省成都人;西北师范大学经济学院教授,硕士生导师,主要从事政府统计与数量经济研究。
殷三杰(1992—),男,甘肃张掖人;西北师范大学经济学院硕士研究生,主要从事大数据与政府统计研究。
F104.5
A
1672- 0598(2018)01- 0061- 12
(责任编校:朱德东)