高海燕,张 悦
(1.兰州财经大学 统计学院;2.甘肃省数字经济与社会计算科学重点实验室,兰州 730020)
生产者价格指数(Producer Price Index,PPI)是衡量工业企业产品出厂价格变动趋势和变动程度的指数,其变化情况既可以预测未来居民消费价格指数(Consumer Price Index,CPI)的走势,又可以在一定程度上反映生产领域的景气程度,因此探究PPI的内在变动规律具有重要的现实意义。目前,大多数关于PPI的研究是基于时间序列分析方法展开的。例如,赵永兴(2013)[1]利用EGARCH模型研究中国PPI 分类指数的波动情况;张立(2012)[2]基于向量自回归模型研究生产者价格指数和居民消费价格指数之间的动态关系;乔宝华等(2021)[3]基于面板模型研究PPI上涨对我国工业经济的影响,并对如何有效推动中国工业经济的稳定发展给出建议;Tang等(2019)[4]提出了基于模糊信息粒化的GA-SVR-ARIMA 混合模型,旨在解决PPI估计中的不精确问题。上述针对离散数据的传统多元统计分析方法未能充分挖掘数据的潜在信息。事实上,PPI是随时间变化的数据,可将其视为在离散时间点上具有特定结构的函数曲线,即“函数型数据”。因此,可以从函数的视角出发来探究其内在规律。
函数型数据分析(Functional Data Analysis,FDA)[5]将离散观测值用函数曲线的形式表示,运用函数曲线的研究方法剖析数据。然而,传统方法在分析高频数据时,可能存在维数高、噪声大、数据缺失、离群点多等问题,给统计分析带来困难。FDA 方法将样本数据背后的生成过程视为一个函数过程,可以克服高频数据分析中遇到的上述问题。从函数的角度出发,FDA不仅可以研究数据的相关性特征,还可以对数据的变化率(导数)以及变化规律(微分方程)等函数特征进行研究。例如,王德青等(2021)[6]利用函数型数据建模思想构建函数型金融状况指数(Financial Conditions Index,FCI),以动态、连续的视角测度FCI,展现了自2002 年以来中国金融整体形势的动态变化规律;王丙参等(2021)[7]运用多元函数主成分分析法与保序主成分评价法研究中国31个省份的经济发展水平,研究表明,中国各省份的经济发展水平差异日渐缩小。因此,运用FDA方法研究经济数据,既有助于准确掌握数据特征,又能够很好地吻合实际数据的变化趋势,具有一定的优势。
主微分分析(Principal Differential Analysis,PDA)是通过一个微分方程去拟合噪声数据,以捕获单个曲线的特征或曲线上特征变化的方法。在研究高维数据时,通过捕捉单个观测对象的动力学的重要特征,在他们内部寻找估计方程的解的维度空间,以找到最佳描述数据的空间。用微分算子分析数据有许多优点:一是对光滑函数求导数,涉及速度与加速度,能够对经济系统的变化进行建模;二是很少有微分方程具有封闭的解析表达式,因此可从微分方程的数值解出发探讨数据的特征。借助微分算子分析经济数据,与限制在系统本身状态的直接建模相比,可以涵盖更广泛的动力学行为。
本文基于函数型数据分析方法对我国PPI进行分析,克服了多元统计分析方法中没有充分利用数据内在信息的不足。首先,通过拟合函数法将离散数据拟合成匀滑曲线并探究其导数信息,进而运用相平面图、主微分分析方法对PPI的动态变化规律进行研究,结果表明PDA方法能够较好地刻画中国PPI 的动态演变规律和波动特征;其次,通过对中国PPI 的季节变动进行深入分析,发现其呈现循环变动的规律,具有一定的周期性;最后,为探究不同地区间PPI 的异同,基于PPI 变化速度,对中国31 个省份进行函数型聚类分析,结果表明我国不同地区的PPI具有显著差异。
函数型数据分析的关键是在离散时间点{tj} 观测一个连续可微的过程:
其中,{yj} 为观测值序列,x(t)为潜在连续可微函数,εj为不可观测的误差成分。为保证拟合函数x(t)精确表示观测值{yj},通常使用最小二乘准则刻画拟合函数的准确性;同时也要求拟合函数是匀滑的,因此将导数平方的积分作为粗糙惩罚项,以刻画函数的光滑程度。因此,考虑以下拟合方程:
其中,Dk表示k阶导数,λ为修匀参数,可通过广义交叉验证准则(Generalized Cross-Validation,GCV)得到。通常通过最小化式(2)获得拟合函数x(t)。
在实际问题中,为得到更准确的拟合函数,通常利用某些具有特殊结构的函数构造粗糙惩罚项。对于函数x(t),假设存在线性微分算子:
于是,相应的微分方程为:
其中,I为单位算子;βj为Djx的系数,可以是常数,也可以是时间的函数。式(4)也可表示为零化的线性微分算子Lx=0,可以用其分析PPI的变化模式。为求解最优拟合函数,用Lx平方的积分代替式(2)中的PENk(x),即通过最小化式(5)来求解拟合函数x(t)。
在经济问题的研究中,从输入、输出的视角出发,探寻经济系统的内在运行规律。设函数观测对象xi,i=1,…,N及与其对应的协变量函数fi,i=1,…,N,通过xi和fi来确定式(6):
当系统不存在强迫函数时,f(t)=0,此时的目标在于寻找一个线性微分算子使其满足线性微分方程Lxi=0,i=1,…,N。为此,需要估计m个权重系数函数βj,j=0,…,m-1,从而得到微分算子L。若要求微分算子L满足Lxi=0,则可将Lxi看作式(7)的残差:
基于残差函数的范数平方和,构建如下最小二乘准则:
当系统的强迫函数fi与输出函数xi同时被观测到时,求解非齐次方程Lxi=fi,i=1,…,N。此时,最小二乘准则变为:
本文在之后的研究中,仅考虑强迫函数为0的情形。
基于上文中的最小二乘准则,估计微分算子中的权重系数函数βj(t),j=0,…,m-1。目前,最常用的估计权重系数函数的方法为逐点最小化法和共发函数型线性模型方法。然而,逐点最小化法要求逐点设计矩阵列满秩。因此,这里采用共发函数型线性模型方法。假设已经利用离散观测序列{yj} 估计出拟合函数的前m阶导数。设阵,回归系数函数向量ω=(ω1(t),…,ωp(t))′是p维列向y(t)=(y1(t),…,yN(t))′,Z(t)为包含函数xij的N×p函数矩量,ε(t)为N次观测误差,从而共发函数型线性模型的矩阵形式为:
则加权正则化拟合准则为:
在利用共发函数型线性模型估计微分方程的系数函数时,令p=m,取y(t)=Dmx(t)=(Dmx1,…,DmxN)′,ω(t)=β(t)=(β0(t),…,βm-1(t))′,则估计微分方程系数函数β(t)的共发函数型线性模型为:
将以上结果代入式(11),并最小化LMSSE(ω),可得式(12)中权重系数β0(t),β1(t),…,βm-1(t)的估计。
在利用共发函数型线性模型估计微分方程的系数函数时,事先假定已经估计出拟合函数的前m阶导数Djxi。然而,已有研究表明,一旦估计出初始微分方程,就需要重新估计导数,可以通过使用相应的线性微分算子来定义粗糙惩罚项[5]。为得到稳定的导数估计值,需要多次重复上述步骤。事实上,这是一个迭代过程,PDA的具体过程(迭代算法)如下:
步骤2:利用初始拟合函数最小化式(8),得到微分算子的初始估计L1。
步骤3:令惩罚项为λ∫[L1xj(t)]2dt,最小化式(8),得到新的拟合函数。
在运用函数型数据分析方法研究经济问题的过程中,可通过研究函数导数之间的关系来探究其动态变化趋势。因此,当拟合函数匀滑时,将其一阶导数、二阶导数分别看作横、纵坐标,绘制相平面图。从物理学的角度来看,一阶导数代表速度,二阶导数代表加速度,速度和加速度分别与物体运动的动能和势能有关。因此,相平面图既能反映研究系统中动能和势能的交替变化规律,又能反映函数曲线变化的速度与加速度之间的关系。
本文对近年来的中国PPI 进行研究。鉴于国家统计局于2011 年1 月实施新的工业生产者价格统计调查制度方法,故选取2011 年1 月至2021 年12 月中国PPI 的月度数据进行分析,数据来源于国家统计局官方网站。图1呈现了中国PPI随时间变动的情况,可以看出,PPI具有明显的周期性。
图1 2011—2021年中国生产者价格指数
对PPI 序列进行曲线拟合并修匀。本文选用5 阶B-样条基函数拟合函数曲线,节点为各年份的每个月份。由于基函数个数等于内节点个数与阶数之和,而2011—2021年共有132个月,因此共有135个基函数。并采用粗糙惩罚法对拟合函数进行修匀,以保证其光滑性,选取的修匀参数值λ=1e-5,绘制中国PPI 数据的拟合效果图,如图2 所示,图中圆圈表示离散观测值,实线为拟合曲线。从图2 中可以看出,PPI 拟合曲线与离散观测值的拟合程度较高,能够反映PPI 随时间变化的趋势及重要特征。2011年夏季末至2012年夏季末,PPI有迅速下降的趋势;2012年夏季末至2014年,PPI处于稳定的波动状态,而2015年年末至2017年年初,PPI快速反弹;2017年至2020年,PPI 处于规律的波动下降状态;但是2020 年夏季初至2021 年年末,由于新冠肺炎疫情之后经济复苏,PPI 又快速攀升,并在2021 年10月达到最大值。因此,PPI随时间的变化具有明显的周期性。
图2 曲线拟合效果图
为进一步掌握中国PPI的变化特征及规律,本文引入数据特征的代表值:均值函数和标准差函数,利用MATLAB软件绘制2011年1月至2021年12月这132个月中国PPI 的均值函数和标准差函数曲线,如图3 所示。可以看出,PPI均值函数随着时间的变化呈现周期性变化,平均波动周期约为3~4年;PPI标准差函数在2021年之前呈现周期性波动且总体上处于下降趋势,这说明PPI有一个较为稳定的发展趋势,在此期间中国经济市场不断完善,生产领域经济较为乐观,人们生活水平逐渐提高。
图3 均值、标准差函数曲线
由PPI 的统计特征可知,PPI 具有明显的周期性。因此,本文基于PDA方法研究2011—2021年中国PPI的季节变动特征。图2显示,PPI数据的拟合曲线较为光滑,故可能存在一阶导数和二阶导数,分别代表PPI的速度变化曲线和加速度变化曲线。从下页图4可以看出,PPI的变化速度及加速度曲线均呈周期性变化趋势。加速度曲线基本处于规则的波动状态,而速度变化曲线波动幅度较大。在2011年年末速度为最小值,这是因为2011年秋季欧债危机爆发,在之后的五年里,PPI虽然上下波动,但总体上呈下跌趋势,这对我国的经济造成了一定的影响;2017年和2021年PPI的变化具有较大的速度,这是因为2017年世界经济逐渐好转,我国供给侧结构性改革持续深化,PPI结束了连续五年的下跌,2021 年由于新冠肺炎疫情的影响导致运输成本增加,在一定程度上带动了PPI的上涨。因此,PPI的速度与加速度变化趋势与我国的经济状况密切相关。
图4 PPI拟合曲线的一阶、二阶导数
进一步探索PPI的动态变化模式。通过绘制PPI的相平面图(见下页图5),探究PPI 变化速度与加速度的关系以及动能与势能交替变化的规律。图5 中的1、2、3、4、5、6、7、8、9、O、N、D 分别对应一年中的1 月至12 月,两条相互垂直的虚线的交点为绝对零点,此点处PPI的速度和加速度都为零,标志着PPI 在此点运动的动能和势能都为零。此外,曲线越靠近绝对零点,PPI变化的速度和加速度就越小,即曲线波动的持久性和变化幅度就越弱。而相平面图中曲线围成的“圈”对应拟合函数曲线中“波峰—波谷—波峰”的变化周期,圈的大小反映了PPI 在周期内波动的剧烈程度。由图5 可知,各个年份PPI 的相平面图都大致呈圆圈状,具有显著的季节特征。
图5 2011—2021年中国PPI相平面图
图5(a)中,2011年PPI的相平面图由一个半圈和一个小圈组成,小圈从1月开始,途径2至5月直到6月上旬结束,可以看到,该圈的轨道范围比较小,且基本处于绝对零点附近,意味着PPI 在2011 年春季和夏季的变化幅度较小,处于略有波动的平稳状态。PPI 的加速度自5 月开始下降,在8月达到最小值,然后从8月又开始上升,到年末上升趋势减弱,达到最大值,这段时间的曲线轨迹处于垂直虚线的左边区域,说明在这段时间里,PPI变化的速度为负,处于负增长状态,称其为秋季和冬季的变化特点。因此,PPI 在2011 年呈现春季和夏季、秋季和冬季不同的变化特征。
图5(c)中,2013 年的相平面图大致呈一个“圆圈”形状,PPI速度自1月起开始下降,途径2月,到3月中旬速度达到最小值,之后速度开始增大,到5 月中旬速度由负变为正,则说明PPI 从减少变为增加,途径6、7、8 月,到8 月达到速度最大值之后开始放缓,但PPI 仍处于上升状态,直到11 月PPI 速度由正变负,导致PPI 开始下降,直到年末。并且从图1可以看出,2013年PPI波动幅度较小,因此其经济状态可看作一般的经济状态,即2013 年生产领域的经济状况代表正常经济状态下的物价变动情况。由于在图5(c)中四个季节分别位于以绝对零点为中心的四个不同的象限中,且在每个象限中速度和加速度分别有相应的上升或下降的趋势。因此,在一般的经济状态下,一年内PPI的变动具有较强的季节特征。
由图5(e)可知,2015年PPI整体呈下降趋势,相应地,其相平面图基本处于垂直虚线的左侧,除11、12 月外,一阶导数均为负值。进一步,将相互垂直的虚线看作平面直角坐标系,1、2、3月位于第二象限,一阶导数为负,二阶导数为正且逐渐减小,这说明PPI在春季呈下降趋势;4月至7月中旬位于第三象限,在这一时间段里PPI的一阶、二阶导数均为负,且运行轨迹自4 月开始逐渐远离绝对零点,因此PPI 的变动趋势自4 月开始逐渐增大;7 月中旬到10月中旬运行轨迹又回到第二象限;10 月中旬之后曲线位于第一象限,此时间段PPI一阶、二阶导数均为正,运动轨迹远离绝对零点,PPI呈轻微上升趋势。因此,2015年PPI也呈现较为明显的季节变动。
总的来说,相平面图可视化了PPI随时间变化的季节变动特征,不同年份的变动趋势存在差异。结合图1和图5 可以剖析PPI 波动变化的原因。2011 年欧债危机爆发,股市出现熊市,油价下降,央行两次降息,PPI降幅剧烈,图5(a)显示2011年下半年PPI的动能一直为负值;2012年起全球经济开始复苏,特别是2014 年,由于全球经济分化,国际大宗商品的价格急速走低,PPI势能较小;与一般年份相比,2016 年的相平面图较为特殊,图5(f)中曲线全部位于垂直虚线的右边区域,PPI速度都为正,加速度也基本为正,动能和势能都较大,PPI一直处于增长状态且增长速度较快,具有明显的特征。2016年10月,人民币正式被纳入特别提款权(SDR)货币篮子,加剧了国内经济的波动性;2017年年初,由于国际原油出口国集体减产,因此原油价格显著攀升,PPI达到较高水平;2018年中美贸易战爆发,我国经济遭受猛烈冲击,从图5(h)中可以看出,PPI 速度负值较多,PPI再一次呈下降趋势;2019年以来,国际原油价格整体先扬后抑,国内相关行业产品价格随之波动,PPI小幅度下降;2020年,受新冠肺炎疫情影响,PPI在上半年有所下降,在下半年又有所回升,但整体上呈下降趋势;2021 年,受新冠肺炎疫情影响,全球商品流动受到限制,运输成本上升,进而影响到上游产品的国际贸易,后疫情时代经济也开始复苏,在一定程度上带动了PPI上涨。
基于主微分分析的相关思想,运用MATLAB 软件对PPI数据进行主微分分析,选取如下三阶线性微分方程进行分析:
其中,β0(t)称为弹性系数,反映了在位置x处施加于系统的位置相关力;β1(t)、β2(t)分别与速度、加速度成正比,反映整个系统的变化速度和加速度。权重函数β0(t)、β1(t)和β2(t)的变化曲线如图6所示。
由图6 可以看出,β0(t)、β1(t)和β2(t)均具有一定的波动性,且β0(t)和β2(t)都是以0为中心波动,β1(t)以1为中心波动且均为正值,说明近年来中国经济发展状况较为乐观。通过β0(t)、β1(t)和β2(t)的值可以得到任意时间中国PPI所满足的微分方程,并通过线性微分算子的表达式可以观测到PPI的位置及相应的梯度变化。
为说明微分算子L在逼近xi时候的效果,可以绘制经验强迫函数Lxi与简单导数的对比图,如果这些经验强迫函数都很小,且类似于噪声,则可以说明此微分方程在数据表示方面具有较好的效果。图7 为经验强迫函数与简单三阶导数的平均值对比图,实线为经验强迫函数的平均值,虚线为简单三阶导数的平均值。从图7 中可以看出,相较于简单三阶导数,经验强迫函数的变化幅度要小很多,且围绕0值上下波动,类似于噪声。因此,微分方程式(13)的拟合效果较为理想。
图7 经验强迫函数与简单导数的对比
为了进一步判断PDA 方法的效果,本文以天津和陕西为例,绘制PPI的原始观测值与函数型数据拟合曲线的对比图,如图8所示,图中圆圈表示原始观测值,实线表示微分方程解的拟合曲线,可以看出,微分方程的拟合效果较好。因此,运用PDA 方法研究PPI 数据,不仅可以得到PPI数据的导数信息,而且可以较好地拟合曲线,具有相当好的实际应用价值。
图8 原始观测值与基于微分方程的拟合曲线的对比
本文通过求解微分方程式(13)来观察PPI 在微分算子张成的空间上的性质。针对初值条件,估计PPI线性微分方程的数值解,如图9所示。
图9 PPI微分方程的数值解
本文基于FDA方法,从原始PPI中分离重要的季节变动并对其进行刻画。首先,对能够捕捉到PPI长期变动趋势的匀滑曲线g(t)进行拟合;其次,从PPI 原始数据序列函数x(t)中减去匀滑曲线g(t),得到季节变动成分和误差成分;最后,采用基函数拟合法拟合PPI 的季节变动成分。PPI季节变动曲线可写为:
其中,用PPI月度序列数据拟合x(t),g(t)使用4阶B-样条基函数对PPI 的年度数据序列进行拟合。下页图10为PPI的季节变动曲线s(t)。
图10 PPI季节变动曲线
从图10 中可以看出,PPI 的季节波动较大,极不稳定。结合图1和图10可以看出,PPI波动曲线与其季节波动曲线有相似趋势。例如,2012—2014年,PPI变化较小,其对应的季节变动幅度也相对较小;而2016—2018 年,PPI 变动较大,其季节变动幅度也相对较大。可以看出,PPI 的季节变动呈现循环的变动趋势,具有一定的周期性。因此,采用傅里叶基函数拟合季节变动曲线,如图11所示,实线表示季节变动曲线s(t)的估计,圆圈表示各个年份每月的季节变动的数值点。可以看出,基于傅里叶基函数的线性组合拟合得到的季节变动曲线效果较好,很好地呈现了中国PPI 的季节波动特征,基本刻画了PPI 的季节变化规律。
图11 季节变动函数的拟合曲线
基于函数型数据的主微分分析方法研究中国31个省份(不含港澳台)PPI 的波动特征。对31 个省份2011 年1月至2021年12月共132个月的PPI数据进行拟合。采用7阶B-样条基函数,以月份为节点,基函数个数为137。为保证拟合函数导数的光滑性,在采用粗糙度惩罚方法时惩罚项为拟合函数的5 阶导数,通过GCV 准则,取修匀参数λ=1e-3,匀滑的31 个省份的PPI 拟合曲线如图12 所示。可以看出,31个省份PPI的动态走势大致相同,呈现较为平缓的上下波动的趋势。
图12 中国31个省份PPI的拟合曲线
为了进一步分析不同省份PPI之间的异同,本文对31个省份的PPI 变化速度进行函数型聚类分析。由上文可知,通过PDA方法得到的权重系数函数β1(t)反映了PPI的变化速度,因此对31 个省份的β1(t)采用函数型聚类分析方法(FNMF)[8],根据各省份经济增长走势,将31个省份分成三类,聚类结果如表1所示。
表1 聚类结果展示
各类中心与全国PPI速度的比较如图13所示,可以看出三类省份在整个样本区间上的差异大致可分为三个阶段。第一阶段为2011—2014 年,此阶段三类省份经济增长差异较大,2011年上半年,第三类省份经济增长速度最快,第一类省份经济增长速度最慢,而在2011 年下半年,第一类省份经济增长速度最快,第三类省份最慢,如此循环往复,导致省际经济增长速度存在差异的因素很多,例如各省份政府出台的相关政策、开放程度以及投资规模等;第二阶段为2014年至2019年年末,此阶段各省份之间的经济增长速度差异逐步缩小,基本与全国增长速度持平;2020年之后为第三阶段,在这一阶段由于新冠肺炎疫情的影响,导致三类省份的经济增长速度差异又逐渐变大。
图13 各类中心与全国PPI速度比较
此外,图13 还显示,三类省份的PPI 增长速度与全国PPI 增长速度的差异逐步减小。总体上看,在2014 年之前,第二类省份的PPI 增长速度与全国PPI 增长速度差异最小,而第一、三类省份与全国PPI 增长速度差异最大,2014年之后三类省份的PPI增长速度逐渐趋同,后疫情时代,新冠肺炎疫情在上海、陕西、甘肃等省份再次暴发,导致第一类省份的PPI 增长速度与其他两类省份趋于相反的方向。
进一步,结合表2 和图13 可知,31 个省份可分为三类:第一类省份涵盖了我国大多数省份,其分布在我国的不同区域,具有相似的经济结构;第二类省份除北京和河北外,均为我国偏远地区省份,如新疆、西藏等,其受地理、历史等因素的影响,第二产业较为落后;第三类省份大多分布于我国东中部地区,如安徽、江苏等,这类省份地理条件优越、气候宜人,其第一产业、第二产业都较为发达。总的来说,三类省份在空间分布上特征明显,存在区域发展差异。
本文采用函数型数据分析方法,克服传统多元统计分析方法未能充分挖掘数据潜在信息的不足,从函数的角度出发,利用相平面图、主微分分析方法以及基函数拟合法对我国生产者价格指数进行动态分析。同时通过函数型聚类分析方法将中国31个省份的PPI变化速度聚为三类,并探究三类省份经济发展趋势的差异。研究结果表明:第一,PPI具有明显的季节特征,在不同年份具有时间范围和变动规模上的差异,而正常年份对应的相平面图的几何特征较为相似;第二,主微分分析方法既能直观地观测到PPI的位置及相应的梯度变化,又能动态地刻画PPI的变化规律和波动特征;第三,傅里叶基函数能够很好地拟合季节变动曲线,能更加形象地展示我国PPI 的季节变动特征;第四,三类省份的PPI 在空间分布上特征明显,且经济发展趋势具有显著差异,2011—2014 年,三类省份PPI 的增长速度差异较大,2014 年至2020 年年末,三类省份的PPI增长速度与全国PPI 增长速度逐渐趋同,2021 年以后,由于新冠肺炎疫情再次在小范围内暴发,导致第一类省份的PPI增长速度下降,异于其他两类省份。