陈文青
(安徽大学 经济学院,安徽 合肥,230601)
2020年是全面建成小康社会和“十三五”规划的收官之年,在突如其来的新冠肺炎疫情影响下,如何快速恢复经济增速,保持经济稳中向好、长期向好的发展局面,对推动经济高质量发展提出了更高要求。从经济周期角度来看,我国经济目前正处于一个较长周期的收缩阶段,经济是否持续回落、何时到达转折点也成为了社会各界热切讨论的话题。为更好地抵御风险,开展高效的宏观经济管理与调控,对当前经济状态的清晰了解、对未来经济发展的准确预测就成为最基础却重要的工作。我国经济已呈现“新常态”,增速放缓、经济结构改革、驱动转向,在独特的经济体制作用下,我国经济运行存在着特有的复杂性与不确定性。因此,对当前经济周期状态准确划分有助于加强对整个经济运行态势的了解,对影响经济周期状态划分的影响因素及其重要性分析,可以为预测经济形势及经济周期转折点提供有利帮助,对政府和投资者来说都具有重要的意义。对于宏观经济政策来说,经济周期状态划分影响因素的研究结果可以成为其调整的理论依据。
经济周期状态划分,即判断该时点经济运行状态处于经济周期中哪个阶段,由此来确定和预测经济周期转折点,同时一旦确定经济周期转折点,也可以完成对经济状态的划分。对于经济周期转折点的预测研究最早是由美国国民经济研究局(NBER)提出的,他们提出的先行指标方法具有较大的局限性,存在主观性和严重滞后性,且不具有可复制性。鉴于此,Bry和Boschan(1971)提出的经济周期的非参数划分方法(简称B-B法),成为最常用的确定经济周期波动峰、谷日期的传统方法[1]。该方法对于确定经济周期转折点提出两个约束条件:第一,谷到峰或峰到谷的持续时间在两个季度以上;第二,两个相同的转折点即一个波动周期的持续时间至少为五个季度。
在由经济周期阶段性划分来预测经济周期转折点的研究中,有两种较为典型的研究方法,一为利用马尔科夫状态转换模型,二是利用二元变量模型。Hamilton(1989, 1990)提出并发展完善的马尔科夫状态转换模型,该模型包含一个离散的状态变量,可将经济处于不同状态的概率估算出来[2,3]。王建军(2007)在传统马尔科夫状态转换模型的基础上,引入了新的虚拟变量,该变量能够较好的反映我国经济增长周期模式的改变和状态转移机制的变迁,由此解决了将马尔科夫模型应用于中国年度宏观经济数据研究中国经济周期问题的难题[4]。郑挺国(2017)在马尔科夫区制转移动态因子模型的基础上使用混频数据,构造了一种能够综合利用不规则数据的经济周期计量模型,较好的刻画出我国经济周期波动及阶段性变化[5]。基于二元选择模型的预测研究是以一系列宏观经济指标为基础,结合传统的二元选择模型来预测未来一段时间衰退发生的可能性。石柱鲜等(2007)应用Logistic回归模型构建了我国先行3个月的经济周期状态预测模型,同时结合小波方法对2007年主要经济指标发展趋势进行预测,取得较好的预测效果[6]。
随着人工智能的兴起,机器学习(Machine Learning)方法在各个领域迅速崛起,为解决互联网时代经济研究提供了新的研究方法。Lapedes et al(1987)首次将人工神经网络用于经济预测,确定了人工神经网络在经济预测中具有较高的准确性和有效性,此后,人工神经网络等大数据方法就成为经济预测领域的研究热点[7]。陈梦根等(2020)通过对比分析利用传统方法和利用机器学习方法所得的居民消费价格指数预测结果,发现相比传统的回归方法和时间序列预测方法,神经网络等机器学习方法对预测结果具有明显优势[8]。
整体上看,目前对于经济周期状态划分的相关研究极为丰富,其中传统的非参数方法B-B法对于经济周期转折点的判定结果已成为世界各国对于经济周期阶段划分及转折点预测时的重要参照,然而该方法无法实现经济状态的预测,且无法体现各经济指标对经济周期的影响。另一种被广泛运用的思路是通过对经济扩张期和收缩期状态的划分来确定和预测经济周期转折点,马尔可夫状态转换模型和二元变量模型是其中较为典型的研究方法。机器学习方法作为一种较新的人工智能方法,其应用在经济问题上的研究还比较少,在已有的对于经济周期相关问题上的应用也更多偏向于对转折点的预测及经济状态的划分,方向较为单一。因此,本文在前人丰富的研究基础上,应用机器学习方法探究经济周期状态划分及其影响因素,相比已有成果更偏重于对于影响因素及其重要性的分析。
2.1.1 逻辑回归模型 逻辑回归(Logistic Regression)是一种广义的线性回归分析模型,可以用于估计某事件发生的可能性,本文使用的是二分类的逻辑回归。逻辑回归实现分类问题的处理是通过Sigmoid函数引入了非线性因素,将函数的输入范围(∞,-∞)映射到了输出的(0, 1)之间且具有概率意义。对于输入x,在给定参数θ条件下分类结果为1或0的概率分别为:
(1)
(2)
逻辑回归模型实现简单,可以较为便利的观测样本概率分数,但容易欠拟合,影响分类结果准确率。
2.1.2 决策树模型 决策树是在分类问题中经常使用到的一种监督型学习算法,可以根据输入变量中最显著的分裂点将总体或样本划分为两类或多类。本文采用的是决策树中的 CART 分类树算法(Classification And Regression Tree)。该算法是一种二分递归分割技术,把当前样本划分为两个子样本,使得生成的每个非叶子结点都有两个分支,即它在每一步的决策都只能是“yes”和“no”,因此 CART分类树算法生成的决策树是结构简洁的二叉树。
CART分类树算法使用基尼系数Gini(p)作为划分函数,基尼系数代表模型的不纯度,基尼系数越小,模型纯度越高,特征越好。对于二分类问题,假设第一类输出的概率为p,则
Gini(p)=2p(1-p)
(3)
对于样本D,个数为|D|,根据特征A的某个值a,把D分成|D1|和|D2|,则在特征A的条件下,样本D的基尼系数表达式为:
(4)
CART 算法主要由决策树的生成和剪枝两个步骤组成。
决策树的输出结果比较直观,易于理解,可以处理多维度输出的分类问题,但样本的微小改动可能导致树结构的剧烈改变,该问题可以通过集成学习里面的随机森林等方法解决。
2.1.3 随机森林模型 随机森林是利用多棵树对样本进行训练并预测,其基本思路为:(1)从样本集中随机选取n个样本;(2)从所有属性中随机选取K个属性,选择最佳分割属性作为节点建立CART决策树;(3)重复以上两步m次,即建立了m棵CART决策树;(4)这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类。
随机森林对于高维数据的处理较为理想,在样本特征维度很高时仍然能高效的训练模型,且在训练后可以给出各个特征对于输出的重要性。
分类模型的构建需要目标变量与解释变量,目标变量是描述某时点经济状态的二分类变量,它的确定需要我们先对经济周期进行阶段划分。解释变量是在大量的宏观经济指标中筛选出的能够全面、及时反应经济运行态势的指标,它的确立需要经济周期转折点的基准指标作为主要选取标准。
2.2.1 目标变量的确定 本文根据国家统计局公布的一致合成指数,基于B-B算法得到1995年以来我国经济周期波动的转折点日期,如表1所列:
表1 经济周期波动的峰谷日期
图1 一致合成指数(月度)曲线图
依据经济周期波动转折点判定的约束条件及图1(图1中阴影部分区域为依据约束条件所确定的经济周期收缩期)进一步判断,表1中带下划线的时间为经济周期的谷底。据此,构造一个描述经济周期阶段的二元序列,其中0表示收缩阶段,1表示扩张阶段,转折点日期的值与其前期相同,状态取值的变化从转折点日期下个月开始。
2.2.2 解释变量的确定 宏观经济指标的选取应能如实、全面和及时地反映当前的经济形势,需综合考虑生产、消费、投资、进出口等方面的经济活动,最终综合考虑数据的全面性和可得性。本文在前人研究的基础上,使用时差相关分析、K-L信息量法、峰谷对应法等多种计量方法,对经济预测指标组进行选取,从不同的领域选出了10个指标,分别是:进出口总额、居民消费价格指数、货币供应量(M1)、社会消费品零售总额、固定资产投资完成额、工业增加值、进口总值、出口总值、发电量月度数据作为实施识别的基础数据。
本文选取的数据期间为1995年1月至2019年12月,所用数据均来自中经网统计数据库公布的月度数据。除居民消费价格指数外,其余各指标均使用增长率数据,其中固定资产投资完成额使用累计增速,其余各变量使用当期同比增速。补充数据缺失值后使用X-12-ARIMA模型进行季节调整,提取各指标趋势循环项并检验序列平稳性,最后对数据进行标准化处理。
3.1.1 逻辑回归模型构建 通过前期的指标选取和对数据的预处理,本文利用R语言作为经济周期转折点研究的逻辑回归实现工具。在数据集中选取1995年1月-2012年5月共计210条数据作为训练集,2012年6月-2019年12月共计90条数据作为测试集。本文综合模型的复杂程度和预测精度,采用逐步回归方法,依据BIC标准进行模型筛选,模型回归结果如表2所示。
表2 BIC 准则下的模型回归结果
注:***为0.001 显著 **为0.01 显著 *为0.05 显著
为评估模型分类效果,分别对训练集与测试集绘制混淆矩阵图和ROC曲线图,结果如下表3、表4、图2所示。
表3 逻辑回归训练集混淆矩阵
表4 逻辑回归测试练集混淆矩阵
依照混淆矩阵得该模型训练集准确率为0.9143,测试集的准确率为 0.8778,计算得出基于测试集的F值为0.8991,AUC的值为0.879,说明建立的逻辑回归模型效果良好。因此,用逻辑回归模型解释经济周期状态的划分与各影响因素之间的关系是合理的。
图2 逻辑回归的ROC曲线
3.1.2 基于逻辑回归模型的影响因素分析 观察表2中各指标对应的回归系数,系数绝对值越大可以理解为变量的重要性相对越高。因此,依据逻辑回归模型的分类结果,在控制其他因素不变时,货币供应量(M1)、货运量、工业增加值越大,该时点处于经济周期扩张状态的概率越大。反之,进口总值、社会消费品零售总额、居民消费价格指数越大,该时点处于经济周期收缩状态的概率越大,而出口总值、固定资产投资完成额、进出口总额、发电量指标的变动对判断该时点经济状态没有显著的影响。
3.2.1 决策树模型构建 本文选取1995年1月至2013年12月的宏观经济数据建立决策树模型的训练集,2014年1月至2019年12月的数据作为测试集。首先利用CART算法建立决策树模型,其生成的决策树如图3所示。
其次,需要对树进行剪枝来提高其泛化能力,剪枝后的决策树如图4所示。
图3 决策树模型分类结果 图4 剪枝后的决策树模型分类结果
为检测该模型的分类效果,计算该模型训练集和测试集的混淆矩阵如表5、表6所示:
表5 决策树模型训练集混淆矩阵
表6 决策树模型测试集混淆矩阵
由混淆矩阵计算可得,该决策树模型在测试集上的准确率为 0.8556,基于测试集的F值为0.8889,由图5的ROC曲线知AUC=0.832,因此模型分类效果良好。
图5 决策树模型的ROC曲线
3.2.2 基于决策树模型的影响因素分析 根据图4剪枝后的决策树模型的分类结果,模型共进行六轮判断,生成7个终端节点,方框内第一行为经济周期状态分类标记,“0”代表收缩状态,“1”代表扩张状态,第二行为决策概率,第三行为该类标记占总样本比例。从决策树的第一层,即居民消费价格指数这一指标来看,当CPI_tc大于等于101.2时,y指标进入图的左侧,CPI_tc小于101.2时,y指标进入图的右侧。观察决策树的右侧,第二层依然是以CPI_tc为依据进行划分,此次划分的标准为CPI_tc是否超过99.4,若CPI_tc小于99.4,则进入树的右侧,此时判断该时点经济状态为扩张阶段,否则进入树的左侧,开始下一轮判断。由此可见,经济周期状态的判断与居民消费价格指数波动有较大关系,CPI值越小,该时点处于经济周期扩张状态的可能性越大,这与上一节逻辑回归的结果是一致的。决策树右侧的第三层是以出口总额为父节点进一步划分,出口_tc小于23.12时,进入树的左侧,判断该时间经济状态为扩张阶段的概率为21%,收缩阶段的概率为79%,在本文的判断中,取阈值为0.5,则最后判断该时点的经济状态为收缩状态。反之,若出口_tc大于等于23.12,则判断此时经济状态为扩张状态。同样的,我们可以对其他节点的分裂结果进行判断,当CPI_tc不小于101.9,发电量_tc不小于14.33时,判断经济状态为扩张阶段;否则,若固定资产投资完成额_tc不小于9.98,判断经济状态为收缩状态,;若固定资产投资完成额_tc小于9.98,则根据M1进一步划分,若M1_tc小于7.45,判断经济状态为收缩状态,否则为扩张状态。
与逻辑回归的结果相比,决策树模型除能够反映出影响因素之外,对经济周期状态划分的条件的解释能力更强。
3.3.1 随机森林模型构建 基于决策树模型的分类原理,单棵决策树的预测受样本波动的影响较大,预测效果较不稳定,因此,本文考虑用多棵树投票决定的随机森林模型进行改进。本文利用R语言工具,将所有变量纳入到随机森林模型进行建模,决策树数量选择400。表7、表8分别为训练集数据和测试集数据的混淆矩阵。
表7 随机森林训练集混淆矩阵
表8 随机森林测试集混淆矩阵
图6 随机森林模型的ROC曲线
根据混淆矩阵计算得出该随机森林模型训练集准确率为0.9956,测试集的准确率为0.9778,基于测试集的F值为0.9818,由图6 ROC曲线知AUC值为0.9821429,说明该随机森林模型分类效果非常好,其相对决策树模型的准确率有了大幅度提升。
3.3.2 基于随机森林模型的影响因素分析 随机森林模型能够直观的描述各变量对分类结果影响的重要性,在图7中,各经济变量分别以精确度平均减少值以及节点不纯度平均减少值进行降序排列,位置越高的变量被认为对于模型的重要程度越大。对精确度平均减少值来说,居民消费价格指数、货币供应量(M1)、社会消费品零售总额、固定资产投资完成额、发电量是对其影响相对较大的重要变量。对节点不纯度减少平均值来说,居民消费价格指数、货币供应量(M1)、社会消费品零售总额、固定资产投资完成额、工业增加值可以看作是对其影响较大的重要变量。
图7 各变量影响程度
本文以模型在测试集上的准确率、AUC值、F值为参照来比较三种模型的分类效果,如表9所示,随机森林模型在测试集上的准确率、AUC值和F值均最高,表示其分类效果最好,可以认定为最优模型。
表9 模型评估
三种模型对于经济周期状态划分的影响因素及其重要性的判断结果并不完全相同,但综合来看,居民消费价格指数对于经济周期状态划分具有非常重要的影响。结合经济实际,在经济“新常态”背景下,我国经济更多依赖国内消费需求的拉动,而消费者购买力却在逐年下降。因此,对居民消费价格变动进行准确预测,对于采取合适的宏观调控政策、稳定我国经济发展态势具有非常重大的意义。