孙志华 ,刘浩
(1. 全国畜牧总站,北京 100125;2. 中国农业科学院农业信息研究所,北京 100081)
从1997年至2018年的20多年时间,中国生猪产业实现了增量到增质的转变,生产效率持续提高,猪肉产量达到5 000万t的新高度,市场供给充足。2018年8月份,我国出现非洲猪瘟疫情,加上环保限制及猪周期等多种因素影响,至2019年底,生猪存栏同比减少了1亿多头,产能下滑至30多年前的水平,猪肉产量减少了1 000多万t,回到了近20年前的水平。对此,国家先后出台了一系列政策措施,生猪基础产能持续加快恢复,全行业克服了非洲猪瘟疫情和新冠肺炎疫情等不利因素影响,截至2020年末,我国生猪存栏、能繁母猪存栏均已成功恢复至常年水平的90%以上,超预期实现阶段性目标。当前,非洲猪瘟后大量新投产猪场开始生产,价格逐步回归到较为合理的区间,生猪产业发展已进入后疫情时代,养殖高利润也逐渐回归正常水平。然而,由于信息不对称,后疫情时期市场主体跟风养殖势头不减,短期内精确预测猪肉产量变化趋势,释放有效市场信号,发挥“看得见的手”的作用,对于提高经济政策、技术活动决策科学性,降低养殖户损失、稳定市场价格、促进生猪产业健康发展具有重要现实意义,为更好发挥投资效益打下坚实基础。
随着大量原始数据积累,定量预测对于产业发展趋势判断愈加重要,可信度不断提高,预测方法层出不穷。当前关于产业预测的方法主要由:灰色预测模型(gray forecast mode GM)(1.1)模型、概率统计模型、机器学习模型和组合模型等[1]。陈秉钧[2]利用神经网络模型模型预测了浙江省的猪肉产量,认为组合预测模型预测精度优于任何单个预测模型,有人通过GM(1.1)模型预测了未来5年生猪及猪肉生产情况,预测结果良好[3-4],通过auto regressive integrating moving average model(ARIMA)模型预测猪肉产量的实证结果表明具有更小的预测误差[5]。自回归极端梯度上升算法(XGBoost)的基本思想是基于分类和回归树的算法,通过一系列弱分类器的迭代计算实现准确的分类效果[6],使用优势在于能快速对特征级数据进行训练,预算结果精度高,并且可以有效解决高纬度问题,避免了“维度的诅咒”[6]。有学者将XGBoost应用于共享单车短时需求预测,预测结果比神经网络BP模型、ARMA模型、KNN模型、支持向量机(SVM)和梯度增强决策树GB有更好预测精度[7-9]。
杨霞[10]对中国畜产品特点进行了分析,认为居民收入、消费习惯、城镇化水平、人口增长率、疫情是影响畜产品消费的主要因素,钟搏[11]通过固定效应模型分析认为人力资本、农业机械化水平、人口规模、人均收入等是生猪养殖的重要影响因素,王郁林[12]利用灰色综合关联分析法研究认为,全国种猪场数量、配合饲料产量、兽医站数量、猪肉及牛羊肉的销售量与生猪产业发展的关联度较高。Mc Carthy[13]研究了爱尔兰猪肉和家禽市场消费的影响因素,认为价格、收入、安全、健康、环境条件等是影响居民消费选择的主要因素。
本研究拟采用XGBoost的时间序列模型,对我国未来5年的生猪存栏和猪肉产量进行预测,并利用灰色综合关联度模型对生猪养殖和猪肉消费的影响因素进行分析,从而为判断生猪产业发展趋势、促进产业健康发展提供科学支撑。
1.1.1 自回归模型
自回归模型(autogressive model,简称AR模型),用同一变数之前各期来预测本期的表现,该方法由线性回归发展而来,用x预测x(自身)代替用x预测y,因而被称为自回归,模型如下:
(1)
式中:c是常数项,εi是假设均值为0,标准差为σ的随机误差项,σ是假设对任何t均保持不变。
1.1.2 XGBoost模型
XGBoost是在梯度提升决策树(GBDT)的基础上,通过在目标函数中加入正则化项,防止过度拟合,目标函数为:
(2)
(3)
(4)
对公式(4)进行二阶泰勒展开,并简化去掉常数项得:
(5)
(6)
式中:Ii={i|q(xi)=j}表示第j组叶子节点,此时,目标函数就转化为关于ωi的一元二次方程求最小值问题,如果q是固定的,则叶子节点j的最优权重公式为:
(7)
目标函数可表示为:
(8)
该函数实际意义是按照特定分裂点分裂后产生的损失值,其中Ii表示被分到编号为j的叶子节点的样本,我们可得到样本群I依据某个特征值分裂后的损失函数减小值Objsplit,将其作为分裂时的依据。因而,IL和IR分裂后形成两拨样本:
(9)
XGBoost模型集成为若干棵回归树,每个节点都做一次特征分裂,由于已确定最佳分割点,那么特征值的排序是决策树的一个关键步骤,算法运行之前预先对数据进行排序,保存为block结构,迭代重复使用,从而缩减计算量,提高求解效率,正则项避免了过度拟合的问题。此外,XGBoost使用了一阶和二阶偏导,二阶偏导便于梯度的快速和准确下降,使用泰勒展开取得函数做自变量的二阶导数形势,依靠输入数据进行叶子分裂优化计算,增加模型的适用性,按需选取损失函数,用于分类也可以用于回归。
1.1.3 自回归XGBoost时序预测模型
本文选取基于自回归的XGBoost时序模型进行拟合预测,该模型在预测过程中充分考虑了历史数据自身的规律,充分挖掘时间序列数据中连续时间数据之间的自回归性,近似描述对象随时间推进而形成的未来时间序列,首次将XGBoost模型应用到单变量时序的短期预测,实证表明,该方法具有较高的预测精度,其预测分为4个步骤:
①检验生猪存栏和产量时间序列的平稳性,根据时序图、ADF单位根进行平稳性检验;
②若是平稳序列进行下一步,若非平稳序列则进行平稳化处理;
③模型识别及参数设置;
④模型预测。
灰色关联度分析模型能够在样本数量较多或较小的情况下得到有效结果,其原理是通过观察样本数据曲线之间的关联程度来判断各个指标之间的相关性。根据已有研究结果,王郁林[12]认为灰色综合关联度分析模型能够尽可能避免灰色关联分析结果中出现的结果失真问题,灰色综合关联分析不仅能从几何意义上表达各序列曲线的相似性,还能反映各序列相对于起点的变化率的相似性,是显示数据序列是否密切相关的量化指标。
灰色绝对关联度:
(10)
(11)
(12)
而相对关联度能表示序列相对于起始点变化速率的关系,变化速率越接近,关联度越大,相反,则越小。相对关联度表示如下:
(13)
结合相对关联度和绝对关联度的优点,弥补其不足,从而得到灰色综合关联度ρ0i,全面反映各数据序列之间联系的紧密程度。
ρ0i=θε0i+(1-θ)R0i,θ∈[0,1] 。
(14)
本文数据来自于国家统计局1978—2020年我国生猪存栏(livestock)和猪肉产量(production)的数据,将样本分为两部分,1978—2015年的样本进行拟合模型,2016—2020年的样本用来拟合预测精度,使用统计软件Rstudio和R3.6.1版本。
灰色关联分析的计算量小,一般不会出现量化结果与定性分析不符的情况,结合已有研究[14-17],本文选取11个指标进行分析生猪存栏和猪肉产量的影响因素。分别包含:猪肉价格指数(price-pork)、牛羊肉价格指数(price-beef、price-mutton)、人口自然增长率(growth)、家庭平均人口(population)、餐饮业发展水平(餐饮业销售总额占GDP比重)(custom)、全国种猪场个数(pigfarm)、猪饲料产量(以玉米代替)(corn)、乡镇兽医站个数(veterinary)、进口鲜(冻)猪肉量(input-pork)和出口鲜(冻)猪肉量(output-pork)。相关数据来源于《中国畜牧兽医年鉴》(1990—2020)、《中国农业年鉴》(1980—2020)、《中国统计年鉴》(1978—2020)、国家统计局、中国饲料行业信息网、中国人口统计年鉴等,鉴于数据收集情况,本文选择1980—2019年的数据作为研究对象,并运用指数平滑法对个别缺失数据进行了科学处理。
2.2.1 归一化处理
对于不同指标单位不统一,存在量纲不一致的问题,这不利于对数据进行分析和处理,所以先要对数据进行预处理,本文对数据进行了归一化处理,公式如下:
(15)
2.2.2 平稳性检验
为了保证预测结果的可靠性,首先在Rstudio中绘制样本数据的时序图,可以看出生猪存栏和猪肉产量都呈线性增长(图1、图2),然后分别对存栏和产量进行差分处理,取时序图(图3、图4),可以看出,取一阶差分后的时序图(diffnumber和diffproduction)都围绕某均值上下波动,初步可认为平稳的时间序列,为了进一步检验其平稳性,对样本数据进行Augmented Dickey-Fuller(ADF)检验,统计量约为-3.151(P=0.034 1),结果表明在5%的显著性水平下,一阶差分后的存栏和产量数据平稳。
图1 生猪存栏时序
图2 猪肉产量时序
图3 生猪存栏一阶差分时序
图4 猪肉产量一阶差分时序
采用R中forecastxgb包中的xgbar函数进行建模,xgbar函数的参数设置为:交叉验证方式nrounds&method设置为cv,即为10折交叉验证;trend&method设置为differencing,表示差分计算,本文选取一阶差分进行处理,其余参数均采用默认值,另外,xgbar函数利用交叉检验方法防止过度拟合。通过xgbar函数拟合整个数据集的每个预测变量的相对重要性,可以看出影响存栏和产量的最重要的预测变量是1年前的值(Lag1),本模型包含8个预测变量,有30个时点参与到XGBoost的计算中。
利用R中forecast包进行了测试,测试集为2016—2020年生猪存栏和猪肉产量数据,得到结果见表2。可以看到,2016—2020年的预测相对误差都在5%以内,整体发展趋势与真实情况基本一致。根据高金敏等[9]研究,自回归XGBoost时序模型的预测精度优于传统ARIMA模型、BP神经网络模型和贝叶斯时序预测模型,因此,本研究使用自回归XGBoost时序模型对我国2021—2025年的生猪存栏和猪肉产量进行预测,以对我国生猪产业发展趋势进行展望和分析。
表1 各预测变量的相对重要性
表2 自回归XGBoost时序预测模型2016—2020年存栏和产量预测结果
利用自回归XGBoost时序模型对未来5年我国的生猪存栏和产量情况进行预测,结果如表3所示,2020年后我国生猪存栏和猪肉产量情况呈现平稳增长、但增速不断放缓的趋势。
表3 2021—2025年我国生猪存栏和产量预测结果
根据预测结果,2021—2025年我国生猪存栏和猪肉产量整体呈倒“U”型趋势,并逐渐趋于平稳。2020—2022年我国生猪存栏和猪肉产量快速增加,预计2022年分别达到43 204万头和5 524.83万t,为近五年最高水平,预计2023—2025年存栏和产量处于减少趋势。受新冠肺炎疫情和非洲猪瘟影响,2019年我国猪肉供不应求,猪肉价格一路高涨,养猪利润空间巨大,吸引大量工商业资本进入生猪养殖业。非洲猪瘟往后两年,我国猪肉供应已恢复到接近疫情前水平。但由于生猪养殖周期较长,对于市场需求较为滞后,不能对市场需求及时做出调整,从而使得存栏增长趋势一直持续到2022年,致使供大于求,利润空间的不断缩小,甚至出现亏损,2023年以后生猪存栏和猪肉产量开始回落,到2025年恢复到供需相对平衡状态,达到疫情前水平,生猪养殖进入平稳阶段,符合市场经济下供需变化规律。
生猪产业发展是一个受多种因素影响的复杂系统,具有随机性、模糊性和不对称性。这是一个典型的灰色系统。运用灰色综合关联分析法,对生猪存栏量与猪肉产量及相关因素的关联度进行分析,找出对生猪产量影响最大的因素。本文在灰色综合关联分析模型中以1980—2019年的生猪存栏和猪肉产量作为参考序列,以其他12种因素指标作为比较序列,利用Stata 15.0进行分析,结果如表4。
表4 生猪存栏和猪肉产量与相关因素综合灰色关联度及关联序情况
通过灰色综合关联度分析发现,猪肉价格和餐饮业发展水平同时对生猪存栏和猪肉产量的灰色综合关联度分别达到91.76%和94.98%,是制约生猪养殖的首要因子,2018年非洲猪瘟和2020年的新冠肺炎疫情导致猪肉价格大涨,生猪存栏也在短短两年就恢复到疫情前水平,2020年存栏增长率达到30.96%,随着市场供给的增加,价格逐渐回落,生猪存栏和猪肉产量也将进入下降趋势,直至供需相对平衡状态。
牛羊肉作为猪肉的可替代产品之一,其价格与生猪存栏和猪肉产量的灰色综合关联度都达到80%以上,牛羊肉的供需情况间接影响着生猪存栏和猪肉产量,当消费一定价格猪肉获得的效用低于牛羊肉时,对牛羊肉的消费需求就会增加。在非洲猪瘟和新冠肺炎疫情期间,由于猪肉价格高涨,2019年中国牛肉和羊肉消费量分别增长11.4%和3.9%,均为近年来最大增幅,而猪肉消费量同比下降21.98%,达到15年来的新低。随着人民生活水平的提高,消费结构也在发生变化。与猪肉相比,牛羊肉具有低脂肪、低胆固醇、高蛋白的特点,越来越受到当代年轻人的青睐。我国是猪肉消费大国,人口增长率和家庭平均人口与生猪存栏和猪肉产量的灰色综合关联度也较高,人口增长率与猪肉产量的关联度甚至达到了90.04%,随着全面小康目标的完成,人民生活水平进一步提升,猪肉需求也将增加。
种猪场个数与生猪存栏和关灰色综合联度说明种猪场个数对生猪存栏具有具有较大影响。1996—2010年我国种猪场个数迅速发展,由550增加到8 223个,2011年至今处于下降趋势。近十年种猪场减少,但生猪存栏的建设反而保持上升趋势,研究表明,我国种猪场的建设已经由数量建设向质量建设转变,种猪场提质增效的局面逐渐形成[18]。种猪品质改良不仅增加了公猪和母猪的产量,而且可以有效提高良种猪的比率,培养出更高质量的猪。种猪质量已为养猪业的发展奠定坚实的基础,从而成为影响猪存栏量的重要因素。
鲜(冻)猪肉的进出口对生猪存栏和猪肉产量的影响不大,近年来,鲜(冻)猪肉进口量年年增长,但出口量呈下降趋势。2019年,我国鲜(冻)猪肉出口量是进口的近20倍,国内猪肉供应缺口仍然很大。林学贵[19]研究认为,国际猪肉与国内猪肉价格之间不存在长期协整关系,猪肉的国际市场价格不能有效传导到国内市场,国内猪肉产量与生猪存栏对鲜(冻)猪肉进出口量敏感度较低。
2021—2025年我国生猪存栏和猪肉产量呈倒“U”型趋势。从整个生猪产业发展历史来看,产业发展存在阶段性剧烈波动,非洲猪瘟的影响一定程度上有利于产业的结构调整和转型升级,养殖者应及时把握市场信号,调整生产结构,避免信息不对称造成的生产损失。
猪肉价格和餐饮业发展水平对生猪产业的影响最大,当消费成为拉动经济增长的主要“引擎”时,价格对产业发展的影响力进一步被放大,合理的价格水平能有效促进产业发展。同时也要关注种猪场和地方兽医站的建设,良好的种质资源和一流的防疫水平对于促进生猪产业健康平稳发展具有重要作用。猪肉的进出口对于国内市场的影响较小。
4.2.1 预计近五年猪肉市场波动将逐渐平稳
根据实证研究结果,未来五年,我国生猪存栏量将呈倒“U”型,并逐渐趋于稳定。根据农业和农村事务部的监测数据,2019年10月,能繁殖的母猪存栏量停止下降,并数月增长;去年2月,大型养殖场新生仔猪数量逐月增加。截至今年2月,可育母猪数量连续17个月增加,规模化养殖场新生仔猪数量前期连续11个月增加,尽管近两个月有所下降。猪肉市场供应量随着可育母猪和新生仔猪数量的增加而增加,效果正在显现。但随着市场价格的修正,猪肉市场供给会有下降的趋势,供需形势会逐渐平衡。
4.2.2 未来几年或迎来新的猪价时期
根据预测实证研究结果,2021年生猪整体屠宰量将继续保持大幅增长趋势,市场供应明显好于去年,生猪价格也将回落至更合理的区间。但随着玉米、豆粕等饲料价格的上涨,饲养成本也会上升,猪肉价格也很难降到几年前的较低水平,进入猪价新的理性时期。鉴于目前猪肉市场需求强劲,支持居民消费的猪肉替代产品短缺,预计未来2~3年生猪生产形势将保持良好水平。
4.2.3 猪肉进口量将继续增加
根据目前中国猪肉供应紧张的情况,需要依靠进口来维持内需。2020年,中国进口猪肉同比增长124.7%。虽然国内养猪业已经复苏并将继续增长,但随着国内收入水平和城镇化率的提高,对猪肉的需求将进一步增加。同时,中国对进口猪肉有进口优惠。自2020年1月1日起,猪肉进口关税将从12%下调至8%。因此,在国外疫情严峻的情况下,猪肉进口可能会略有回调,但从长期来看,猪肉进口将继续增加。