凌立文,徐镁淇,张学竞
(1.华南农业大学数学与信息学院,广东 广州 510642;2.华南农业大学乡村振兴研究院,广东 广州 510642)
【研究意义】我国不仅是猪肉产量大国,还是猪肉消费大国。受非洲猪瘟疫情的影响,猪肉价格从2018 年底的23.24 元/kg 持续飞速增长,到2020 年2 月达58.89 元/kg,随后保持高位震荡。猪肉价格的异常波动给农业生产、民生福利的健康发展带来负面影响,对猪肉价格波动影响因素的分析及预测具有重要而深远的意义。【前人研究进展】猪肉价格波动受到内、外部多重因素的共同影响,综合当前学者的研究成果,归纳出以下5 大类猪肉价格波动的影响因素:(1)生猪养殖加工产业链。饲料价格波动是造成猪肉价格波动的主要因素[1];仔猪市场供给减少致使仔猪价格不断攀升,进而导致生猪价格上涨[2];猪肉产量、出栏肉猪量以及年末存栏量则与猪肉价格波动呈负相关性[3]。(2)替代品市场。猪肉常见的替代品为鸡肉、牛肉和羊肉等。猪肉价格与鸡肉、牛肉价格之间存在正相关性,且牛肉价格波动对猪肉价格波动的影响最大[3],鸡肉价格波动对猪肉价格波动的影响存在一定滞后性[4]。(3)宏观经济环境。经济增长、货币政策、资金市场等宏观经济因素对我国农产品市场的影响较为直接和显著[5]。货币发行量(M2)短期内对猪肉价格波动影响较小,但长期能显著影响猪肉价格波动[6]。居民消费价格指数(CPI)与猪肉价格具有显著的协同效应,二者存在双向的格兰杰因果关系[7]。(4)突发性和随机性事件。非洲猪瘟、新冠疫情和经济政策的不确定性等因素都会影响猪肉价格的波动[8]。生猪疫病对猪肉价格波动具有明显的时变特征和显著的横向溢出效应[9],直接影响当期猪肉需求量,间接影响当期猪肉供给量[10]。政策不确定性对农业企业的投资行为存在明显的抑制效应,且高于对一般企业的影响[11]。(5)国际市场环境。近年来,猪肉进口趋势逐渐增加,全球猪价对中国猪肉零售市场产生的冲击和传导溢出效应逐渐显现[12],国际市场的猪肉价格波动对国内生猪产业链各环节均产生不同程度的影响[13]。
科学准确地预测猪肉价格的未来运行走势,可为生猪产业从业人员和相关管理部门制定决策提供参考依据。经济计量模型和人工智能模型是当前研究中广泛使用的两类模型。例如,蔡超敏等[14]提出EMD-SVM 模型对我国猪肉市场价格进行分解集成预测,通过对分解后的子序列进行集成,更好地把握猪肉市场价格的波动规律与趋势。Zhang 等[15]将向量误差修正模型(VECM)与考虑上下界协整关系的智能模型(Coin AIs)进行组合以预测猪肉价格的区间波动,通过合理的数据转换,证明了区间预测比点预测精度更高;姜百臣等[16]使用集成经验模态分解(EEMD)与引入遗传算法(GA)的支持向量机(SVM)的组合预测模型对猪肉价格预测精度更高。
【本研究切入点】通过上述文献梳理可知,影响猪肉价格波动的内、外部因素众多,这些因素对猪肉价格波动的影响机制、影响程度尚缺乏系统性分析;此外,不同影响因素对猪肉价格波动预测的有效性,仍有待进一步研究。关联规则是一种分析事物之间相互依存及影响机制的数据挖掘方法,已在零售、金融、互联网等领域得到广泛应用[17]。将其应用于猪肉价格波动影响因素分析,有利于识别众多因素中的关键影响因素。【拟解决的关键问题】本研究将多维关联规则应用于猪肉价格波动因素分析,通过梳理影响猪肉价格波动的5 大类16 种影响因素并获取对应的研究数据,运用Apriori 算法分析各因素对猪肉价格波动的影响关系及程度,将挖掘得到的高相关影响因素作为预测模型的输入变量,设计多组对比试验,探讨不同影响因素的组合对提高猪肉价格预测精度的有效性。
本研究选取2010 年1 月至2020 年10 月国内猪肉价格作为被解释变量,共130 个样本。从2010 年开始我国猪肉价格经历了3 次显著的周期性波动,在大周期波动的同时出现了若干次小的周期性波动(图1)。由于非洲猪瘟疫情的流行,部分地区生猪产量和能繁殖的母猪产能出现显著下降,造成生猪出栏存在季节性低位,导致猪肉价格由2018 年底的23.24 元/kg 持续飞速增长,到2020 年2 月增至58.89 元/kg,随后保持高位震荡。
图1 国内猪肉价格趋势Fig.1 Domestic pork price trend
1.2.1 多维关联规则 关联规则的支持度和置信度是衡量现有规则重要程度和可靠程度的两个指标。支持度(X)是指事务集D中包含项目集数X的数量,置信度是指关联规则在D中同时包含项集X和Y的事务数与包含项集X的事务数之比。如果关联规则同时满足最小支持度(Minsup)和最小置信度(MinConf)则称为强关联规则。为了避免伪关联规则的影响,将提升度(Lift)的概念引入到关联规则。计算公式如下:
提升度越大表明项集X对项集Y的影响程度越大。
1.2.2 支持向量回归机 支持向量机(Support vector machine,SVM)是由前苏联学者Vapnik 基于结构化风险最小化原则而提出的一种机器学习模型,通过引入该方法,解决高维数据在低维空间线性不可分的问题。支持向量回归机(Support vector regression,SVR)是支持向量机在回归问题的应用,对于时间序列的预测表现出较好的学习能力[18],其具体原理如下:SVR 模型将处于低维度的输入数据x,通过映射函数φ(x),转化成高维特征空间,输出值为f(x):
最优系数ω和偏置b的求解如下:
式中,yi为真实值,C为用于控制模型的经验风险和校准项的权重,ε为决定损失函数的宽度,松弛变量分别代表数据到其ε边界的垂直距离。引入Lagrange 乘子λi和λi*,将上述问题转化为对偶问题:
鉴于径向基函数(Radial basis function,RBF)在众多时间序列研究中的有效性,本研究选择其作为支持向量机的核函数,采用R 软件的“e1071”包以实现SVR 模型,为确保结果的稳健性,取程序运行20 次的平均值作为SVR 的预测结果。
借鉴已有研究猪肉价格波动的文献,本研究从生猪养殖加工产业链、替代品市场、宏观经济环境变化、突发性事件和国际市场5 个方面选取16 个经济变量作为分析对象,构建猪肉价格多维数据模型。
2.1.1 生猪养殖加工产业链 生猪养殖加工产业链涉及种猪繁育、饲料加工、屠宰加工等环节,其中,玉米、豆粕、仔猪构成生猪养殖的主要成本[19],猪肉产量、出栏肉猪量和年末存栏量决定猪肉的供给数量,生猪价格则通过屠宰加工环节直接影响终端市场的猪肉价格[3]。因此,选取猪肉产量、出栏肉猪量、年末存栏量、玉米价格、豆粕价格、仔猪价格、生猪价格作为生猪养殖加工产业链因素对猪肉价格波动进行分析。
2.1.2 替代品市场 猪肉价格对牛羊肉消费比例的弹性值显著为正,因此猪肉与牛羊肉之间存在一定的替代性[20],当猪肉价格达到极大值时,牛肉和鸡肉价格同时达到最大值,两种替代品的价格与猪肉价格的波动具有一致性[21],因此选取牛肉价格、鸡肉价格和羊肉价格作为替代品市场的影响因素。
2.1.3 宏观经济环境 货币供应量(M2)的增加推动猪肉价格的上涨[6],在我国消费价格指数(CPI)中,猪肉在食品行业里所占比例较大,某种程度上来说中国的CPI 就是猪肉价格指数[22],因此采用M2 和畜肉类CPI(MCPI)代表我国宏观经济环境因素。
2.1.4 突发性和随机性事件 采用由斯坦福大学和芝加哥大学联合发布的经济政策不确定性指数(EPU)作为度量随机性因素的指标,其中食品安全事件、禽流感等因素会通过影响市场的情绪、价格预期等引起农产品价格波动[23];采用生猪疫病宽度指数综合量化生猪疫病的严重程度,宽度指数小于0.2 代表正常水平,大于0.25 则表示生猪疫病严重[9]。
2.1.5 国际市场环境 冻猪肉期货、活猪期货及瘦肉猪期货自1961 年以来陆续在美国芝加哥交易所(CME)上市,目前已成为衡量全球猪肉价格市场的一项重要指标;生猪养殖规模的扩大依靠大量的能源聚集和使用,原油价格对农产品价格存在显著的均值溢出效应[24],国际原油价格的波动会在一定程度上影响中国经济从而影响农产品价格,因此采用CME 瘦猪肉价格和WTI 原油价格作为度量国际市场环境的变量。
涉及生猪养殖加工产业链、替代品市场方面的数据来源于中国畜牧业信息网(www.caaa.cn),宏观经济环境方面的数据来源于国家统计局(www.stats.gov.cn),EPU 指数来源于EPU 指数数据库(www.policyuncertainty.com),生猪疫病宽度指数来源于布瑞克农业数据库,CME 瘦猪肉期货价格来源于Wind 数据库,WTI 原油价格来源于美国能源信息署(www.eia.gov)。以上数据的时间跨度为2010 年1 月至2020 年10 月,共130 个样本。
除了猪肉产量、出栏猪肉、年末存栏量为年度数据,其余数据均为月度数据。为了将数据变换为同一时间尺度,采用Eviews 软件中的二次插值法(Quadratic)将低频数据转换为高频数据,即将上述年度数据转换为月度数据。为了将数据的波动性体现在挖掘的关联规则中,根据农业部的农产品价格波动幅度定义,将涉及到农产品价格的数据用月度波动幅度指数A衡量其波动幅度,即:
式中,Pt为当期价格,Pt-1为上一期价格。
根据农业农村部对于农产品价格波动幅度的定义,将农产品的价格划分为如下价格波动区间:
为了便于数据挖掘,将所有属性的原始数据转化为布尔类型的二进制数据。计算出所有农产品价格的波动幅度指数,当波动幅度指数落入上述波动区间,则将该波动区间的属性记为“1”,其他波动指数未落入的区间属性记为“0”。而对于猪肉产量、出栏猪肉、年末存栏量、M2、MCPI、EPU 指数、WTI 原油价格等数据,由于目前缺乏完善的理论依据去界定上述指标的波动区间,因此将当期数据与上一期数据进行对比,数据不变或变大的属性记为“1”,数据变小的属性记为“0”,以此构造0-1 矩阵作为Apriori 算法的输入矩阵。对于生猪疫病宽度指数,大于0.25的宽度指数代表生猪疫病严重,因此将大于0.25的宽度指数标记为“1”,小于0.25 的宽度指数标记为“0”。
2.3.1 参数设定与规则挖掘 为探究不同类型关联规则对猪肉价格波动的影响,本研究设置两种挖掘参数。首先,设定最小支持度为0.5、最小置信度为0.6、最小提升度为1,对猪肉价格与生猪养殖加工产业链、替代品市场、宏观经济环境变化、突发性事件和国际市场环境5 方面16 种因素进行规则的生成和筛选,得到6 条高频、高相关的规则,按照置信度进行降序排列,具体的关联规则及相关指标见表1。由表1 可知,在挖掘到6 种高频高相关规则中,生猪疫病的宽度指数超过0.25(即表示生猪疫病严重)时,猪肉价格上涨的概率为100%,且对猪肉价格波动的影响程度为1.84,为6 种因素中影响程度最高者。其次,当生猪价格稳定波动时,猪肉价格稳定波动的概率为93%,影响程度为1.35;而当猪肉的替代品有牛肉和鸡肉这两种肉类的市场价格稳定波动时,猪肉价格稳定波动的概率为71%,对猪肉价格的影响程度均为1.03。
表1 高频高相关规则Table 1 High frequency and high correlation rules
为了分析出现不太频繁但相关性较高的关联规则,降低最小支持度为0.3,置信度和提升度的限值不变,得到6 条低频、高相关的规则,具体的规则和指标见表2。由表2 可知,虽然仔猪价格稳定波动致使猪肉价格稳定波动出现的频次并不高,但两者具有较强的关联程度(82%),仔猪价格稳定波动对猪肉价格稳定波动的影响程度为1.18。在表2 挖掘到的6 条低频高相关规则中,猪肉产量和出栏肉猪量对猪肉价格上涨的影响程度最大、为1.67。
为了分析出现不太频繁但相关性较高的关联规则,降低最小支持度为0.3,置信度和提升度的限值不变,得到6 条低频、高相关的规则,具体的规则和指标见表2。由表2 可知,虽然仔猪价格稳定波动致使猪肉价格稳定波动出现的频次并不高,但两者具有较强的关联程度(82%),仔猪价格稳定波动对猪肉价格稳定波动的影响程度为1.18。在表2 挖掘到的6 条低频高相关规则中,猪肉产量和出栏肉猪量对猪肉价格上涨的影响程度最大,为1.67。
表2 低频、高相关规则Table 2 Low frequency and high related rules
2.3.2 规则解读(1)生猪养殖加工产业链对猪肉价格波动的影响。规则2、6、7 表示生猪养殖的成本属性对猪肉价格波动的影响,当生猪价格稳定波动时,猪肉价格稳定波动的概率为93%;当仔猪价格稳定波动时,猪肉价格稳定波动的概率82%;当玉米价格稳定波动时,猪肉价格稳定波动的概率为67%。根据置信度和提升度的指标,相较于仔猪价格和玉米价格,生猪价格稳定波动对于猪肉价格稳定波动的影响程度更高。规则11、12 代表生猪养殖的供给属性对猪肉价格的影响,当猪肉产量下降时,有67%的可能性引起猪肉价格上涨;当出栏猪肉数量下降时,有67%的可能性引起猪肉价格上涨。对比表2 所有规则的提升度,可知供给方面的因素对猪肉价格的影响程度最大,均为1.67。
(2)替代品市场对猪肉价格波动的影响。当牛肉价格稳定波动时,猪肉价格稳定波动的概率为71%;当鸡肉价格稳定波动时,猪肉价格稳定波动的概率也为71%。两者对于猪肉价格的影响程度同等重要,均为1.03。
(3)宏观经济环境对猪肉价格波动的影响。当MCPI 上涨时,即畜肉类消费品通货膨胀时,猪肉价格上涨的概率为72%;当M2 上涨时,猪肉价格上涨的概率为70%。对比两者的提升度,MCPI 与M2 均与猪肉价格呈正相关,且MCPI 对于猪肉价格的影响程度(1.04)大于M2 对于猪肉价格的影响程度(1.02)。
(4)突发性因素对猪肉价格波动的影响。当疫病宽度指数大于0.25 即生猪疫病严重时,猪肉价格上涨的概率为100%;当EPU 指数上涨时,有78%的可能性引起猪肉价格上涨。疫病宽度指数、EPU 指数的变化与猪肉价格波动呈正相关,且疫病宽度指数在所有因素中对猪肉价格波动的影响程度最高(1.84)。
(5)国际市场对猪肉价格波动的影响。当WTI 原油价格上涨时,有70%的可能性引起我国猪肉价格上涨,WTI 原油价格变化与我国猪肉价格波动呈正相关性。
为了探究不同多维关联规则筛选得到的输入变量对于猪肉价格预测性能的影响,分别将6 种高频、高相关影响因素,6 种低频、高相关影响因素,12 种运用多维关联规则挖掘的强相关影响因素以及16 种未使用多维关联规则挖掘的数据作为SVR 模型的输入变量,构建4 种对比实验方案:
方案1:预测模型的输入变量为6 种高频高相关影响因素,即生猪疫病、生猪价格、牛肉价格、鸡肉价格、M2 和玉米价格;
方案2:预测模型的输入变量为6 种低频高相关影响因素,即仔猪价格、EPU 指数、MCPI、WTI 原油价格、猪肉产量、出栏肉猪量;
方案3:预测模型的输入变量为上述12 种高相关影响因素,即方案1 和方案2 的总和;
方案4:未使用多维关联规则进行变量筛选,预测模型的输入变量为原始的16 种猪肉价格波动影响因素,即生猪疫病、仔猪价格、生猪价格、EPU 指数、牛肉价格、MCPI、鸡肉价格、WTI 原油价格、M2、猪肉产量、玉米价格、出栏肉猪量、豆粕价格、年末存栏量、羊肉价格、CME 瘦猪肉期货价格。
采用80 ∶20 的方式划分训练集和测试集,其中前80%的数据作为模型的训练样本,后20%的数据作为验证样本。使用SVR 模型对4 种方案的输入变量进行提前多步的预测建模,探讨多维关联规则对预测建模的有效性。具体实验步骤如下:
步骤1:将4 种方案作为SVR 模型的输入变量,对数据做归一化处理;
步骤2:划分训练集和测试集,用训练集数据训练SVR 模型,通过网格寻优法筛选回归模型的最佳参数cost 和gamma;
步骤3:预测验证集的数据,将结果做反归一化的处理,并与真实值做对比,计算每一种方案的RMSE 值和MAPE 值;
步骤4:构建提前1 步、3 步和6 步的预测步长,找出不同预测步长下的最佳预测方案。
在评价模型效果时,通常采用两个指标作为评价模型的预测性能,分别是均方根误差(Root mean Squared Error,简称RMSE)和平均相对误差绝对值(Mean Absolute Percent Error,简称MAPE)。计算公式如下:
式中,yt为t时刻的真实值,为t时刻的预测值,n为预测值的个数。为衡量最优模型相较于基准模型的预测精度提升效果,设计改进率指标,计算公式如下:
根据3.2 的实验步骤和流程,运用SVR 对猪肉价格进行提前多步预测的结果见表3 和表4。综合表3 和表4 中不同实验方案的预测结果,得到以下两个发现。
3.4.1 基于多维关联规则的变量筛选方案的有效性 方案1~方案3 均为使用变量筛选的预测建模结果,方案4 为没有使用变量筛选方案的基准模型,直接选用原始16 个影响因素进行预测建模。由表3 可知,对于短、中期预测而言(即提前1步和3 步),方案1 和方案3 优于方案4,说明基于多维关联规则进行变量筛选,可在一定程度上提高猪肉价格的预测精度;然而,方案2 的表现并未优于方案4,说明只考虑低频高相关因素不足以全面把握猪肉价格波动的影响机理,导致预测效果欠佳。至于长期预测(即提前6 步),只有方案3 优于方案4,说明对于跨度较长的预测任务,需要考虑更全面的影响因素,方能取得理想的预测结果。
3.4.2 最优预测方案 由表3 可知,对于不同的预测步长,方案3 均表现出理想的预测精度,证明该方案的有效性及稳健性,因此将方案3 定义为本实验的最优预测方案,该方案包含6 个高频高相关以及6 个低频高相关影响因素,可见,高相关影响因素是确保猪肉价格预测精度的关键因素。由表4 可知,进一步呈现的最优方案相较于基准方案的改进率,证实最优预测方案能显著提升短、中期的预测精度。综上,运用基于多维关联规则的变量筛选策略,不仅可以挖掘出影响猪肉价格波动的关键因素,还能通过减少模型的解释变量个数,减轻预测建模的数据收集工作量。
表3 SVR 模型预测的结果Table 3 Results of SVR model prediction
表4 多维关联规则筛选变量的最优方案的改进率Table 4 Improvement rate of the optimal scheme for screening variables by multidimensional association rules
本研究运用多维关联规则对猪肉价格波动的影响因素进行定量分析,基于生猪养殖加工产业链、替代品市场、宏观经济环境变化、突发性事件和国际市场环境等5 个分析维度,挖掘猪肉价格波动的高相关影响因素作为预测模型的输入变量,得到以下结论:(1)从多维关联规则的挖掘结果可知,与猪肉价格波动关联程度最高的前3 位因素是生猪疫病、生猪价格、仔猪价格,置信度分别为1.00、0.93 和0.82;从高相关项集的提升度可知,对猪肉价格波动影响程度最大的前3 位因素是生猪疫病、猪肉产量和出栏猪肉量,提升度分别为1.84、1.67 和1.67。(2)将基于多维关联规则挖掘得到的猪肉价格波动高相关影响因素作为预测模型的输入变量,进行提前多步预测建模。结果表明,包含12 种影响因素即生猪疫病、生猪价格、牛肉价格、鸡肉价格、M2、玉米价格、仔猪价格、EPU 指数、MCPI、WTI 原油价格、猪肉产量和出栏肉猪量的建模方案预测精度最高。(3)相较于不进行变量筛选的基准模型,最优模型在3 个步长中的平均预测精度改进率分别为29.11%(RMSE)和16.00%(MAPE)。可见,基于多维关联规则的变量筛选策略不仅有助于找出猪肉价格波动的关键影响因素,而且对于提高模型预测精度具有显著效果。
4.2.1 完善猪肉价格波动预警机制 农业生产管理部门应立足于高相关影响因素对猪肉价格波动进行更有针对性的监管。对生产端(如:玉米、生猪、仔猪、猪肉产量、出栏肉猪量)、替代品(如:鸡肉、牛肉价格)、宏观经济环境(如:M2、MCPI)、突发性事件(如:EPU 指数、生猪疫病宽度指数)、国际环境(如:WTI 原油价格、国际市场猪肉价格)等关键影响因素进行实时监测分析,构建猪肉价格波动指数与预警区间,针对不同级别的警情提前制定应对预案,确保生猪市场的健康平稳运行。
4.2.2 提高动物疫病风险防范意识 生猪疫病是与猪肉价格波动关联程度和影响程度最高的决定性因素。因此,政府相关部门应提高动物疫病的风险防范意识。就外部而言,建立国家边境动物防疫安全屏障,健全边境疫病监测制度和突发疫病应急处置机制,完善入境猪肉产品的检验检疫及风险评估办法。就内部而言,提升动物疫病监测预警能力,建立从国家到地方的多级动物疫病预防控制中心,完善动物疫病应急预案,提高相关人员的知识技能及装备水平,确保及时阻断疫病传播扩散链条。
4.2.3 加强农业信息化建设 促进农业经济的发展,须坚持以信息技术引领农业的发展。中央一号文件提出,大力发展农业大数据,加快建立现代化养殖体系,保障生猪基础产能,健全生猪产业平稳有序发展的长效机制。当前,散户养殖方式在我国占比接近50%。由于信息获取手段的局限性,散户无法及时获取全面的市场信息,一定程度上导致其养殖计划制定的盲目性,进而增加其遭遇价格风险的可能性。因此,相关管理部门应尽快建立农业大数据平台,完善农业信息基础设施建设,促进生产、市场信息的透明公开,提高农户的信息决策能力,保障市场的平稳运行。
4.2.4 构建全链条视角下的生猪价格调控机制 目前,我国的生猪价格调控预案主要以猪粮比作为预警指标。由于过于重视供给端的成本变动,相关调控政策的出台在一定程度上导致供应的急剧上升或下降,加剧了猪肉价格波动的风险。为确保猪肉市场的健康平稳运行,建议构建涵盖供给端和市场端的全链条风险评价体系,综合生产成本变动以及市场价格波动研判市场风险,依据市场整体风险等级确定调控机制,有效保障猪肉市场多方参与主体的利益,规避其可能面临的生产经营决策风险。