基于区间型数据计量的我国粮食产量研究

2022-01-28 09:30:26李城恩潘晓映王美涵施建华
关键词:回归系数回归方程限值

李城恩, 潘晓映, 王美涵, 施建华,2,3,4*

(1.闽南师范大学数学与统计学院, 福建漳州363000; 2.福建省粒计算及其应用重点实验室, 福建漳州363000;3.数据科学与统计重点实验室, 福建漳州363000; 4.数字福建气象大数据研究所, 福建漳州363000)

粮食问题一直是世界性焦点问题,也是众多学者关注的热点话题。尹朝静等[1]利用粮食生产投入产出数据和气候数据对我国粮食产量进行研究,结果表明粮食产量与气候变化紧密相关;赵茹欣等[2]根据气候产量、气候生产潜力、突变分析、趋势分析、敏感性分析等方法研究气候变化对关中地区粮食产量的影响以及趋势情况,结果表明气候变化对关中地区粮食产量起促进作用;黄凯等[3]根据主成因分析法、多元线性回归等方法,探究气候变化、灌溉与施肥对广西粮食作物产量的影响。

目前关于我国粮食产量变化问题的研究已有大量成果,但大多数研究基于单一点值数据进行讨论,较少研究是从区间型数据角度进行分析。而区间型数据在日常生活中广泛存在,它具有描述数据的数值变动范围、提供群体信息、揭示不确定性信息等优势。Billard等[4-5]分别提出中点法(center method,CM) 和最小最大法(minmax method,MinMax),把区间型数据的上限值和下限值看作特殊点值,分别对区间型数据的上限值和下限值建立回归模型进行拟合和预测;Lima Neto等[6-7]分别提出中心半径法(center and range method,CRM) 和带有约束条件的中心半径法(constrained center and range method,CCRM),利用区间型数据的中点和半径中包含的信息来估计参数;Lima Neto 等[8]扩展了经典非线性回归模型,提出区间型数据的非线性回归模型,对区间型变量的非线性方法和其他线性回归方法的预测性能进行详细比较研究;基于区间型数据线性回归,Souza等[9]提出参数化方法(parametrized method,PM);周文凯等[10]针对区间型金融时间序列数据,根据均方误差准则构建区间型数据模型的变量选择方法,并对宏观经济进行分析。

为了快速描述变量波动情况和偏移程度,充分挖掘和利用数据蕴含信息,提高统计推断效率和预测精度,本文基于区间型数据,采用区间计量方法探讨气候变化和农业生产要素投入对我国粮食产量的综合影响,对我国粮食产量的变化情况进行分析和预测,为我国粮食的稳定和安全提供科学合理的依据和建议。

1 区间型数据的线性回归模型

本文应用中点法(CM)、最小最大法(MinMax)、中心半径法(CRM)和参数化方法(PM)的区间型数据的线性回归方法讨论我国粮食产量变化情况。本文收集的数据为面板数据,采用区间型数据的计量方法进行讨论,以下简称为区间型面板数据。为此先引入区间型面板数据的相关符号。

1.1 中点法

中点法假设各变量的区间上限值和下限值都有相同回归系数,该方法主要利用被解释变量和解释变量的区间中点来构建线性回归方程。本文借鉴其思想,建立如下多元线性回归方程:

式中:

1.2 最小最大法

与中点法不同,最小最大法不再假设区间下限值和上限值都有相同回归系数,而是分别对区间下限值和上限值构建线性回归方程,具体如下:

1.3 中心半径法

中心半径法的思想结合区间型数据的中点和半径这两者的信息进行讨论,分别对各变量的区间中点和区间半径建立线性回归方程。该方法结合区间中点回归方程的回归系数和区间半径回归方程的回归系数,可对区间型数据的上下限值进行预测。中心半径法与中点法这2种方法对区间中点建立的回归方程相同,但是中心半径法增加了区间半径的回归方程,考虑了区间型数据的不确定性范围的变动情况。本节借鉴CRM模型的思想,构建模型如下:

1.4 参数化方法

参数化方法主要对解释变量的区间上下限值进行参数化,参数化后的解释变量在回归过程中可以自动选择参考点,分别对被解释变量的区间下限值和上限值建立模型,进而得到被解释变量的区间预测值。

根据定义的参数点,建立被解释变量的区间下限值回归方程:

类似地,可以建立被解释变量的区间上限值最优参数点回归方程。计算可得

2 评价指标

2.1 均方根误差

本文借鉴Lima Neto等[6]定义区间型数据的均方根误差(root mean squared error, RMSE),记区间下限值的均方根误差为RMSEL,区间上限值的均方根误差为RMSEU。均方根误差主要用来衡量预测值与真实值之间的偏差,取值为非负数,且取值越接近于0,表明模型预测值与真实值之间的偏差越小。具体公式如下:

2.2 估计值的相对平均误差

估计值的相对平均误差(mean magnitude of error relative to the estimate, MMER)[11]主要用于考察模型分析结果的准确度。MMER的取值为非负数,且取值越接近于0,表明模型分析结果的准确度越高。具体公式为

2.3 比率

为了更加直观地展示预测效果,本文引入观测区间与预测区间的重合比率进行衡量。Hu等[12]定义了区间型数据预测的准确率(accuracy ratio of an interval forecast, AR); Hojati等[13]提出了观测区间包含的预测区间的平均百分比(the average percentage of predicted intervals contained in the observed intervals, PCO)。AR和PCO主要衡量区间的真实值和预测值之间的比率,取值范围为0~1,且数值越接近1,说明模型预测拟合效果越好。具体公式为

3 实证分析

3.1 数据来源及指标选取

目前,我国13个产粮大省(区)分别为辽宁、吉林、山东、河北、内蒙古、江西、湖南、四川、河南、湖北、江苏、安徽、黑龙江,它们的粮食产量占全国粮食总产量75.4%,约95%的全国增产粮食来源于这13个产粮省区,可见研究我国这13个省区的粮食产量具有代表性。13个产粮大省由于部分省区的数据缺失较多,考虑到数据的可获得性和有效性,本文选定研究的省份为安徽、河北、河南、湖北、湖南、山东、吉林、四川,共8个省份,以下简称为我国8大产粮省份。时间选取1993—2018年,共26年。

粮食作物为各省份城市种植的谷类、薯类和豆类3种类型农作物,采用单位面积粮食产量来衡量。部分省份城市没有给出单位面积粮食产量,本文通过粮食总量/粮食播种面积计算得到。农业生产投入要素选取各省份城市有效灌溉面积、农业机械总动力、单位面积化肥折纯量(化肥折纯量/粮食播种面积)。气候数据选取各省份城市的年平均温度和年总降水量。所有数据来源于各省份历年统计年鉴和全国温室数据系统。

特别地,与单一点值数据相比,本文构建的区间型面板数据集有利于挖掘数据中隐藏的信息,了解数据的偏移程度与变异情况,为分析气候变化和农业生产投入要素对我国粮食产量的影响提供新视角。从整个区间型面板数据集看,随着时间的推移,一方面可以利用区间型面板数据的区间上下限值了解各变量的整体取值情况,另一方面可以使用区间型面板数据的区间极差(区间上限值和下限值之差)了解各变量的不确定性情况。从单个区间型数据看,该数据的区间上下限数值可以反映某年某省份内部城市在某变量的取值情况,该数据的区间极差可以体现某年某省份内部城市间在某变量的差异大小。

本文对每年各省市的各变量数据选取最大值和最小值的方式构建区间型面板数据。例如,吉林省的一级城市共有8个,选取2010年8个一级城市年平均温度的最小值和最大值作为吉林省在2010年的年平均温度的区间型数据。本文共收集2 548组点值数据,构建区间型面板数据后共208组数据。同时,对变量采用对数化处理,消除变量间可能存在的异方差。各变量的名称、单位和符号见表1 。

表1 变量名称、单位和符号

3.2 描述性分析

图1是我国8大产粮省份1993—2018年单位面积粮食产量的逐年变化情况。由图1可以发现,在1993—2018年间,吉林和湖北粮食产量最高的城市突破8 000 kg·hm-2,其余省份城市粮食产量基本在8 000 kg·hm-2之下。从单位面积粮食产量的区间极差看,河北、湖北和吉林这3个省份的单位面积粮食产量的区间极差较大,表明各省份内部城市之间单位面积粮食产量存在明显差异,其中湖北省单位面积粮食产量的区间极差在2003年后趋于稳定,极差维持在4 000 kg·hm-2左右;而河北和吉林的单位面积粮食产量具有较大的不确定性以及区间变动幅度较大,其区间极差在2009年后才逐渐趋于稳定。特别地,1998年吉林省城市之间的单位面积粮食产量差异最大。安徽、四川、河南单位面积粮食产量的区间极差较小且保持相对稳定,说明安徽、四川、河南各内部城市单位面积粮食产量差异较小,并且各内部城市单位面积粮食产量呈现较同步的变化趋势,即同增或同减。整体来说,虽然河北、吉林、湖北等部分省份单位面积粮食产量在2009年前变化幅度较大,但是2009年后我国8大产粮省份的单位面积粮食产量是呈现较稳定状态,这有利于满足我国粮食的供应需求,保持我国粮食产业的持续发展。

图1 8省份单位面积粮食产量变化

3.3 模型估计结果与分析

采用文中4种方法进行建模分析,并对回归系数进行显著性检验。回归步骤:先对所有变量进行估计,根据系数估计值的T统计值,判断回归变量是否显著;然后,剔除不显著的回归变量,再重新回归。由于篇幅的关系,本文只展示每种方法的显著变量,回归结果见表2和表3。

表2 CM和CRM回归结果

表3 MinMax和PM回归结果

由表2和表3可见,PM计算的下限回归方程和上限回归方程,调整后的可决系数(adj-R2)分别是0.480 6和0.533 2。综合4种方法对区间型面板数据进行回归分析的结果,4种方法的可决系数数值总体上都偏低,但可以看出PM回归效果更好,MinMax、CRM和CM调整后的可决系数数值都比PM小。

此外,表4各评价指标的数值结果也进一步验证PM更适合描述该数据集。观察和对比表4中各评价指标可知,在4种方法中,PM回归效果最好,各评价指标数值在4种方法中最优,其次是MinMax,CRM回归效果位列第3,回归效果最差为CM。从比率评价指标AR和PCO看,PM的数值分别为0.681 855和0.845 461,这说明区间型数据的预测准确率达68.185 5%,观测区间包含预测区间的比率高达84.546 1%,数值远高于CM在AR和PCO这2评价指标中的数值,而CRM和MinMax两者在AR和PCO上的数值则较接近。从误差评价指标RMSEL、RMSEU、MMER看,PM的预测误差最小,且数值分别为0.237 087、0.105 565、0.031 049,远低于CM计算的数值。

表4 4种区间型数据回归模型的效果比较

进一步观察表3中PM回归结果,发现各区间型变量的上下限值在回归方程中显著性不同。PM计算被解释变量的区间下限值与各解释变量关系的回归方程中,有5个解释变量是显著的,即我国8大产粮省份单位面积粮食产量的下限值与有效灌溉面积的下限值、单位面积化肥折纯量的下限值、年总降水量的下限值、农业机械总动力的上限值、年平均温度的上限值相关。同样地,PM计算被解释变量的区间上限值与各解释变量关系的回归方程中,只有4个解释变量是显著的,分别为有效灌溉面积的下限值、年平均温度的下限值、年总降水量的下限值、单位面积化肥折纯量的上限值。

通过PM计算的回归结果可见,温度高低对单位面积粮食产量的影响是不同的。由单位面积粮食产量的下限值回归方程可知最高温度的回归系数为0.973 05;由单位面积粮食产量的上限值回归方程可知最低温度的回归系数为-0.175 71,两者均通过0.001水平的显著性检验。在其他因素不变条件下,最高温度同比上升1%,单位面积粮食产量的下限值同比上升0.973 05%。同样地,在其他因素不变条件下,最低温度同比上升1%,单位面积粮食产量的上限值同比下降-0.175 71%。最低年总降水量与单位面积粮食产量的区间下限值呈正相关,最低年总降水量与单位面积粮食产量的区间上限值也呈正相关,回归系数分别为0.151 60和0.076 52,分别通过0.01和0.001水平的显著性检验,即在其他因素不变条件下,最低年总降水量同比上升1%,单位面积粮食产量的下限值同比上升0.151 60%,单位面积粮食产量的上限值同比上升0.076 52%。此结果说明降水量对单位面积粮食产量有促进作用,该结论与尹朝静等[1]研究成果一致。由于本文选取的8大产粮省份大多处于北方地区,水资源较缺乏,年总降水量的增加有利于粮食作物生长,从而提高单位面积粮食产量。

此外,根据PM回归结果,在农业生产投入要素方面,大部分农业生产投入要素与单位面积粮食产量呈正相关关系,表明加大农业生产要素投入和建设,有利于单位面积粮食产量提高,即单位面积粮食产量受到单位面积化肥折纯量、农业机械总动力、有效灌溉面积的综合影响,其中有效灌溉面积的回归系数为负,单位面积化肥折纯量和农业机械总动力的回归系数为正。这表明对于我国8大产粮省份而言,单位面积化肥折纯量和农业机械总动力的投入对单位面积粮食产量的增加起正向作用,此结果与黄维等[14]研究结果一致。虽然单位面积化肥折纯量的增加有利于提高单位面积粮食产量,但是其作用效果不是无穷的。按照张福锁等[15]研究结果,我国化肥利用率不高,所以在未来生产过程中不仅要注重化肥的投入,更应注重提高化肥利用率,做到绿色可持续发展。

图2和图3展示了我国8大省份单位面积粮食产量真实值与预测值对比,其中单位面积粮食产量预测值采用PM计算得到。由图2和图3可知真实值和预测值比较接近,整体预测效果较好。

图2 对数化后安徽、四川、河北和河南4省单位面积粮食产量的真实值与预测值对比

图3 对数化后湖北、湖南、吉林和山东4省单位面积粮食产量的真实值与预测值对比

4 结语

本文研究4种区间型数据的计量建模方法及其评价指标,以我国1993—2018年8个省份城市的面板数据为基础展开实证研究,引入5个解释变量,分别为有效灌溉面积、农业机械总动力、单位面积化肥折纯量、年平均温度、年总降水量,探究气候变化和农业生产投入要素对我国粮食产量的影响。首先,从整体上看,单位面积粮食产量有明显的地域差异,部分省份在2009年前单位面积粮食产量变化幅度较大,但是近10年里我国8大产粮省份的单位面积粮食产量趋于稳定,这对稳定我国粮食供应需求,保持我国粮食产业的持续发展起重要作用。其次,本文对比CM、CRM、MinMax、PM这4种方法的回归结果以及在各评价指标的计算结果,得到PM的预测效果最优。同时,本文给出PM的预测值与真实值之间的对比图,表明该模型具有较好的拟合效果,体现出PM方法的有效性,为分析和预测我国粮食产量提供了一种新途径。最后,研究结果表明:最高年平均温度上升有利于提升最低单位面积粮食产量,而最低年平均温度上升则对最高单位面积粮食产量的提升起到抑制作用;最低年总降水量的增加对单位面积粮食产量有促进作用;加大单位面积化肥折纯量以及农业机械总动力的投入和建设,有利于单位面积粮食产量的提高。

基于以上结论,为进一步促进我国粮食产量稳定发展,给出下面几点建议:

1)1993—2018年间我国8大产粮省份的气候变化对粮食产量有显著性的影响。政府应进一步加强和完善气候灾害预报预警体系和应急服务系统,提供实时气象情况以及气象预测,为粮农应对灾害天气争取更多准备时间,方便粮农提前做好应对措施,减少气候变化带来的不利影响。

2)农业生产投入要素与单位面积粮食产量多呈正相关关系。在粮食生产过程中,应继续加大和优化农业生产要素投入,加强农业基础设施建设,提高应对气候灾害能力。同时,要进一步改进粮食作物的生产管理技术,降低管理和种植成本,大力推广农业生产机械化。此外,科学合理地增加化肥使用量,注重化肥的有效利用率,改善施肥方式,做到精准施肥,保障粮食的产量和安全。

3)我国国土区域大,地域性特征差异明显,因此,应继续完善和引进适应当地气候和地理环境的粮食作物,调整农业生产结构和布局,做到因地制宜,充分发挥当地粮食生产潜力,实现粮食产量最大化,保障国家粮食安全战略需求。

猜你喜欢
回归系数回归方程限值
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
走进回归分析,让回归方程不再是你高考的绊脚石
多元线性回归的估值漂移及其判定方法
关于废水排放特别限值的思考
电镀与环保(2018年4期)2018-08-20 03:08:10
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
辽宁省辽河流域石油炼制排放限值的制定
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
中美炼钢行业污染物排放限值研究