吐尔逊·买买提,丁为民,Muhammad Hassan
(1.南京农业大学工学院,江苏南京 210031.2.新疆农业大学机械交通学院,乌鲁木齐 830052)
农业机械作为实现现代农业的主要工具,其总动力已成为衡量区域农业机械化发展水平的主要指标。农机总动力发展过程中受到区域经济水平、自然地理环境、农业生产结构、社会发展水平和人口等多个因素的影响,并呈现出非线性和非平稳性特点。因此研究农机总动力趋势及影响因素有重要意义[1]。
刘玉梅等[2]利用计量经济模型,分析了收入水平对农户农机装备水平的影响。杨敏丽等[3]利用三元logistic 模型对农业机械总动力进行预测,并影响因素进行分析。轩俊伟等[4]应用空间分析法和地理加权回归模型对新疆县域农机总动力聚集和影响因素进行分析,获得了农机总动力空间维度上的异质性特点,同时挖掘出新疆不同区域农机总动力主要影响因素。许淑芹[5]基于饱和关联维数法和灰色关联分析对江苏省农机总动力14个影响因素的重要度进行测度,并获得主要的8个影响因素,并依据此结果提出了相关农机化发展建议。何政道等[6]应用自相关时间序列回归分析法,揭示了对农机总动力影响较大的农村剩余劳动力转移率等6个主要因素。吴科樑等[7]应用回归分析法对广东省农机总动力进行预测,并对影响因素进行定量和定性分析。崔红艳等[8]运用多元线性回归模型对吉林省25年农机总动力进行分析,应用每个因素分别降低1%、其余变量不变的情况下对农机总动力变化的影响,将各影响因素对农机总动力的影响进行量化。程准等[9]运用多元回归分析法对农业增加值和农村居民家庭人均纯收与农机总动力之间的关系进行量化。此外,还有学者分析了播种面积顷均农机动力对区域农业机械化发展水平、粮食产量以及农业经济的影响[10-11]。
分析以上文献发现,目前在农机总动力方面的研究还有一定的改进余地:(1)研究内容上主要聚集在农机总动力发展趋势预测和农机总动力影响因素分析方面。而顷均农机总动力的影响因素方面的研究尚未见报道;(2)研究方法方面,以往的研究中,主要应用主观分析、统计分析和一些组合分析等方法。
文章应用神经网络在模式发现以及知识挖掘方面优势,首先基于嵌入式灰色神经网络和MIV方法实现了影响因素量化模型;然后应用该模型定量分析了顷均农业机械总动力影响因素;最后结合实例,分析了模型性能,同时对新疆顷均总动力的影响因素进行定量分析。
该文结合文献[1-11]提出的方法和专家咨询建立了由顷均农业机械总动力(W/hm2)[农机总动力(W)/耕地面积](Y)、耕地均顷GDP(元/hm2)[地区生产总值(元)/地区耕地面积](F1)、农民人均纯收入(元/人)(F2)、机械化农具定基价格指数(MIP)(%)(F3)、农村劳动力转移率(%)[(乡村从业人员-农业从业人员)/乡村从业人员](F4)、农业比较劳动生产率(%)[第一产业增加值/GDP)/(农业劳动力/全部劳动力,即农业增加值在地区GDP的比重与农业劳动力在全部劳动力的比重的比率)](F5)、农民人均受教育程度(年/人)[文盲半文盲比例×1+小学比例×6+初中比例×9+高中比例×12+中专比例×12+大专以上比例×15.5](F6)、劳均土地面积(hm2/人)[耕地面积/农业劳动力](F7)、最大种植面积农作物比重(%)[粮食种植面积/农作物总播种面积](F8)等9个指标组成的顷均总动力及影响因素指标体系。
1.2.1 神经网络模型选择
时间序列发展趋势研究表明,组合预测方法和单一模型预测相比,在有效提取序列的变化趋势、所含的信息量和预测精度方面有较好的优势[12]。理论上可以证明组合预测模型属于非劣性模型,即任何由多个单一模型组成的组合预测模型的预测结果优于其包含的单一模型。
灰色理论与神经网络构成灰色神经网络(Grey neural network,GNN),根据组合的方式和结构,目前可以将灰色神经网络分成串行灰色神经网络(Series grey neural network,SGNN),并行灰色神经网络(parallel grey neural network,PGNN)、嵌入性灰色神经网络(Embed grey neural network,EGNN)[13]等3种类型。
SGNN中,灰色模型的结果作为神经网络输入,从而构成串行结构。PGNN中,除了单一模型精度外,权重也是影响模型精度的重要因素。在组合预测方法中有算数平均组合、几何平均组合和调和平均组合等方法。具体见下面公式。
(1)
(2)
(3)
式(1)~(3)中,n为样本容量大小,k为各预测模型权重。
每一种灰色神经网络有其特点及侧重点,具体使用需要根据研究对象的特征、各子模型的特点、预测序列的趋势灵活选择。EGNN中,首先在神经网络的输入层对输入样本进行灰化,实践中根据样本序列的随机特性强度选择1次或多次累加,从而弱化序列的随机特征,使得神经网络激励函数能够更好的识别其非线性特征。经神经网络处理后在输出层对输出数据白化,还原输出结果。其结构见图1。
图1 嵌入性灰色神经网络
综合比较以上3种方法可以发现,SGNN因其结构简单,单一模型之间的融合程度不高,适合预测变化趋势比较单一、波动幅度不大的时间序列,但对复杂的随机时间序列,预测性能较差。PGNN虽然一定程度上优于SGNN,但因需要额外增加权重计算模块,故很容易受到权重计算算法的影响,增加算法的复杂度。EGNN方法在输入神经元和输出神经元部分引入灰色模型方法,并有效地把灰色模型和BPNN相互嵌入,使得BPNN的拟合复杂曲线函数的特征和灰色模型的弱化序列的随机特性得以有效应用,从而构成了嵌入式组合预测神经网络。该文依据上述分析选取EGNN模型。
1.2.2 基于神经网络的MIV计算过程
平均影响值(Mean impact value,MIV)是由Dombi等提出。在神经网络中用于定量分析输入神经元对输出神经元的影响,MIV绝对值大小代表影响的相对重要性,符号代表其影响方向[14]。基于神经网络的MIV计算过程如下。
(1)将样本集D分为M×N的训练集矩阵S和Mt×Nt测试集矩阵T,其中M和Mt分别为训练样本和测试样本的个数,N和Nt分别为训练集和测试集列数。确定训练集矩阵S的自变量个数(即输入神经元)和因变量个数(即输出神经元)。
(2)初始化网络参数,在训练集S中训练网络,并结合网络在测试集T中的预测精度不断的优化网络参数,从而确定最终神经网络NNET,将由样本集D中所有自变量组成矩阵M。
(3)将自变量矩阵M的某一列值分别加减10%构成两个新的矩阵M1和M2,再将M1、M2分别作为新的仿真输入集,输入到建好的神经网络NNET,并得出网络输出向量V1和V2。
(4)计算输出向量V1和V2之差,获得向量V,其值能反映每个样本的当前自变量(输入神经元)对因变量(输出神经元)的影响程度,即Impact value。
(5)求向量V的均值,得出当前自变量对因变量即神经网络输出的MIV。
(6)重复步骤(3)~(5),分别计算剩余自变量的MIV,最后排序所有自变量MIV,得出各个自变量(输入神经元)对因变量(输出神经元)影响程度以及相对重要性的位次表,从而判断众多输入中对网络影响最大的输入以及影响程度,同时也可以进行变量筛选。
从MIV方法和步骤中可以看出,应用MIV测度输入向量对输出向量(该文中输入向量为F1~F8,Y为输出向量)的影响程度时,具体神经网络算法的选取和数据集的划分(即训练集和测试集的划分规则)对MIV方法的最终结果影响较大。考虑到该文中数据样本较少,在建立EGNN模型时应用前23个样本为训练集,后2个样本为测试集。
该文中将EGNN嵌入式灰色神经网络作为基本模型,将在其输入和输出端增加输入神经元值变化(即输入神经元±10%)和输出神经元值的计算(测度输入神经元±10%后输出变化情况)模块,从而构成EGNN-MIV组合模型。
该文所涉及的农业机械顷均总动力及其影响因素相关的原始数据来自于1990~2014年《新疆统计年鉴》《新疆调查年鉴》。依据1.1建立的指标体系,构建了新疆顷均总动力及影响因素关系数据模型。并根据统计数据源对新疆各年度相关指标值进行计算。1990~2014年各指标值如表1所示。
表1 1990~2014年新疆顷均农业机械总动力影响因素值
年份耕地均顷GDP(元)农民人均纯收入(元)MIP(%)农业劳动力转移率(%)农业比较劳动生产率(%)农民人均受教育程度(年/人)劳均土地面积(hm2/人)最大种植面积农作物比重(%)顷均农业机械总动力(W/hm2) 1990121 65622 45100 007 3242 965 890 8063 481876 06 1991136 77651 69104 407 1837 696 340 7964 272005 54 1992151 29645 99107 858 0232 566 410 7961 632118 20 1993146 95604 50109 797 8432 996 510 7759 472190 26 1994185 04579 02129 779 6131 356 560 7952 422258 15 1995135 06574 18158 7112 0233 586 701 1455 451613 97 1996194 64589 30179 8113 7532 086 790 8058 952490 31 1997217 13661 46186 6517 7232 696 840 8158 192570 57 1998227 16697 96182 7320 0932 906 950 8354 772663 54 1999243 93663 82173 7722 9929 987 040 8551 842769 22 2000287 98747 04169 7829 8530 137 170 9549 482853 61 2001305 48760 77166 5529 1327 267 350 9147 362922 43 2002346 01821 35158 5629 7126 917 390 8849 783105 43 2003413 16926 59154 7529 6631 127 430 8544 143298 74 2004471 19945 09154 6030 0928 897 450 8444 883502 96 2005539 431032 57158 4628 4727 387 780 7851 703603 51 2006577 001116 38165 9128 7724 337 750 8243 993558 28 2007605 861210 96164 2529 3025 247 790 8438 623602 53 2008435 391217 05183 1429 4023 407 921 2541 972560 31 2009443 421322 70170 6930 5125 567 991 2248 203710 32 2010538 891494 74162 6631 3428 898 031 1849 873831 33 2011623 251640 57178 0329 6324 498 291 2645 384354 25 2012644 981739 93181 3829 5723 868 411 3245 454475 86 2013660 061840 98184 6529 7223 368 501 4044 564600 49 2014671 921944 49187 3329 8623 228 611 4844 644749 37
首先基于表1数据建立嵌入式灰色神经网络,并根据模型性能对参数进行优化和调整,进而建立最终EGNN模型,然后将该EGNN模型与MIV方法相结合提出顷均总动力影响因素量化方法。最后将应用该方法定量分析F1~F8对新疆农业机械顷均总动力的影响程度。
2.2.1 EGNN模型
以新疆1990~2012年顷均农机总动力及其影响因素数据为训练集,农业机械顷均总动力(Y)为网络输出,影响因素F1~F8作为输入,应用Matlab2014a实现了嵌入式灰色神经网络预测模型,并分别在迭代次数10~100,隐含层为单层(8~10节点)、双层([6, 6]~[10, 10])、学习精度为0.001,学习速率为0.01以及在不同的节点传递函数状态下,进行建模及预测实验。根据拟合的平均绝对百分误差(Mean Absolute Percent Error,MAPE)、均方误差(Mean square error,MSE)、SSE(Sum of Squares for Error,SSE)等指标选取最佳网络参数,并生成最终的嵌入式灰色神经网络,其预测结果分布见图2。
建立预测模型后,应用不同检验方法其对拟合性能进行检验,如表2所示。
表2 模型拟合性能
MAPE(%)MSESSE9 3771023982366163
图2 EGNN预测结果注:其中最后两组为测试集中的预测结果
用训练集建立模型后,为了检验网络的预测性能,以2013~2014年数据作为测试集,对网络性能进行测试。以2013~2014年F1~F8值为网络输入对2013~2014年顷均总动力进行预测,根据其预测效率进一步确定网络可用与否,以此为据选取最终的预测模型。因该文数据量较少,未考虑迭代次数对网络训练时间的影响。模型在测试集中最佳SSE和拟合优度为813 437、0.876 1,表明预测精度较高。
2.2.2 EGNN-MIV模型
依据2.2提出的方法构建EGNN-MIV模型,测度各影响因素的MIV。因该文中要分析各影响因素对新疆顷均农业机械总动力的影响程度,因此无需将数据集分为训练集和测试集,即应用新疆1990~2014年顷均总动力为网络输出,相应年度F1~F8为网络输入。各影响因素MIV以及其分布情况图3所示。
图3 各影响因素MIV结果
为了便于进一步分析MIV值分布,应用最大最小化方法对F1~F8的MIV进行标准化。结果如表3所示。
表3 MIV标准化值
指标F1F2F3F4F5F6F7F8标准化MIV0 700 390 390 460 200 500 900 74
农机总动力作为复杂的时间序列,其发展受到区域经济水平、农业发展政策、人口结构、农业种植结构、自然地理条件等多个因素的交叉影响。并且随着时间推移,其发展呈现出更多不确定性特征,使得正确预测及分析其演变趋势更加困难。
(1)从EGNN组合预测模型性能方面,模型的拟合MAPE、MSE、SSE分别为9.377、102 398和2 366 163,预测精度较高。同时可以发现当观测值出现较大波动时,拟合值的误差较大,表明EGNN组合预测模型的对时间序列的波动较敏感。同时图2表明, 2010年后的顷均农机总动力预测误差与之前相比有扩大的趋势,可能的原因有二,其一是EGNN组合预测算法中激励函数选取、训练参数选择和训练次数确定等对预测结果的影响较大,因此需要进一步的分析和研究。其二是农机顷均总动力变化趋势以及影响因素随着区域经济、农业生产结构和农业政策的变化发生了较大的变化。从而导致随着时域尺度的变化误差扩大。
(2)表3表明,EGNN-MIV模型的各个输入对模型输出的影响程度不均匀,进一步说明该文提出的方法在定量分析研究对象的输入和输出之间的非线性关联关系方面有较好的应用价值。同时结合农业机械总动力及其发展趋势的实践发现,表3得出的结果较客观地反映了新疆顷均总动力及其影响因素的变化现状。
(3)根据各指标MIV值,对各影响因素对顷均农机总动力变化的影响程度进行定量分析。MIV结果表明:①1990~2014年,新疆顷均农业机械总动力受到该文所确定的所有影响因素的交叉影响,并且影响程度分布不均匀,主要集中在区域自然资源、农业种植结构和区域经济水平等因素有关的指标。②从局部影响因素分析来看,MIV值最大的3个指标分别为劳均土地面积、最大种植面积农作物比重和耕地均顷GDP,同时在数值上显著大于其余的影响因素。说明在研究时域内新疆顷均农机总动力主要受劳均土地面积、最大种植面积农作物比重和耕地均顷GDP的影响。对顷均农机总动力的影响最小的因素为农业比较劳动生产率。
(4)农业机械顷均总动力作为农业生产的主要动力来源,对区域农业机械化水平以及现代农业的发展有较大影响。因此在农业机械化生产、管理和服务当中根据区域农机化发展现状,结合经济发展水平和土地资源结构合理的调整和优化农机总动力的分布,在提高农业机械利用效率和农机化发展水平以及促进现代农业方面具有重要意义。
(1)应用神经网络和灰色模型在拟合非线性函数方面的优势,建立了嵌入式灰色神经网络。并对新疆1990~2014年顷均农机总动力进行预测分析。结果显示,预测模型的SSE和拟合优度为813 437、0.876 1,表明该文提出的方法在农机总动力变化趋势方面有较好的优势。
(2)构建了EGNN-MIV影响因素定量分析模型。并对新疆1990~2014年顷均农机总动力影响因素MIV进行了测度。各影响因素重要度顺序从小到大依次为:劳均土地面积、最大种植面积农作物比重、耕地均顷GDP、农民人均受教育程度、农村劳动力转移率、机械化农具定基价格指数、农民人均纯收入、农业比较劳动生产率。
(3)研究时段内各影响因素MIV值揭示,劳均土地面积等因素对新疆农业机械化水平,尤其是顷均农业机械总动力的影响不容忽视。因此,优化劳均土地面积水平、农作物种植结构以及提高耕地顷均GDP水平是提高新疆顷均农机总动力以及进一步促进新疆农业机械化发展的关键。
(4)该文为农业机械总动力以及类似时间序列影响因素的定量分析方面提供了有效和可行的方法和步骤。
[1] 鞠金艳, 赵林,王金峰.农机总动力增长波动影响因素分析.农业工程学报, 2016, 32(2): 84~91
[2] 刘玉梅, 田志宏.农户收入水平对农机装备需求的影响分析——以河北省和山东省为例.中国农村经济, 2009,(12): 44~55
[3] 颜廷武, 李凌超,王瑞雪.现代化进程中农业装备水平影响因素分析.农业技术经济, 2010,(12): 38~43
[4] 轩俊伟, 郑江华.基于GWR的新疆农机总动力空间异质性分析.农机化研究, 2016, 38(5):36~42
[5] 许淑芹, 周桂霞,于海明,等.农机总动力影响因素的灰色关联分析——基于G-P算法.农机化研究, 2016,38(12):56~60,65
[6] 何政道, 何瑞银.农业机械总动力及其影响因素的时间序列分析——以江苏省为例.中国农机化学报, 2010,(1): 20~24
[7] 吴科樑. 关于广东省农机总动力需求发展预测的探讨.预测, 1988,(3): 49~51
[8] 崔红艳. 吉林省农业机械总动力及其影响因素分析.农机化研究, 2015,37(12): 43~48
[9] 程准. 农用机械总动力影响因素分析.农村经济与科技, 2013, 24(6): 186~186
[10]吐尔逊·买买提, 谢建华.新疆农业机械化发展水平区划时空格局.中国农业资源与区划, 2017,38(2): 81~88
[11]万三敏. 河南粮食总产及农业经济发展关键因素分析——基于面板数据分析.中国农业资源与区划, 2014,35(3): 78~84
[12]吐尔逊·买买提, 丁为民,谢建华.时间序列组合预测模型研究:以农业机械总动力为例.南京农业大学学报, 2016,39(4): 688~695
[13]陈淑燕, 王炜.交通量的灰色神经网络预测方法.东南大学学报:自然科学版, 2004, 34(4): 541~544
[14]Jiang J L,Su X,Zhang H,et al.A novel approach to active compounds identification based on support vector regression model and mean impact value.Chemical Biology & Drug Design, 2013, 81(5): 650~657