王海青,吕晓安
(1.河北民族师范学院数学与计算机系,河北 承德 067000;2.河北民族师范学院化学系,河北 承德 067000)
基于分位数回归方法的农业产出影响因素分析
王海青1,吕晓安2
(1.河北民族师范学院数学与计算机系,河北 承德 067000;2.河北民族师范学院化学系,河北 承德 067000)
采用分位数回归的方法,对农业产出的影响因素进行实证分析,揭示造成不同农业产出水平的客观影响因素。与最小二乘回归结果进行对比,从而得到更全面的信息,为提高国内农业产出水平提供实证依据。
分位数回归;农业产出;最小二乘回归
农业是国民经济的基础,在经济迅速发展的背景下,农业发展面临着新的挑战。自2004年以来政府一直聚焦“三农”问题,国家也于近日发布了《关于加大改革创新力度加快农业现代化建设的若干意见》,农业发展问题意义之重大不言而喻。
近年来很多学者对农业产出问题进行了研究。罗红旗(2007)利用关联度分析方法对1995-2004年的统计数据进行分析,探究农业机械投入、劳动力投入、物质消耗、土地面积投入等要素对农业产出的影响[1];吕开宇(2008)调查了环境变化对农业产出的影响[2];刘涵(2008)基于1980-2006年数据,利用多元协整方程对国内财政支农支出与农业产出的关系进行了分析[3];董梅生(2009)采用偏最小二乘回归法,利用1985-2006年关于中国农业投入与产出的相关数据对中国农业投入和产出的关系进行了研究[4];付洪良(2010)运用固定效应模型对浙江11个地市的数据进行实证,讨论浙江省固定资产投资对农业产出的影响[5];张本飞(2010)认为教育可以提高人力资本,根据1978-2008年的相关数据分析人力资本对农业产出的影响,进而研究教育投资与农业增长之间的关系[6];王向楠(2011)利用2005-2009年中国307个地级单位的数据发现农业贷款、农业保险的发展均显著促进了中国农业产出的增加[7];陈锡文(2011)以农业技术水平、农业劳动投入、农业资本投入为影响因素,采用最小二乘拟合回归方法对农业产出进行估计,同时对农业劳动投入的影响因素进行深入研究,发现农村人口老龄化对农业劳动投入具有较大负作用,从而推断出农村人口老龄化对农业产出的影响[8];朱铁辉(2012)基于2000-2009年山东17个地市的面板数据建立模型,对影响山东省农业产出的政策因素、气候因素和投入要素等变量对农业产出增长的贡献率进行实证分析[9]。本文参考陈锡文(2011)的研究成果,通过分位数回归的方法对农业产出的影响因素进行分析。
在线性回归模型中,最小二乘回归估计量的计算是基于最小化残差平方和,该方法操作简便,在研究领域中都有大量的应用。但是在实际应用中也发现了一些问题[10],首先,由于实际数据一般很难满足同方差的假设,从而造成最小二乘估计不再具有最小方差的特点;其次,在社会科学研究中数据随机误差项的正态性也很难保证,因此,造成基于正态假设的各种假设检验失效;再次,由于最小二乘只是基于均值给出的一条线性回归直线,当实际数据中存在一些异常值或缺失值时,可以发现最小二乘回归并不能很好地同时体现其他数据和一些离群点数据的信息。
Koenker和Bassett(1978)提出了分位数回归估计方法,该估计是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值离差估计。它和最小二乘估计的主要区别在于回归系数的估计方法和其渐近分布的估计。分位数回归更加全面地描述因变量分布不同位置对自变量分布造成的不同影响,提供更加丰富的信息。另外,分位数回归估计与最小二乘估计相比,分位数回归的系数对离群值表现的更加稳健,而且,分位数回归对误差项没有很强的假设要求,因此,对于非正态分布而言,该方法在实际中应用更为广泛。
下面介绍分位数回归方法。设X为随机变量,分布函数为F(x)=P(X≤x),则X的θ分位数表达式为F-1(θ)=inf{x∶F(x)≥θ},其中0<θ<1,当θ=0.5时即为中位数。在分位数回归模型中,定义损失函数为:
因此损失函数也可写成如下形式:
若给定的样本观察值(xi1,xi2,…,xik,yi),i=1,2,…,n,记xi=(xi1,xi2,…,xik)T,Θ为参数空间,对于线性回归模型yi=xiTβ+εi,最小二乘回归的参数估计值为:
即最小二乘回归的损失函数ρ(u)=u2;分位数回归的参数估计值可表示为:
分位回归方程的求解较为复杂,目前主要应用的求解方法有单纯形法、内点法和平滑算法等。
由于农业产出一般有总产值和增加值之分,为了更合理地反映农业实际产出,文中以第一产业增加值来度量农业产出,同时以1985年为基期生成的第一产业增加值指数来剔除价格变动的影响,实现数据的标准化。考虑到数据获取的限制,认为农业产出值主要受3个变量因素的影响。
第一个变量是农业技术水平。以农业从业人员的人均产值表示农业技术水平,而农业从业人员人均产值可由农林牧渔业总产值除以第一产业实际就业人数来进行计算。
第二个变量是农业劳动投入。用农业劳动投入数量值度量农业劳动投入的大小,考虑到20世纪90年代以后农业劳动者跨地区就业的情况日趋普遍,因此使用第一产业年末从业人员数量代替“农村劳动力”来度量农业劳动力数量更为恰当。
第三个变量是农业资本投入。一般用农业资本存量数据来表示农业资本投入的多少。对于农业资本存量的估算,采用农村生产性固定资产原值与固定资产投资缩减指数相乘来计算。
以上数据可从《中国统计年鉴》、《中国固定资产投资统计年鉴》和《中国教育统计年鉴》中整理计算,本文采用陈锡文(2011)的方法测算了1985-2013年的数据。为避免计量单位不同造成的影响,对上述3个变量进行标准化处理,即以1985年为基期生成各变量的指数。
本文使用R软件,采用分位数回归和最小二乘回归两种方法对影响农业产出的因素进行研究,通过估计结果显著性的大小找出具有重要影响的变量。为了更好地说明结果,表1列出了5%、25%、50%、75%和95%处的分位数回归方程中各变量的系数,同时将最小二乘回归的估计结果列出进行对比。由于结果中的截距并不是农业产出的影响因素,所以不在表1列出。
表1 农业产出影响因素分位数回归与最小二乘回归结果
注:分位回归结果(前5列)括号内数字为采用bootstrap方法得到的估计标准误,最小二乘回归结果(第6列)括号内数据为假定误差项服从正态分布得到的标准误,“***”、“**”和“*”分别表示对应系数在0.001、0.01和0.05的水平上显著。
表1可以看出不同水平下的变量对农业产出的影响。通过对比分位数回归和最小二乘回归的结果,可以发现“农业技术水平”是唯一在5处分位数回归和最小二乘回归中均显著的变量,说明“农业技术水平”对于所有不同水平的农业产出都有重要的影响。
“农业劳动投入”和“农业资本投入”均是最小二乘回归中的显著变量,但在5处分位数回归结果中,“农业劳动投入”的显著性逐渐降低,其中50%分位点代表了农业产出的平均水平,由此看出“农业劳动投入”在农业产出中等水平及以下时有重要影响,而在农业产出水平越来越高时,该变量对农业产出的影响逐渐变小。“农业资本投入”因素却恰好相反,该变量在50%、75%和95%的分位点处变得显著,虽然显著性等级一样,但是其系数值却越来越大,说明其影响越来越高。综合衡量,认为这是因为在20世纪90年代国内农业生产主要是依赖农民劳作,而随着科技发展和农民文化水平的提高,机械化生产逐步占据主导地位,成为农业生产的主力军。农作物综合机械化水平的逐步提高及农业设施及农产品加工机械化的协调推进,使得机械化对增加农业产出的影响会越来越大,而人力劳动投入的影响会越来越小。
对“农业劳动投入”的影响因素进行分析,由表2可知,“农村人口老龄化”及“农村劳动力转移情况”对农业劳动投入均具有负作用。“乡村总人口水平”、“城镇化水平”和“农村劳动力转移情况”在分位数回归和最小二乘回归中,3个变量都十分显著。“农村人口老龄化”在最小二乘回归中是显著变量,但分位数回归中只在5%、25%处是显著变量。由此看出,在农业劳动投入水平很低的情况下,即农业投入的劳动量很少时农村人口老龄化会产生重要的影响,反之,当农业劳动量很高时,由于劳动力充足,农村人口老龄化不会对农业劳动投入产生太大影响。由此看出当出现人口老龄化时对农业产出会起到负作用。
本文使用分位数回归方法对农业产出的影响因素进行分析,同时与最小二乘回归估计方法进行对比。在比较的过程中发现某些变量在最小二乘回归结果中具有显著影响,但在分位数回归分析中并非在每个分位点处都具有显著性,这是因为最小二乘回归度量的是平均意义上有影响的重要因素,说明最小二乘回归方法考虑的是全局的作用,而忽略了对于局部相对重要的影响,这也是最小二乘回归方法的局限之一。
表2 农业劳动投入影响因素分位数回归与最小二乘回归结果
注:分位回归结果(前5列)括号内数字为采用bootstrap方法得到的估计标准误,最小二乘回归结果(第6列)括号内数据为假定误差项服从正态分布得到的标准误,“***”、“**”和“*”分别表示对应系数在0.001、0.01和0.05的水平上显著。
由分析结果可知,中国农业发展迅速,而近几年农业人口老龄化水平和农村劳动力转移率逐年增加,在此前提下若要保持农业生产水平稳定增长,就必须提高农业科技水平、加大农业资本和其他投入,减少劳动投入对农业产出产生负作用,从而实现提高农业产出和增加农民收入的目的。
[1]罗红旗,黄其鸿.基于关联度分析的农业机械化对农业产出的影响研究[J].北京工商大学学报:自然科学版,2007,25(06):16-18.
[2]吕开宇,许健民,娄博杰.环境变化对农业产出的影响[J].中国农村经济,2008,(04):63-72.
[3]刘涵.财政支农支出对农业经济增长影响的实证分析[J].农业经济问题,2008,(10):30-35.
[4]董梅生.中国农业投入和产出的关系——基于偏最小二乘回归法的分析[J].技术经济,2009,(01):37-41.
[5]付洪良.固定资产投资对浙江农业产出影响的实证[J].技术经济与管理研究,2010,(04):123-126.
[6]张本飞.中国教育投入与农业增长的格兰杰因果关系分析[J].中国人口、资源与环境,2010,20(12):117-127.
[7]王向楠.农业贷款、农业保险对农业产出的影响——来自2004-2009年中国地级单位的证据[J].中国农村经济,2011,(10):44-51.
[8]陈锡文,陈昱阳,张建军.中国农村人口老龄化对农业产出影响的量化研究[J].中国人口科学,2011,(02):39-46.
[9]朱铁辉,茹蕾,陈永福.气候变化、财政支农支出与农业产出——基于山东省17地市面板数据的实证分析[J].山东社会科学,2012,(02):140-144.
[10]李泽昱,苏宇楠,田茂再.基于分位回归的国家形象影响因素分析[J].统计研究,2014,31(08):59-65.
[责任编辑:王荣荣 英文编辑:刘彦哲]
Influencing Factors of Agricultural Production Based on Quantile Regression
WANG Hai-qing1,LV Xiao-an2
(1.Mathematics and Computer Department,Hebei Normal University for Nationalities,Chengde,Hebei 067000,China; 2.Chemistry Department,Hebei Normal University for Nationalities,Chengde,Hebei 067000,China)
This paper used quantile regression model to empirically detect the factors of agricultural production with different levels of outputs,Then it compared the result with OLS regression and got more comprehensive conclusion,which provides empirical basis to improve Chinese agricultural production.
quantile regression;agricultural production;OLS regression
王海青(1986-),女,河北承德人,河北民族师范学院教学与计算机系教师,硕士。
F 224∶F 323
A
10.3969/j.issn.1673-1492.2015.04.013
来稿日期:2015-03-26