基于众数回归模型的农村居民收入影响因素研究

2020-07-23 07:07童婉迪
现代营销·学苑版 2020年6期

童婉迪

摘要:农村居民收入影响因素的研究往往采用均值和分位数回归方法,众数回归是一种新的刻画因变量与自变量之间的关系的回归模型,是均值回归和分位数回归模型的重要补充。本文将众数回归方法应用到农村居民收入研究中,用EM算法求解估计量,并采用Bootstrap方法给出了回归系数的估计的置信区间。并基于分析结果,给出提高农村居民收入水平相应的建议。

关键词:农村居民收入;EM算法;众数回归模型

一、引言

2020年是脱贫攻坚工作的收官之年,农村居民收入的问题至关重要,这关系到我们能否巩固来之不易的脱贫成果。目前围绕农民收入问题,已经有许多学者做了大量的调查研究,形成了一批研究成果。王春超(2004)先从微观的角度分别对农民收入和非农生产活动的影响因素进行实证分析,再从宏观角度分析,得出结论农民合理的投资行为、农民受教育程度和技能培训可以提高农民的收入。蔡昉、王德文(2005)分析了80-90年代以来我国经济变化的格局,指出非农收入占农民收入的比重正在逐年增加,所以要提高农民收入可以从提高农民的非农收入的角度人手。张艳华、李秉龙(2006)从人力资本的角度,选取了几个人力资本方面的因素,研究對农民非农收入的影响,结果表明教育、培训、专业技能、经验等人力资本变量不仅可以增加农民非农的就业机会,而且可以显著提高农民的非农收入。辛岭、王艳华(2007)采用双对数模型,对农民受教育水平与农民收入进行格兰杰因果检验,并进一步进行了协整检验,结果证明农民受教育水平对农民收入有长期影响,提高农民受教育水平的确可以提高农民收入。陈珍珍、游家兴(2009)使用了分位数回归模型对农民收入的不同水平进行了全面的因素分析,结果表示农民受教育程度对农民收入是正向影响,并且提出自主营业会提高农民收入。张占贞、王兆君(2010)选取了与农民工工资性收入具有强相关关系的因素,进行主成分分析得到农民文化程度、城镇化率、农村剩余劳动力转移率、农民人均交通和通讯支出比重这几个因素的变化对农民工工资性收入有很大促进作用,农村人均固定资产投资额和财政支农支出额对农民人均工资性收入有微弱促进作用。

大多数学者在研究影响农民收入因素问题的时候多采用均值回归,该模型能从总体上概括地解释年龄、受教育水平、性别和工作单位的经济性质对农民工收入的影响程度。但无法深入、细致地揭示各个因素在不同的区间对农民收入的影响程度,结论过于笼统。且均值回归常假定误差项服从正态分布,而实际应用中的调查数据往往不能满足,系数估计值容易受到极端值的影响,所以用均值回归来研究农民收入问题有一定的局限性。众数回归模型无需对误差项进行假定,因而具有很强的鲁棒性。根据众数回归模型的特性,可以准确描述占最大比例的人群收入的影响因素,所以依据众数回归模型制定增加农村居民收入的政策可以使占最大比例的人群受益。目前很少有学者利用众数回归模型对农民收入问题进行研究,本文利用基于广义线性的众数回归模型进行分析,并用EM算法求解,然后将回归结果与均值回归和中位数回归进行比较分析,综合分析后得出相应的政策建议。

二、数据说明

2018年中国综合社会调查数据(CGSS)包括全国31个省、市、自治区被访者的年龄、教育年限、性别及2017年全年职业收入等信息。本文从这些数据中选取五个对农村居民收入较为重要的影响因素变量,分别是:教育年限、性别、健康状况、家庭人口数以及地区。根据研究需要,本文事先对数据进行了预处理,去掉了上学、参军、丧失劳动能力以及收入为0的样本,最终选取的样本包括18岁-65岁的农村居民共8680人。并将地区变量按照全国经济地带划分为三个地区:东部、中部和西部,其中中西部为参照组。

三、模型设定

(一)经典众数回归模型简介

众数回归与传统的均值和中位数回归方法不同,它使用条件众数来表示条件分布的中心。在下列两种情况下比均值和中位数回归更合理:一是在噪声服从有偏分布或重尾分布,此时均值和中位数并不能很好地表示分布的中心;二是样本中包含离群点。传统的回归模型中,通常假定噪声服从正态分布,而在实际应用中,这些假定难以全部成立,因而众数回归方法是完善回归分析非常重要的工具类型。

为众数回归函数。众数回归具有下列良好的特征:众数回归用“最有可能”的条件值一众数(而不是均值或者中位数)来度量分布的中心;因此众数回归对离群点不敏感,具有良好的鲁棒性。

其中K为核函数,h为带宽参数,回归系数β=(β0β1)T。关于系数向量B各个分量的渐进理论,目前还没有成熟的结果。我们根据Bootstrap方法重复抽取500次,根据系数向量估计值计算各个分量2.5%和97.5%的分位数作为各分量置信水平为95%的置信区间下限和上限,如果置信区间包含0,那么在5%的显著性水平下不显著,反之则显著。

(二)模型的构建

基于描述性统计及各变量的预处理,本文构建广义线性模型如下:

其中,Y,Edu,Gender,health。add,number分别表示因变量收入以及教育年限、性别、健康、地区和家庭人口规模这五个影响收入的变量。

根据交叉验证结果,取参数h= 0.7,得到众数回归系数向量。按照众数回归EM算法步骤抽取500次,其中,均值回归、中位数回归、众数回归模型的估计结果及其显著性见下表,其中系数向量估计值各分量95%的置信区间上、下限由500个估计值97.5%和2.5%的分位数计算得到,回归结果如下表所示。

四、结果分析

上述的结果表明这五项指标的系数估计值在三种回归中均为正,说明各项指标系数的增加均能提高农村居民收入。其中,众数回归中,教育年限和性别系数估计值与均值回归和中位数回归结果差异较大。下文分析回归结果中的每个指标:

1.教育年限:对于均值回归、中位数回归、众数回归,式(2)中β2的含义分别为:对于相同教育程度的农村居民而言,在其他变量保持不变的条件下,教育年限每增加1年,收入的条件均值、条件中位数、条件众数分别增加100β2%。观察表2结果,三种回归的教育系数估计值均显著为正,所以增加受教育年限肯定可以提高收入,而这其中众数回归的系数估计值最高,说明对于占最大比例入群的农村居民来说,教育收益率最高。所以,应当继续保障农村义务教育顺利实施,发展乡村学前教育,对于因为学费问题而无法负担高中阶段教育的家庭给予补助,鼓励建设乡村教师队伍,为农村教育继续引进更多优质师源,为农村教育提供更多免费的资源。推广农民技能培训。