残疾人收入贫困的测算及其影响因素研究①
——基于Lasso-logistic模型

2020-03-26 09:37宦颖洁
市场周刊 2020年2期
关键词:残疾人变量模型

宦颖洁

一、引言

残疾人作为社会群体中的一员,由于身心发展的某些缺陷等,参与社会生活面临着一些困难和障碍,导致其贫困的风险加大,贫困人口占比相对较高,实现残疾人精准脱贫是打赢精准脱贫攻坚战、全面建成小康社会的关键。我国残疾人扶贫开发取得阶段性成效,习近平主席提出“精准扶贫”是今后扶贫的最主要方向。目前“精准扶贫”尚处于探索阶段,亟须相关理论与实证研究的指导。因此,充分认识残疾人贫困状况,并开展对影响残疾人贫困因素的研究,是帮助残疾人尽快脱贫,实现贫困残疾人的可持续精准扶贫的关键。

由已有文献可知,国内学者也十分关注对残疾人贫困影响因素的研究。万海远等采用Probit、工具变量与分位数回归等方法,研究了贫困残疾人性别、受教育程度、家庭常住人口、参加农村合作养老保险情况、所在地区等因素对残疾人收入的影响。廖娟从多维贫困的角度分析,发现教育、医保、卫生设施、就业是导致残疾人多维贫困的主要因素,并使用Logistic模型检验因素的显著性。本研究也主要从以上方面研究影响残疾人贫困的影响因素,但对于因素的划分更为细致,以期向更精准的扶贫靠拢。在个体特征的基础上加入残疾类型、残疾等级等指标;在社会特征中加入托养、康复、文化体育等指标;在环境特征中加入社区服务等指标。此外,采用Lasso-logistic模型,可缓解由变量间的多重共线性导致的部分变量不显著问题,提高模型的解释性和预测准确性。

二、数据描述

(一)数据来源及其处理

数据来源于某地区2017年全国残疾人基本服务状况与需求信息动态更新调查,共计1998个残疾人样本。以年龄在16~60 岁的残疾人为研究对象,得到最终样本1164 个。

(二)收入贫困测算

收入贫困测算是传统的贫困发生率测算方法,即用国家统计局公布的贫困线作为是否贫困的界限,年收入处于贫困线以上的设定为非贫困人口,处于贫困线以下的即为贫困人口。调查数据中城镇家庭收入状况部分为:①低于低保标准;②低于低收入标准或低保边缘标准;③其他。农村家庭收入状况部分为:①国家建档立卡贫困人口;②其他贫困人口;③其他。本研究以①和②为贫困线标准测定该地区的收入贫困发生率,同时分别对城镇地区和农村地区进行测算,如表1所示。

表1收入贫困发生率(%)

(三)变量描述

影响残疾人贫困的因素是多方面的,本研究结合相关文献,从残疾人基本个体特征、社会特征和环境特征三个维度,选取23个影响因素作为自变量。具体变量解释及赋值如表2所示。

表2 变量选择及赋值

续表

三、实证分析

(一)Lasso-logistic回归模型

Lasso 方法是Tibshirani在Breiman 的Non -negative Garrote 法基础上提出的,它的特点是在拟合模型的同时进行变量筛选和参数估计,由于所使用的调节参数能连续变化,因而变量选择更稳定;允许尽可能多地选取自变量,排除因先入为主而遗漏的变量,同时还剔除变量之间的线性关系,减小了偏差,最后将对因变量不具有显著影响的变量系数压缩为零,以此来实现对变量的选择。因此,为了获取解释能力较强的模型,使用Logistic模型下的Lasso方法。

假设有一组独立同分布的观测值(Xi,yi),i=1,2,…,n,其中Xi=(xi1,xi2,…,xip)和yi分别为自变量和因变量的观测值,且yi为二元离散型因变量。其Logistic回归模型可定义为式(1)。

则Lasso-Logistic模型的回归参数估计可表示为式(2)。

其中,λ表示调节参数。采用广义交叉验证法选取最优的λ值,防止模型过于复杂而引起的过拟合。广义交叉验证的GCV统计量为式(3)所示。

其中,p(λ)=tr{X(XTX+λ(diag(β^1,…,β^p))-1)-1则使GCV 达到最小时的λ为最优的λ值,其估计值为式(4)所示。

根据Tibshirani的取值经验,选取使得模型误差最小的λ值所对应的回归系数,给出残疾人陷入收入贫困的影响因素,其参数β的估计值见表3。

(二)模型的建立

1.变量选择

基于R 软件建立Lasso-logistic模型,通过广义交叉验证,得到模型的log(λ)与变量个数走势图如图3所示。图3的横坐标为log(λ)值,纵坐标反映了模型误差的变化情况,最上方给出了与log(λ)值相对应的选择出来变量的数目,图中左侧虚线表示模型误差最小时的log(λ)值,其对应显著变量个数为29,右侧虚线表示模型最简单时的λ值。模型的系数解路径图如图4 所示,横坐标代表了log(λ)值的变化,纵坐标是各变量的系数,显示了变量筛选过程。随着λ值变大,有的变量系数被压缩为零,模型选择的自变量个数减少。因此,不同于传统AIC、BIC等选择变量的方法,Lasso 方法选择变量是一个连续、有序的过程,降低了模型的预测误差。

图1 log(λ)与变量数走势

图2模型系数解路径

2.模型估计

表3回归结果

个体特征方面,由于30~45岁的残疾人面临家庭生活的压力,因此更加容易陷入贫困;45 ~60岁的残疾人由于丧失一定的劳动能力,在劳动力市场中不具有竞争优势,因此也易于陷入贫困;由于男性面临着养家糊口的压力,因此相对于女性来说,更加陷于贫困;已婚有配偶的残疾人在62.5%的程度上更加不容易陷入贫困,这可能与配偶的家庭支持相关,丧偶和离异的残疾人由于生活和精神的双重压力,陷入贫困的概率分别为16.9%和21.4%;受教育程度每增加一个单位,贫困的概率就减少19.7%;精神残疾相对于多重残疾来说,在36.2%的程度上影响了贫困程度。另外,残疾等级和就业与贫困呈反向关系。

社会特征方面,残疾人参加医疗保险中贫困的概率所占比重最高,其次是医疗保险补贴,说明医疗保险在一定程度上起到了缓解残疾人“看病贵”的现象;养老保险补贴对于老年残疾人的生活起到了一定的生活保障作用;提供的文化体育服务越多,越易于陷入贫困,这可能与残疾人本身的知识文化素养有关;而残疾人越没有家庭方面的保障,越需要在养老保险中投入,因而保险在生活支出所占的比重比较大,也容易陷入贫困;残疾人参加的托养服务比例每增加一个单位,贫困的概率就减少28.4%。

环境特征方面,其中户口类别、是否有体育健身指导人员与贫困呈现正向关系。由于户口在农村,残疾人可以获得农作物方面的收入,相对来说的贫困线也较城市为低;而户口为非农业的残疾人生活成本更高,更易于陷入贫困。不住在敬老院的残疾人更易陷入贫困,这可能是由于不住在敬老院缺乏一定生活保障,缺乏家庭的物质支撑。另外,没有住房的残疾人陷入贫困的概率是其他残疾人的0.808 倍,说明有房产给了残疾人一定的保障,且不需要租房等额外支出。

3.稳健性检验

为了评估模型的准确性,考虑通过评估所建模型的预测能力来间接验证模型的有效性,测试Lasso-Logistic回归所建模型的预测准确率。选取样本数据的2/3为用于建模的训练集,余下的数据为用于评估模型的测试集,通过R 软件计算测试集ROC曲线下的面积,即AUC 值,衡量模型的准确率。表4给出了对样本数据进行100 次随机取样后计算所得训练集和测试集的AUC均值及其均值检验(mu >0.5)的P值。表4的计算结果表明:无论在训练集还是在测试集中,模型的预测准确率均高达75%以上,具有很强的解释能力。且模型在进行100 次随机取样后测试集的AUC均值仍大于0.5,说明随着样本的变化,模型能保持一个比较一致、稳定的解释,具有稳健性。

表4模型预测准确率(%)

四、政策建议

从上述研究结论看,未来政府的扶贫政策应更多地瞄准残疾人群体,尤其是残疾人群体,并且对贫困残疾人实行精准扶贫的对策。

第一,教育和就业限制了残疾人群体的收入能力,因此要从根本上改变残疾人的贫困状况,还需要从提升他们的能力方面着手,改变其人力资本积累状况,提升就业能力,这样才能有效消除残疾人的“收入障碍”,改变贫困现状。一方面,加大农村特殊教育和贫困残疾人家庭教育救助力度,消除贫困代际传递。另一方面,千方百计促进有就业条件的农村贫困残疾人就业增收,确保稳定脱贫,各级财政扶贫资金投入的产业扶贫项目要将贫困残疾人或残疾人家庭纳入其中。

第二,从残疾人基本生活、养老、医疗和住房方面来说,提高已纳入最低生活保障制度残疾人的最低生活保障金标准,对依靠家庭供养的成年无业重度残疾人全部纳入最低生活保障制度。为贫困残疾人按照不低于城乡基本养老保险第二档的标准代缴城乡居民基本养老保险个人参保费并提高养老待遇;制定残疾人医疗保险报销专项目录和贫困残疾人医疗救助专项目录;对自筹资金困难的贫困残疾人危房户和无房户的基本住房给予兜底保障,对农村贫困残疾人无房户实施基本住房保障交钥匙工程;加快建立贫困残疾人生活补贴和重度残疾人护理补贴制度。

第三,环境卫生、健康对贫困有重要影响,但是普惠性公共服务性政策对缓解低收入残疾人的贫困作用有限。对于极端弱势群体,应有针对性地采用瞄准式、救助式保护扶贫政策。很多残疾人因为参与政策的“门槛”过高而被排斥在项目之外。政策的实施和残疾人的选择机制,实际上产生出一种对绝对贫困残疾人的排挤效应,导致绝对贫困残疾人难以享受到扶贫政策带来的优惠。

猜你喜欢
残疾人变量模型
适用于BDS-3 PPP的随机模型
自制空间站模型
聚焦双变量“存在性或任意性”问题
模型小览(二)
我骄傲
离散型随机变量分布列的两法则和三模型
分离变量法:常见的通性通法
不可忽视变量的离散与连续
变中抓“不变量”等7则