刘桂红,陈 皓,管 强,范洺源
(三明学院,福建 三明 365004)
随着经济的发展,我国居民对自身养老、医疗等社会保障方面产生了更多需求,对政府而言是新的挑战[1]。在发达国家,保险行业一直作为保障民生的重要方式之一,同时在促进经济发展、维护社会稳定、保障居民生活质量方面受到人们的广泛认可。我国养老保障体系是由政府主管的社会基本养老保险、企业提供的退休养老福利与保险公司提供的商业养老保险组成。政府主管的社会基本养老保险是相关立法机构通过制定相关法律法规,为了全体中国居民能够在达到一定年龄后有一定的生活保障,强制性要求全体居民参与的保险。企业提供的退休养老福利是在市场上部分业绩突出的公司为其员工额外提供的福利。保险公司提供的商业养老保险是由居民根据其自身的生活条件与对未来的期望自愿购买的保险,能够在一定程度上满足居民对高质量的养老水平的期待,但同时也要在合同规定的时间内付出一定的费用作为交换。
目前我国所面临的人口老龄化的压力不断加剧,而绝大部分居民仍主要以基本养老保险作为养老保障。政府限于财力基础,并不能完全提供高水平的养老方式来确保老年人的生活质量[2]。社会养老负担已成为我国不可忽视的严重问题,为此如何缓解此问题已迫在眉睫。商业养老保险能够弥补个人消费的不理性,适度减缓消费短视,为年老时做好未雨绸缪的准备,是社会基本养老保险的重要补充。尽管目前我国对养老保险的需求空间不断增长,且国家出台相关政策促进保险行业的发展,但在中国家庭中的商业养老保险实际拥有率并不高。这与我国居民对商业养老保险认识不足,没有正确认识到保险的积极作用有一定关系。因此了解哪些因素影响人们购买商业养老保险非常重要。
已有的研究文献中,关于寿险和基本养老保险影响因素的研究相对较为丰富。穆怀中等[3]从居民特点与相关政策方面对彰武县农民参加新农保的相关影响因素进行分析。夏梦[4]通过发放问卷收集湖北省居民对参与社会养老保险的相关数据,发现最重要的影响因素为居民的教育背景与家庭的经济水平。李红芝[5]收集了武汉城镇居民的相关样本数据,得出其教育程度、年纪、经济状况等对是否持有基本养老保险有显著的影响。王武林[1]通过相关调查分析,发现我国老年人养老意愿发生变化,主要受到性别、年龄、城乡等相关因素影响,相比较以前更加希望通过社会养老保险养老,对子女养老的依赖程度降低。张晓宇[6]选取经济发展水平、老年人口抚养比、政府在社会保障和就业方面的公共财政支出、物价水平、城市化水平五个指标作为社会保险影响因素,对各区域社会保险影响因素进行实证比较研究。都闪闪[7]针对城乡居民社会养老保险制度实施中存在的参保居民缴费水平低的问题,基于河南省某地级市近500户居民的入户调研数据,利用Logistic回归模型对城乡居民基本养老保险参保缴费的影响因素进行了实证分析。王鑫鑫等[8]利用2017年中国乡城人口流动调查数据,实证分析了家庭养育负担对流动人口中面临养老和育儿双重压力的"三明治阶层"养老保险支付意愿和参保行为的影响,并探究了造成两者悖离的因素。段小萍等[9]研究表明我国城乡居民养老保险的财务可持续性较低且存在区域差异。
随着商业养老保险的发展,近年来关于商业养老保险的影响因素分析研究成为热点。陈其芳[10]运用Probit模型对农村居民购买商业养老保险意愿的影响因素进行实证分析,结果表明:目前我国有超半数以上的农村居民不愿意购买商业养老保险。张强等[11]使用中国综合社会调查项目2013年的调查数据,发现教育程度、个体所处的经济发展水平环境等都能够对商业养老保险参保行为产生显著影响,但是在选取影响变量时,是主观的先选定,这会导致部分重要影响变量漏掉。商航[12]根据中信保诚保险公司数据分析,得出对商业养老保险参保影响明显的因素包括:健康、收入、对商业养老保险的认知、保障满意度以及服务满意度。袁雪梅等[13]依据各地区的经济发展水平,划分为四类地区分别开展研究,通过实证分析,将影响居民持有商业养老保险的影响因素划分为三个层次。王永飞[14]先定性分析了我国居民商业养老保险需求的影响因素,后运用中国综合社会调查(2015)和中国保险年鉴(2016)的数据,构建Logistic模型对我国居民商业养老保险需求的影响因素进行实证分析,但是只针对具体某些因素(经济、社会、个人、家庭因素)进行实证分析,没有对影响商业养老保险需求的因素进行全面的分析。董艳华[15]设计问卷(个人、家庭、社会、供给因素)对133位天津居民关于商业养老保险需求影响进行调查分析,论述了各个因素是否对商业养老保险需求产生显著影响。王娟等[16]总结归纳了影响居民购买商业养老保险的因素,但没有做定量分析。邹龙等[17]通过对湖南省有典型代表的10个县市1000户农村居民进行走访调查,采用多元线性回归模型对问卷数据进行定性分析,分析影响因素与购买意愿的显著性与相关性,并对湖南农村地区今后发展商业养老保险提出建议。周林毅等[18]设计问卷(人口特征,社会特征,家庭特征)对福建省南平市太平人寿保险公司340位客户关于商业养老保险购买进行调查分析,但是客户群体是一家保险公司,有一定的局限性。郭天秀等[19]基于2015年中国社会综合性调查(CGSS)数据,选取个人特征、家庭特征、参保情况、社会保障4个指标,通过构建Logistic回归模型,分析中国东、中、西地区之间影响农村居民参加商业性养老保险行为的因素。张佳馨[20]主要研究了家庭收入结构因素对商业养老保险需求的影响,研究因素比较单一。马钰莹[21]设计问卷(个人特征、家庭特征、认知特征、供给特征、外部特征)对山东烟台435位农村居民关于商业养老保险参与度进行调查分析,并提出针对性的对策建议,以推动商业养老保险在农村的发展,解决日益严重的养老问题。周林毅等[22]设计问卷(12个商业养老保险影响因素)对福建省宁德市农村669位是否购买商业养老保险进行调查分析,并提出相应建议。李龙隆等[23]设计问卷(14个商业养老保险影响因素)对灵活就业人员进行调查,获得150组有效样本数据,利用因子分析和多元回归法论证各因素是否显著影响灵活就业人员购买商业养老保险。
总之已有商业养老保险影响因素研究主要有以下特点:第一:针对某些特定群体(农村居民[10,17,19,22]),灵活就业人员(李龙隆等[23]),保险公司客户[12,18]或特定地区天津市[15],南平市[18],烟台市[21]展开,其结果往往不具有普遍性。第二:商业养老保险影响因素在研究前基本上是预先确定,这存在一定的主观性(特别是自主设计问卷调查分析[15,17-18,21-23]),只是不同的文献假设影响因素不同,通过不同方法去论证是否有影响。预先确定影响因素虽然便于分析,但是很有可能漏掉重要影响因素。第三:多数研究样本量不够大[18,21,23],对于具有10几个影响因素的分析,由于各个因素具有相互作用,要使得各个因素组合下都具有可观察数据,往往需要较大样本量,样本量不大时其结果可信度会降低。第四:已有研究基本回答了那些影响因素是否显著影响商业养老保险购买,但是没有进一步指出这些显著性影响因素是否具有不同的重要性程度。
针对这些不足,本文从全国范围内对我国居民持有商业养老保险的影响变量进行分析,使得研究结果更具有普遍性。本文没有预先假设有哪些主要影响因素,而是构建Lasso-Lars的居民持有商业养老保险影响因素筛选模型对上百个可能影响变量进行筛选降维,确定主要影响因素,以避免漏掉重要影响因素(比如本文发现旅游支出因素是影响居民持有商业养老保险的重要指标,与以往文献有明现区别)。采用样本覆盖了全国的29个省份(包括自治区、直辖市,不含新疆、西藏、港澳台),353个县(区、县级市),1373个村(居)委会,样本量达37289个,样本量充足全面,使得结果更加可信。利用Logistic模型和ID3(Iterative Dichotomiser 3)决策法两种方法对筛选出来的主要影响因素进行定量化对比论证分析,不仅回答了哪些影响因素是否显著影响商业养老保险购买,而且确定了各个显著性影响因素的重要性程度,这更加充分揭示商业养老保险影响因素的相互关系。因此本文研究结果具有较好的普遍性和可信性,能比较全面地揭示商业养老保险的影响因素,这不管从理论上和实际上都具有重要意义。
由于影响居民是否持有商业养老保险的因素极多,可能达到上百个,而其中起到较大或者决定性作用的影响因素是小部分。如果对上百个影响变量直接分析,则不能抓住问题本质。因此需要对多个影响变量进行筛选降维。而Lasso-Lars模型[24]适用于高维度空间中的变量筛选,能够有效地把关系不大的变量去除,保留相关程度较大的变量。因此采用基于Lasso-Lars模型对居民持有商业养老保险的影响因素进行筛选。
假设居民商业养老保险的样本集合为
λ为人工给定的常数。当λ从∞变化到0的过程中,能够产生一个变量选择序列β。β是Xi的各个维度对应的系数值,其系数值越大,可以认为此属性的重要性程度越高。根据中的分量的取值大小对商业养老保险影响因素进行筛选。
对居民持有商业养老保险进行分析时,可以假设认为居民是否持有商业养老保险服从二项分布,依据广义线性模型,其对应的为 Logistic 模型[3]。 对于商业养老保险数据集 T={(X1,y1),…,(Xn,yn)},设pi=p(yi=1|Xi),则Logistic回归模型为:
其中,pi表示第i个居民持有商业养老保险的概率,输出值处于[0,1],1-pi表示第i个居民不持有商业养老保险的概率;ε表示随机项,ω表示居民参加商业养老保险相关因素的回归系数,ω为p维向量,是Xi的各个维度对应的系数值,反映该因素对居民参与商业养老保险的作用方向和程度。如果该系数为正,说明该因素有利于居民持有商业养老保险,且该因素的取值越大,说明作用的效果越明显,反之亦然。使用极大似然估计法求解ω,采用相关最优化方法使似然函数l(ω)取值最大,其中l(ω)公式如式(3):
决策树是一种从人的决策过程中受到启发而发明的一种树形结构,这恰好是人类在面临是否购买商业养老保险时的一种自然而然的处理机制。图1为一个具有4个非叶子节点、6个叶子结点的简单决策树的示意图。其中圆形的节点代表非叶子节点,方框形状代表叶子结点。样本分类的时候将从根节点出发,根据是否满足内部节点的要求而划分到不同的内部节点,直到划分到叶节点结束。本文中内部节点是该居民持有商业养老保险的影响因素,叶子节点代表该居民是否持有商业养老保险。
图1 决策树示意图
ID3决策树模型[25]使用选择其最优特征的原则是根据不同特征的信息增益大小做判断,选择信息增益最大的特征做划分。信息增益是度量某个特征对数据集分类确定性的程度。ID3决策树模型构建的核心是各个商业养老保险影响因素的信息增益的计算。对于第个商业养老保险影响因素的信息增益的公式为表示第j个商业养老保险影响因素的熵,kj为该商业养老保险数据集T中第j个维度的不同取值个数,例如若第j个维度为性别,其不同取值的个数为2。p'ij为第j个维度的第i个取值在所有养老保险样本中的占比。
表示在数据集 T={(X1,y1),…,(Xn,yn)}分类情况下关于第 j个商业养老保险影响因素的条件熵。 pij为特征Aj取值为ai的实例个数与总实例个数的占比E(T|Aj=ai),表示在已知实例的特征Aj取值为ai条件之下,其数据子集的信息熵。
商业养老保险影响因素的信息增益值越大,说明该商业养老保险影响因素越为重要,因此根据增益值确定居民持有商业养老保险的影响因素重要性程度。
居民持有商业养老保险数据来源于西南财经大学开展的全国范围内的中国家庭金融调查(China Household Finance Survey,CHFS)[26-27]。CHFS对37289户家庭参与调查访问,全面覆盖了全国的29 个省份(包括自治区、直辖市,不含新疆、西藏、港澳台),353 个县(区、县级市),1373 个村(居)委会。该数据具有数据质量高、样本量大、代表性强等特点。该数据全面客观地反映了当时我国家庭金融的基本状况,这为本文的研究提供了有力的支持。
初始得到的商业养老保险数据主要包含两个问题:其一,样本数据的格式不符合第二节中模型的输入数据的格式要求;其二,数据没有进行适当的转化与处理以增强模型的解释。
1)变量选取与命名
影响因素的命名与CHFS问卷命名规则相同,表1列出因变量为受访者是否持有商业养老保险和部分自变量相关影响因素。
表1 影响因素变量命名
2)数据预处理
对数据处理工作主要包括确定影响变量的数据样本、含有缺失值的样本处理、对数值型数据进行最小最大标准化处理、分类型变量进行哑变量编码四个步骤。
(1)确定有效数据。确定所需影响变量的数据,删除无关变量数据。
(2)缺失值处理。将含有缺失值的样本进行技术填补。CHFS有效数据样本有133183个,不含任何缺失数据的样本只有43017个。如果直接忽略部分缺失数据样本进行分析,则样本信息不能充分挖掘,导致模型估计的结果有所偏差。本文主要采用k近邻填补算法[28-29],对数据缺失值进行填补,其核心思想是利用最邻近缺失数据的k个无缺失数据样本去估计缺失数据。
(3)归一化。对数值型变量进行最小最大归一化处理,消除量纲的影响。最小最大归一化即对每一个变量的每一个数值,减去该变量的最小值,并除以该变量的最大值减去最小值,见公式(5):
(4)哑变量编码。对分类型变量进行哑变量编码,以增强模型的解释和预测能力。比如分类变量有小学、中学、大学、硕士、博士5种类别,则用哑变量编码为(1,0,0,0)表示小学,(0,1,0,0)表示中学,(0,0,1,0)表示大学,(0,0,0,1)表示硕士,(0,0,0,0)表示博士。经过填充缺失值后的养老保险的数据集样本共有133183个,有变量(数值型和哑变量)101个。
对处理后的数据利用Python中sklearn库中的Lasso-Lars算法进行回归拟合,得到各个变量的系数,其系数的绝对值大小代表着该变量的重要性程度。在回归结果中,共计有变量101个,其中45个变量的系数不为0,17个变量的系数显著大于0(其绝对值的取值大于0.01),56个变量系数为0,具体结果见表2。排除系数为0以及系数过小的变量,选取其系数绝对值最大的10个变量,得到的十个重要影响变量即g1018,k1101,d7102_1,g1019,a2005,g1001,a4002a_2,a2012_9,a2001_7,a2012_4。
表2 填补缺失值后的Lasso-Lars回归结果系数表
续表2
在总计133183样本中,正负样本极度不平衡(持有商业养老保险的作为正例样本),其中正例样本只有5000个左右,其余皆为负例样本。为了保证正负样本比例接近1∶1,对负例样本进行欠采样,随机不放回抽样抽取共5000个样本,最后样本共10000个。利用Python中statsmodels库中的广义线性模型对上面第三节第2部分筛选出来的十个重要影响变量进行关于居民是否持有商业养老保险变量的Logistic回归分析。结果见表3。可以看出模型的各个系数均通过了t检验,说明模型拟合良好。
表3 填补缺失值后的Logistic模型回归参数
Logistic回归结果分析:
表3各变量系数是正的说明对持有商业养老保险起正面影响,系数是负的说明对持有商业养老保险起负面影响。变量旅游支出(g1018)的系数为6.6389,在所有变量中具有最大的影响权重,说明当居民的旅游支出越高,持有商业养老保险的概率就越大。发现旅游支出对是否持有商业养老保险影响最大,与当前研究结果[14-16]有明显区别。是否持有商业养老保险,除了客观条件外(如收入),主要还受居民消费倾向有关系。旅游支出越高,说明消费观念灵活,对持有商业养老保险的接受度倾向高,它可以作为一个地区持有商业养老保险高低的重要指标。 变量持有现金(k1101)的系数为6.5274,在所有变量中权重排第二,说明当居民持有现金越多时,会增加持有商业养老保险的概率。说明可支配收入是关键,持有商业养老保险需要较好的经济基础。这与其他研究结论[14-16]类似。变量伙食费(g1001)的系数为2.0107,在所有变量中权重排第三,说明当家庭伙食费越多,能够增加持有商业养老保险的概率。愿意在家庭伙食费上投入较多,说明家庭对生活质量追求高,较大概率愿意在商业养老保险投入以满足退休生活需求。是否拥有银行理财产品 (d7102_1),文化程度 (高中)(a2012_9),经济、金融信息是否关注(a4002a_2)和文化程度(博士)(a2012_4)的系数都小于1,相对前三个重要影响变量的系数都比较小。说明是否拥有银行理财产品,文化程度(高中),经济、金融信息是否关注,文化程度(博士)会正面影响持有商业养老保险的高低,但不是主要核心因素。而变量医疗、保健支出(g1019)的系数为-4.1995,在所有变量系数中负的权重最大,说明当居民对医疗保健支出越多时,持有商业养老保险的概率越低。这主要是因为居民注重近期见效行为,愿意投入医疗保健,而不愿意投入远期保障行为。变量是否未婚(a2001_7)的系数为-1.5947,在所有变量系数中负的权重第二,说明当居民未婚时,会减少持有商业养老保险的概率。未婚人士家庭责任和保障意识不够强,或者认为持有商业养老保险没有必要。变量年龄(a2005)的系数为-0.9567,在所有变量系数中负的权重最小,说明当居民年龄越大时,会增加持有商业养老保险的概率,但不是主要影响因素。
总的来说,旅游支出、持有现金和伙食费越多,居民持有商业养老保险的比例就越高;而医疗、保健支出越多,居民持有商业养老保险的比例就越低。这四个因素是影响居民持有商业养老保险的最主要因素。文化程度水平、对我国经济与金融的参与程度因素虽对持有商业养老保险有影响,但不是最主要因素。影响居民是否持有商业养老保险可以归为两大方面,即可支配收入(持有现金),居民消费习惯(旅游支出,伙食费,医疗、保健支出)。
延续使用第三节第1部分使用的变量与数据,类似第三节第3部分处理好样本数据,利用Python中sklearn库中的ID3决策树算法进行模型拟合,结果见图2。模型的预测精度为92.13% ,说明ID3模型效果良好。由ID3决策树模型得到的各个变量的相对重要性程度与比较见表4。
图2 填补缺失值后的决策树
表4 ID3模型的变量重要性
ID3决策树结果分析:
通过ID3决策树模型获得变量年龄(a2005)的系数为0.336,旅游支出(g1018)的系数为 0.299,伙食费(g1001)的系数为0.098,变量医疗、保健支出 (g1019)的系数为0.079,变量持有现金(k1101)的系数为0.074,变量是否未婚 (a2001_7)的系数为0.063,变量文化程度 (博士)(a2012_4)的系数为0.038,变量文化程度(高中)(a2012_9)的系数为0.021,变量是否拥有银行理财产品(d7102_1)的系数为0.013,变量对经济、金融信息是否关注(a4002a_2)的系数为0.012。根据系数大小发现对居民个体是否购买商业养老保险影响最大的前三个变量为年龄 (a2005)、旅游支出(g1018)和伙食费(g1001)。
Logistic回归模型与ID3决策树模型的结果对比分析:
图3~4是Logistic模型与决策树模型给出的变量重要性程度对比,分别为变量重要性程度绝对数值对比与变量重要性程度百分比对比。可以发现,Logistic模型与决策树模型的结果有较多相同点和微小差异。对于变量旅游支出 (g1018)、伙食费 (g1001)、文化程度 (高中)(a2012_9)、是否未婚(a2001_7)和文化程度(博士)(a2012_4)给出了十分接近的重要性程度;对于变量是否拥有银行理财产品(d7102_1)、对经济、金融信息是否关注(a4002a_2)有较小的差别;对于变量年龄(a2005)、持有现金(k1101)和医疗、保健支出(g1019)则有较大差异。
图3 Logistic回归模型与决策树模型给出的变量重要性绝对值对比
图4 Logistic回归模型与决策树模型给出的变量重要性百分比对比
其原因可以解释为:Logistic回归模型与ID3决策树模型相比较而言,Logistic回归模型更加侧重于宏观上的把握,对于地区的平均经济水平的变动十分敏感,ID3决策树模型更加侧重于刻画个人决策的过程,其对于个人的持有现金(k1101)和医疗保健支出(g1019)不会过于敏感,而对于年龄的变化十分敏感。例如当两个人的持有现金差异在5000元左右时,其差距不大,即决策树模型对其认为重要性程度偏低。
综合Logistic回归模型与ID3决策树模型的分析结果,影响居民持有商业养老保险最重要的方面为个人消费习惯或家庭状况,其次是对我国经济与金融的参与程度,而文化程度水平相对较弱。在个人消费习惯或家庭状况中,旅游支出、持有现金、伙食费和医疗保健支出是影响居民持有商业养老保险的最重要的4个因素。从宏观上看,个人旅游支出对居民持有商业养老保险的影响高于持有现金的影响,这表明家庭经济实力越强,并不意味着购买商业养老保险的概率越大。旅游支出指标体现了居民消费习惯和对生活质量的高追求,旅游支出高的,也较主动愿意购买商业养老保险,以此保障高质量的生活。可支配收入(持有现金)是影响居民持有商业养老保险的第二重要因素,这与常识相符,这可以解释为什么经济收入高的地区持有商业养老保险的比率高于经济收入低的地区。伙食费支出多的居民也更愿意购买商业养老保险。从微观上看,当年龄增加时,该居民持有商业养老保险的意愿会显著提高;如果个人处于已婚状态,那么该居民持有商业养老保险的概率会提高,原因是居民处于已婚状态时会更加倾向于降低风险。而医疗、保健支出越多时,会减小持有商业养老保险的概率,原因是居民注重近期行为,缺乏远期规划。
对金融的了解与参与(是否持有银行理财产品、对经济与金融信息是否关注)是影响居民持有商业养老保险的较为重要因素。如果居民能够积极参与到金融领域或者对金融相关知识有所认识,将能够提高居民持有商业养老保险的概率。这主要是因为对金融的了解有助于更好理解商业养老保险的正面积极功能,避免对该保险的误解。
文化程度(高中)和文化程度(博士)是十大显著影响因素中的两个因素,而居民是否上过大学等文化程度变量则属于不显著影响因素被排除。说明文化程度对于居民持有商业养老保险的影响并不是呈现线性增长。这可以解释为文化程度(高中)这个阶段相比小学和初中有本质的变化,文化程度(博士)相比本科和硕士有本质变化。
结合我国各地普遍的实际状况以及本文得出的相关结论,现提出以下提高居民的商业养老保险持有率的相关建议:
提高居民经济水平,合理引导消费。可支配收入(现金持有量)是影响居民持有商业养老保险的第二重要因素,只有可支配收入增加了,才能为购买商业养老保险提供坚实基础。因此国家需大力发展经济,增加居民收入,对无业居民进行引导,帮助其寻找工作,降低失业率,积极应对劳动力的有效供给,使居民普遍能够承受商业养老保险的价格。真正做到“老有所养、老有所依、老有所学、老有所教、老有所乐”内容,积极发展商业养老保险产业。合理引导居民购买商业养老保险,这与居民消费习惯意愿(旅游支出、伙食费用)有很大正相关关系,引导居民购买商业养老保险是追求高质量生活的一种体现。政府部门还应当继续出台有力于商业养老保险发展的政策,促使广大居民做出更为理性的消费支出选择,加强人们在老龄化时代的养老责任意识。
积极宣传金融与经济的相关知识。一方面为居民开展免费金融经济知识讲解,使居民能够充分意识到金融的正面作用,减少居民对金融风险大的直观感觉,帮助居民树立正确的金融观念。另一方面积极宣传商业养老保险知识。调整养老保险教育方式,利用街道和社区宣传和普及养老保险教育知识,引导城乡居民正确理解养老保险的功能和意义,消除养老保险的误解。
积极推行教育普及力度。文化程度对居民是否持有养老保险也产生重要影响。建议国家要优化配置教育资源,加大对贫困地区教育发展的支出力度,促进义务教育均衡发展,提高高中阶段教育的普及。增加博士专业学位研究生的招生数量,进一步创新专业学位研究生的培养模式。通过提高教育力度不断促进养老保险健康快速发展。