Logistic回归模型在续保率影响因素分析

2011-06-24 00:56冷原刘宇翔迟育涵
现代企业文化·理论版 2011年6期
关键词:车龄续保因变量

冷原 刘宇翔 迟育涵

分组数据Logistic回归是针对因变量为定性变量、自变量为分类变量的一种解决方案,加权最小二乘法可用来求解该方程,根据所有的数据分析,选取出险次数,车龄,使用性质,新车购买价,续保渠道5种因素为续保的影响因素,以是否续保为因变量,建立了影响汽车续保定性评价的分组数据Logistic回归方程,进行了回归方程显著性检验和回归系数显著性检验,、最后对影响汽车续保率的因素进行定性和定量分析。

数据缺失和组合补缺

在实际工作中, 数据的缺失是很正常的情况, 为此需要进行数据补缺. 为了最大程度地保留原有的决策规则, 采取组合补缺方法, 即对缺失的数据用该属性的所有可能的属性去填, 这样就形成了多条记录。

算法介绍

在许多问题中,所研究的因变量只有两个可能结果,这样的因变量可用虚拟变量来表示,虚拟变量的取值可为0和1。定性因变量回归存在如下问题:离散非正态误差项,零均值异方差性,回归方程的限制。对于普通回归所具有的上述问题,并不能从根本上解决问题。采用Logistic回归可以解决这个问题。假设要研究现象A发生的概率 ,并讨论 的大小与哪些因素有关。但由于 对 的变化在 或 附近不是很敏感,故寻找一个 的函数 ,使它在 或 附近变化幅度较大,同时希望 或 。取(1),称(1)式为对 施行Logit变换。设影响 的变量有x ,则Logistic线性回归模型可表达为

参数估计

设对影响 的自变量 观测了 组结果,第 组中共观测了 次,其中A发生了 次。当样本规模很大时,就有可能计算其结果的相对频数 ,并以它作为本组事件发生的概率估计。即有

式中: 为第 个自变量在第 组中的取值; 为随机误差。由于对数发生比可以从分组数据计算,故这一回归模型可以通过应用普通最小二乘法(OLS)来计算。先将个体数据按自变量进行分组,然后估计每组的事件概率,再将每组的事件概率估计转换为对数发生比,并将之作为线性回归模型的因变量,而这个线性回归的自变量全都是分类变量。但(3)式存在异方差性,每组的残差不仅依赖于本组的事件发生概率,还依赖于本组的观测频数。消除异方差性的方法通常有加权最小二乘法(WLS)、Box-Cox变换方法、方差稳定性变换法。本文采用WLS方法进行数据分析。在WLS估计模型中,所有的原始变量包括常数项都进行加权转换,权数为残差项的标准误差的倒数。数据转换后的OLS模型为

式中: 为权数; 是转换后的残差项,具有同方差性。

数据分析

我们对所给的数据进行归纳总结,建立了合理的模型进行分析。

我们用Logistic回归的方法,对每一辆汽车是否续保的相关数据进行分析和总结,来获得续保率和车险(出险次数),车龄,使用性质,购买价格,承保渠道等多种因素之间线性和非线性的定量定性关系。模型中包含五个变量,分别是出险次数,车龄,新车购买价格,使用性质,承保渠道。

采用SPSS11.5分析软件中 Analyze→Regression→Binary Logistic…进行回归模型分析。回归方法为向前逐步选择引入法,即通过最大似然估计所得的似然比的概率作为引入变量的标准,采取迭代法逐步计算,直到对数似然比不再变化为止。

结果分析

表 (6) 回归系数分析

回归系数 标准差. df 显著水平

常数项 -2.8932 0.0121 1 0.020

变量x1 0.7838 0.0023 1 0.000

变量x2 0.8934 0.021 1 0.085

变量x3 0.3442 0.0312 1 0.032

变量x4 0.4451 0.0212 0.023

变量x5 0.2312 0.0 0.032

这样可以得到公式(3)中每个变量的系数。由上表可以看到,车龄对p的影响最大,第一步就被引入模型,其次是出现次数和使用性质。随后我们得到回归结果,其参数估计以及其统计检验如下表(表3),各系数统计量检验的效果显著。最后由方差分析表可以看出,所有因素的效应都是显著的,且由似然比看出,模型拟合是充分的.

因此综合上述我们可以得到续保率与出险次数,车龄,购买价格,使用性质,承保渠道之间的关系,从系数上我们可以看出,车龄对续保率的影响较大,其次是出险次数。并可以看出各个因素中的相关因素之间的关系。并且通过模型回归性检验,模型拟合是充分的,满足条件的。

(第一作者单位:吉林大学经济学院;第二作者单位:厦门大学经济学院;第三作者单位:吉林大学数学学院)

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

猜你喜欢
车龄续保因变量
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
基于二元Logit模型对车险续保影响因素的研究
车险客户续保率
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
2019年前3个月二手车交易同比增长2%
偏最小二乘回归方法
回归分析中应正确使用r、R、R23种符号