刘亮
摘要:本文针对车险续保率,建立了K-means聚类算法与支持向量机的组合模型。利用K-means聚类算法将客户划分为某几类,然后对每一类客户用支持向量机求出续保概率,并用多元回归分析得到每一类客户的主要影响因素,最后将续保率最高的一类客户的主要影响因素与其余类客户的主要影响因素进行对比,针对性地提供销售方案,实现由低续保率向高续保率的转化。
关键词:车险续保率;K-means聚类;支持向量机;多元回归
中图分类号:F842.6 文献标识码:A 文章编号:1007-9416(2019)07-0106-01
0 引言
1978年改革开放以来,各行业蓬勃发展,汽车保险市场逐渐地被挖掘,其市场竞争也愈发激烈。在目前的国内保险公司中,汽车保险业务保费收入已占到其财产保险业务总保费收入的一半以上[1],由此可见,汽车保险业务在保险公司中占有极其重要的地位。但做到高续保率的财险公司是很少的,客户留存率低成为了财险公司的一大难题[2]。以往,保险公司为了赢得市场,采用的是低价、折扣等销售措施来拉取客户,提高客户的续保率。但是激烈的市场竞争,使得大量的保险公司的利润率逐年下降,甚至为了占领市场有些恶性竞争导致保险公司亏本经营。鉴于此,如何科学地、有效地争取客户,提高客户续保率,成为保险公司的当务之急。
本文对于此建立了K-means聚类算法与支持向量机的组合模型,来解决车险行业续保率低的问题。
1 组合模型
1.1 K-means聚类算法简介
K-means聚类算法是一种著名的原型聚类算法,其目的在于把类似的样本聚在一起构成一类,但并不需要知道这一类具体是什么。
聚类分析算法的基本步骤如下:
(1)指定聚类数目K;
(2)选择K个初始的聚类中心,即确定初始均值向量;
(3)根据最近原则进行聚类:对于样本集D,分别计算出每个样本到各个聚类中心的距离,样本距离哪个聚类中心近就被划分到这个聚类中心所代表的类中;
(4)划分完成后,重新计算聚类中心;
(5)将本次得到的K个聚类中心与前次得到的聚类中心进行比较,如果聚类中心发生变化,转(3),否则转(6)[3];
(6)当聚类中心不發生变化或收敛时算法停止。
1.2 支持向量机简介
支持向量机(SVM)是一种二分类模型。它在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势[4]。
给一个数据样本集,这里,支持向量机的任务就是找到一个划分超平面,将样本集D划分为两类,并且使分类结果是最鲁棒的。划分超平面的线性方程可表示如下:
2 模型求解
根据K-means聚类算法,对已得数据预处理后进行聚类分析。经过多次尝试,发现将客户分成三类时的聚类效果比较好,因此本文通过K-means聚类算法将客户分为了三类。
将聚类处理好的客户数据带入编写好的支持向量机代码中,进行训练。为减小误差,每一类客户数据都执行了10次代码,每一次都得到一个续保率,再对每一类客户的续保率取平均值,得表1。
在表1中,可得到三类客户的平均续保率分别为:0.219552351、0.300796983、0.063300232。
将某类客户与此类客户聚类中心之间的距离和它的影响因素进行多元回归分析,得到回归系数即影响因素对客户续保率的影响权重,选取权重明显大的为主要影响因素。
第一、第二、第三类客户续保率的主要影响因素分别为:渠道、保单性质、是否为本省车牌、车龄、立案件数;续保年、保单性质、是否为本省车牌、使用性质、签单保费;渠道、保单性质、车龄、立案件数。
3 结果分析
根据求解结果对每一类客户针对性地提出优惠和福利方案。第二类客户的续保率高于其余两类,第二类与第一类客户相同的主要影响因素为:保单性质、是否为本省车牌,第二类与第三类客户相同的主要影响因素为:保单性质。因此对于第一类客户,需要围绕保单性质、是否为本省车牌这两个因素提供优惠和福利方案,而对于第三类客户,则需要围绕保单性质这一个因素提供优惠和福利方案,使第一、三类客户的主要影响因素接近于第二类客户的主要影响因素,从而达到提高客户续保率的要求。而对于续保率最高的第二类客户而言,本文建议从此类客户的主要影响因素出发制定销售方案,还可进一步对第二类客户进行再细分。
参考文献
[1] 何克勤.探析车险销售的必要性[J].赤子,2014(4):245.
[2] 杨子江,王野,马天诣.影响汽车保险续保率的因素分析[J].企业研究,2011(10):107.
[3] 邹彦雯.定制商务班车线路设计研究[D].北京交通大学,2017.
[4] 丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(01):2-10.