基于改进的K-means和BP-Adaboost的寿险客户流失预测算法研究

2022-02-16 11:12张馨予
关键词:寿险细分聚类

闫 春,张馨予

(山东科技大学 数学与系统科学学院,山东 青岛 266590)

客户流失是指某公司现有的客户,由于某些主观或客观因素,放弃消费当前公司的产品或服务,转而选择消费其他公司产品或服务的行为[1]。由于发展新客户的成本要比发展老客户高,各行各业对客户流失控制问题高度重视。中国的寿险行业虽起步较晚,但发展迅速。随着市场竞争愈发激烈,客户流失频率较高,有必要深入开展客户流失预测研究,为寿险公司预防客户流失、提升盈利能力提供决策依据。

目前,学者们对寿险等行业客户流失预测的研究有一定进展,多采用单一模型进行预测,如决策树算法、BP神经网络、二元逻辑回归模型等。Kisioglu等[2]通过贝叶斯信念网络建模,识别出具有流失倾向的电信客户行为。周晓玮[3]将BP神经网络应用到寿险营销预警中,并比较其与支持向量机(support vector machine,SVM)、决策树算法的预测效果。Bi 等[4]将二元逻辑回归运用到电信客户流失预测中。Günther等[5]将包含时间动态解释变量和相互作用的逻辑纵向回归模型拟合到非寿险数据中进行建模。梁锋[6]将寿险公司的客户数据生成库,用IBM SPSS Modeler工具和决策树算法建立预测模型。郑宇晨等[7]将Logistic模型用于证券公司客户流失预警分析。Amin等[8]提出一种基于粗糙集理论(rough set theory,RST)的规则智能决策技术,用于提取与电信客户状态相关的重要决策规则。冯鑫等[9]以在线评论信息为基础,将情感因素引入BP神经网络,进行移动网络虚拟运营商的客户流失预测。张利利等[10]使用决策树方法进行航空客户流失预测,并通过K-mans算法进行客户价值衡量。

20世纪50年代中期,基于客户实际需求不一、资源效益最大化需求,温德尔[11]最早提出客户细分的概念,指企业在特定市场和业务模式下,根据属性、行为、需求、偏好和价值等因素对客户进行分类。目前主要从市场需求、企业运营的相关条件和客户自身综合属性等几方面进行分类[12]。

综合考虑已有的客户细分标准,为了更精准、科学、立体地刻画客户行为动态,更好地进行客户细分和流失预测,本研究从外在、内在以及行为(external,intrinsic,behavior,EIB)三方面属性出发构建寿险客户指标体系。另外,考虑到传统的K-means算法[13]在处理大数据集时,虽有较好的可伸缩性,但也存在初始聚类数不确定以及对离群点敏感的缺陷,提出改进的K-means算法,将改进的轮廓系数公式作为选取初始聚类数目的依据,并综合考虑欧式距离相似度的距离测度优势与余弦相似度的方向测度优势,在聚类迭代中进行局部、全局离群点的过滤,尽可能降低可视化噪声、减小簇内误方差。使用改进后的K-means算法划分出不同流失风险的客户群,针对不同群体制定个性化挽留思路。吸取BP神经网络算法非线性拟合能力强与Adaboost算法可有效提升模型泛化能力的优点,提出使用融合的BP-Adaboost算法构建寿险客户流失强预测器,并综合比较细分前后、K-means算法改进前后以及单个预测器与融合预测器的效果。

1 EIB属性与寿险客户指标体系确定

由于客户细分的标准尚未统一,本研究根据寿险行业的特点,提出客户EIB属性(如表1),并以此为依据进行寿险客户指标体系设计,以便高效地进行客户细分与流失预测建模。

表1 客户的EIB属性Tab. 1 EIB attributes of customers

我国现行《保险法》第五十三条规定“投保人对本人、近亲属以及其他同意与投保人订立合同的被保险人均有保险利益”,这说明投保人与被保险人之间存在一对多的现象,且在实际情况中,这种一对多的现象,造成了客户关系的复杂性。因此需要根据“客户关系-投保人-被保险人”的对应关系,依据EIB属性,综合考察客户自身价值观念、生活水平以及客户和寿险公司的业务交易信息等,建立寿险客户指标体系,如表2所示。

表2 基于EIB属性的寿险客户指标体系Tab. 2 Index system of life insurance customers based on EIB attribute

2 K-means算法及其改进

传统K-means算法主要基于欧式距离测度以及最小化平方误差和准则,其步骤如下:

2) 类划分。将N个样本按照与k个聚类中心的欧式距离远近,分别分配给距离最近的聚类中心,形成k个簇C=(C1,C2,…,Ck)。

3) 类中心点求解。计算k个簇中心点的平均值作为新的聚类中心。

(1)

(2)

5) 重复步骤2)和3),直到每个类的个体不再变化,得到所有类别的最终聚类中心及其包括的个体。

本研究主要从选取初始聚类簇数和改进迭代规则两个方面,对K-Means算法进行改进。

1)初始聚类簇数选取的改进

传统K-means算法通常按照初始聚类中心来设置初始聚类簇数k,继而进行类划分和中心点求解的迭代,因此初始值的选取十分重要。若选取不当,会使得聚类效果较差。Peter在1986年提出轮廓系数

(3)

来评价聚类效果的好坏[14]。其中:q(i)表示点i到所属类中其他点的平均距离,主要反映内聚度;p(i)表示点i到非所属类中所有点平均距离的最小值,主要反映分离度。轮廓系数结合了内聚度、分离度两种因素,通常数值越大,聚类效果越好。针对传统的轮廓系数未考虑对内聚度有潜在影响的类内最小距离和对分散度有潜在影响的类间平均距离最大值的问题,引入点i到所属类中其他点的最小距离s(i)和点i到非所属类中所有点平均距离的最大值r(i),提出改进后的轮廓系数公式:

(4)

式(4)反映了各因素之间更全面的制约关系。进而得到N个样本点轮廓系数的平均值

(5)

2) 迭代规则的改进

传统的K-means算法在迭代过程中未考虑全局、局部离群点对平均值计算的影响。当离群点被分配到某簇中,可能会严重影响该簇类的均值,从而使聚类中心有较大误差,影响最终聚类结果。以往对于K-means算法的离群点监测方法常常基于邻近度或密度[15],但这两种方法难以处理大数据集,且对参数选择高度敏感。因此,本研究提出一种基于相似度的离群点监测方法,根据改进的相似度公式设置迭代中的离群点过滤规则。

(6)

(7)

(8)

鉴于两种测度方法优势互补,提出改进的相似度计算公式:

(9)

由式(9)可见,改进的相似度综合考虑了欧式距离相似度、余弦相似度,且存在上限。参与聚类迭代的向量与当前簇中心向量的相似度越小,说明其越偏离当前簇类。当低于某个阈值P1时,可将其对应的欧式空间样本点视为局部离群点并进行过滤;与所有簇中心的均值向量的相似度越小,说明其越偏离整体,当低于某个阈值P2时,可将其对应的欧式空间样本点视为全局离群点并进行过滤。P1和P2为离群点监测的阈值参数,在实际中,可通过多次实验,选取最合适的参数值。具体过滤规则如下:

3 组合后的BP-Adaboost算法

BP神经网络[17]有较强的非线性拟合能力,理论上能够拟合任意非线性函数,但存在收敛速度慢、泛化能力弱等缺点。而Adaboost算法[18]能够在迭代中降低误差,提高模型的泛化能力。本研究将两者结合,得到BP-Adaboost算法[19]来降低原始BP算法的预测误差,其详细步骤如下。

1) 选择数据并进行网络初始化。随机抽取m组训练数据{x1,x2,…,xm},初始化权重

(10)

2) 将训练数据用BP神经网络弱预测器进行预测。当训练到第t个弱预测器时,获得弱预测序列ft的预测误差和

(11)

其中y为期望输出。

3) 计算预测序列的权重。依据εt计算弱预测器的权重

(12)

4) 调整测试数据的权重。依据预测序列的权重αt调整新训练的样本权重

(13)

其中,Zt称作归一化因子,主要作用是当权重比例不变时,使其分布之和等于1。

5) 输出强预测器函数。迭代T次后,得到T组弱预测器函数g(ft,αt)合成的强预测器函数

(14)

4 实证研究

实验数据来源于某国内保险公司网站(http://www.chinalife.com.cn/)2018年1月1日—2019年12月31日的寿险客户调查公报及其交易信息,实验软件为MATLAB R2014a。

4.1 基于改进K-means算法的寿险客户细分

依据客户的EIB指标体系提取数据信息,归一化处理后,将客户调查公报中各指标出现的频次与全部指标出现的频次之比作为重要度权值,对指标进行加权量化处理,最终得到2 000条寿险客户样本,部分数据如表3所示。

表3 部分处理后的寿险客户样本Tab. 3 Part of life insurance customer samples after processing

1) 轮廓系数改进前后的实验结果对比

为了获得最佳初始聚类簇数目,选取不同的k值,对归一化处理后的样本进行K-means聚类,并统计改进前后的轮廓系数均值,如图1所示。

图1 改进前后的轮廓系数均值对比Fig. 1 Comparison of mean contour coefficients before and after improvement

由图1可见,在改进后的轮廓系数均值中,不同初始聚类簇数k下的系数变化幅度较改进前明显增大,表明改进后的轮廓系数均值能更全面地衡量聚类的内聚度和分离度,对于筛选合适的聚类数目更具区分度。在两种轮廓系数中,对应最大系数的k值均为3,故选取k=3作为初始聚类簇数。

取k值分别为3和4进行轮廓系数分布的可视化展示,如图2所示。

图2 改进前后的轮廓系数分布图对比Fig. 2 Comparison of contour coefficient distributions before and after improvement

由图2可知,k=3时轮廓系数为负的样本点更少,且总体轮廓系数更大,进一步这说明k=3作为初始聚类簇数的优越性;与改进前相比,改进后的轮廓系数为负的样本点明显减少(k=3时几乎为0),且总体轮廓系数明显增大。

2) 改进迭代规则的K-means算法结果分析

图3 K-means算法的聚类结果可视化(+客户群Ⅰ,○客户群Ⅱ,*客户群Ⅲ)Fig. 3 Visualization of clustering results of K-means algorithm(+Customer base Ⅰ,○Customer baseⅡ,*Customer baseⅢ)

使用改进迭代规则的K-means算法进行聚类,在实验过程中,固定阈值P2=0.005,以0.03为起点、0.03为步长将P1逐步增加到0.18。将三维指标集{信用评级,缴费数量,所购险种}用于改进K-means算法的可视化展示,如图4所示。

图4 不同阈值下的改进K-Means算法聚类结果可视化(+客户群Ⅰ,○客户群Ⅱ,*客户群Ⅲ)Fig. 4 Visualization of clustering results of improved K-means algorithm under different thresholds(+Customer base Ⅰ,○Customer baseⅡ,*Customer baseⅢ)

由图4可知,阈值P1≤0.09,尤其是P1=0.06时,可视化噪声明显较改进前的图2有所减小;但P1>0.09,尤其是P1=0.15时,可视化噪声较大。

使用最终的簇内误方差(sum of the squared error,SSE)作为评价改进的K-means算法聚类结果好坏的指标,统计阈值P1在0.03~0.18范围内的最终簇内误方差,结果如图5所示。由图5可见,当阈值P1=0.06时获得较低的簇内误方差,而P1=0.12、0.15时的簇内误方差较大,甚至与改进前持平。

图5 不同阈值下改进K-means算法的SSEFig. 5 SSE of improved K-means algorithm under different thresholds

这说明阈值P1≤0.09时,改进的K-means算法能合理过滤局部和全局离群点,有效提升聚类效果。分别将P1为0.03、0.06、0.09时的最终聚类中心以及对应的细分客户群体进行汇总,并与改进前的结果作比较,如表4所示。

由表4可知,在不同阈值下的改进K-means算法中,最终聚类中心、对应客户数量在不同客户类别中的差距较改进前均有明显增大,其中最终聚类中心的变化主要表现在指标集{性别,年龄,职业危险级别,学历级别,婚姻状况,信用评级,缴费数量,所购险种,购买主导动机}中,这主要体现了局部离群点过滤的作用;改进K-means算法后的客户数量总和均不足2 000,体现了全局离群点过滤的作用。

表4 改进K-means算法前后的最终聚类结果对比Tab. 4 Comparison of final clustering results before and after the improvement of K-means algorithm

考虑到“信用评级”指标在聚类可视化结果中展示出良好的区分度且与客户消费行为密切关联,故将其用于客户相对流失风险识别。“信用评级”的高低与流失风险水平呈负相关,因此得到不同风险客户细分{I=“高流失风险客户群”,II=“中流失风险客户群”,III=“低流失风险客户群”},其所含客户数量按高、中、低流失风险客户群依次减少。

低流失风险客户群所含客户数量最多,对应聚类中心的年龄最大、职业危险级别最高、学历最高、婚姻状况倾向于“已婚”、购买主导动机倾向于“实际需要”、缴费数量适中,反映了该群体对保险的需求心理、理性思维方式和一定的经济实力。这类客户在购买寿险产品时,多考虑自身或家庭成员的需要,因此不易流失,能给公司带来长期的稳定利润。

高流失风险客户群所含客户数量最少,对应聚类中心的年龄最小、职业危险级别最低、学历最低、婚姻状况倾向于“未婚”、购买主导动机倾向于“碍于面子”、缴费数量相对较高。该类客户在购买保险产品时,缺乏理性购买动机,容易跟风购买一些价格相对较高的寿险产品。虽然该群体有一定购买力,但存在较大的流失风险。

中流失风险客户群所含客户数量适中,对应聚类中心的年龄适中、职业危险级别适中、学历适中、缴费数量相对较低。这一类客户对寿险产品有一定的需求,购买主导动机多样化,能给公司带来为数不多但较为稳定的利润,流失的风险性介于上述两种群体之间。

4.2 基于客户细分和BP-Adaboost算法的寿险客户流失预测

为进一步证明改进K-means算法的优越性并展开寿险客户流失预测研究,统计改进前后K-means算法的客户细分结果,分别运用BP弱预测器、BP-Adaboost强预测器对不同客户群体进行流失预测建模,并综合比较其预测误差。

1) 基于二分类的寿险客户状态观测

寿险客户在观测期内的状态有两种,用二分类集合{流失,未流失}来表示。本研究从反映客户与公司业务往来的属性B中选取合适的规则,作为判断客户流失与否的标志。如表2所示,属性B对应的4个指标中,缴费数量、缴费方式和缴费次数存在数值关系。令二分类变量为Y,设置客户状态的观测方法如下:

对于一次性缴清所有保费的趸缴客户,其状态容易观测。将含有“退保”和“犹豫期退保”字样信息的客户识别为流失客户(Y=1),其余识别为未流失客户(Y=0)。

2) BP算法与BP-Adaboost算法实验结果对比

将BP神经网络设置为3层:输入层为{性别,年龄,职业危险级别,家庭收入等级,学历级别,婚姻状况,购买主导动机,信用评级,缴费数量,所购险种};输出层为客户状态集Y={0,1};隐藏层神经元数量的设置采用试凑法,即首先选取较少隐含层神经元训练BP网络,观测预测精度或误差,随后增加隐含层神经元数量,直到预测精度不再增加为止,最终确定网络各层神经元数量依次为10、5、1。

根据预测结果调整样本权重,把预测误差大于0.1的测试样本作为应该加强学习的样本训练BP神经网络弱预测器,最终获得由10组弱预测器生成的BP-Adaboost强预测器。以P1=0.06时改进K-means算法细分的低流失风险客户群为例,在1 143条样本中,随机选择943条作为训练样本、200条作为测试样本进行实验,实验数据的误差均方曲线见图6。

图6 误差均方曲线Fig. 6 Curve of mean squared errors

由图6可见,误差均方曲线逐渐收敛,在第17步达到最好的测试效果0.065 281,之后逐渐趋向于平缓,误差值几乎不变化,效果较好。

图7为10组BP神经网络弱预测器的平均误差绝对值和对应BP-Adaboost强预测器的误差绝对值。可以看出,在细分客户样本的预测误差值中,除极个别样本的强预测器预测误差高于弱预测器以外,总体上,用Adaboost调整后得到的强预测器预测的误差绝对值要普遍小于弱预测器。在200个预测样本中,传统BP网络算法的测试误差绝对值区间为[0, 0.2],样本点的误差绝对值有不少超出0.1;BP-Adaboost算法的测试误差的绝对值区间绝大多数都在[0, 0.1]之间,样本点的误差绝对值几乎都接近0。模型的拟合效果显示,强预测器预测的训练集R=0.952 97、验证集R=0.940 35、测试集R=0.961 06、总体R=0.952 51,说明模型的拟合结果较好。

图7 预测误差的绝对值Fig. 7 Absolute values of prediction error

3) 全部实验结果对比

对于每次实验,将预测误差绝对值超过0.2的样本点剔除,计算剩余样本点的预测误差平均值。汇总全部实验结果如图8所示。

图8 改进K-means算法前后的平均预测误差对比Fig. 8 Comparison of average prediction errors before and after the improvement of K-means algorithm

由图8可见:BP-Adaboost算法的预测误差较传统的BP算法小,说明Adaboost在迭代中对BP算法进行了有效提升;细分前客户样本的预测误差要明显大于细分后,说明客户细分对于提高客户流失预测的精度有一定作用;改进的K-means算法细分的客户群与传统的K-means算法相比,在后续的流失预测中,预测误差几乎全部变小,进一步证明改进的K-means算法实现的客户细分结果更为精准,且对后续客户流失预测的精度提升有明显作用。

4.3 对寿险公司的建议

寿险公司在实际的营销过程中,客户细分对于客户流失预测有重要意义。客户的挽留管理有助于公司经济效益的提升。公司要充分利用已有客户信息,挖掘并掌握不同客户群体的特征,采取不同的措施对不同的客户群体制定个性化服务。以本文的实验结果为例,对不同流失风险的客户群提出建议如下。

1)低流失风险客户群。这类客户的年龄相对较大、职业危险性相对较高,在购买保险产品时倾向于理性和满足实际需求,且有充足的资金支持续保。这类客户是当今寿险市场的主流客户,且客户数量庞大,能为公司带来长期稳定的利润。公司应当对这类群体给予高度重视,并根据每一位客户在时间、空间上的需求变化,尽可能地为其量身定制更适合的寿险服务,使这类客户更加忠诚地续保。

2)高流失风险客户群。这类客户的年龄相对较小、职业危险性相对较低,在购买保险产品时缺乏理性考虑,容易受保险推销员或周围朋友的影响购买一些用处不大却价格昂贵的寿险产品,给公司带来的利润虽多,但较不稳定。这类客户有一定购买力,但对寿险产品的热衷程度还不够。公司可以举办一些形式丰富的活动,来提高其对寿险产品的购买欲望,培养其与公司的感情。例如:定期对客户进行回访询问,节假日举办一些促销活动,以抽签方式赠送小礼品,等等。通过公司服务水平的提升,客户的忠诚度、满意度也会随之上升,流失风险随之降低。

3)中流失风险客户群。这类客户的年龄、职业危险级别、学历处于中等水平,对寿险产品有一定的需求,缴费数量较低但相对稳定。作为寿险公司的营销对象,有一定的发展潜力。因此,可以综合高、低流失客户群体的措施进行客户挽留管理。公司在为其进行节假日促销活动的同时,还可以挑选一些幸运客户,同低流失风险群体共同参与量身定制产品活动,或者开展价格相对高的寿险产品的首单优惠活动,激发此类客户对该类产品的购买欲望,提高公司的盈利水平。

5 结束语

针对寿险行业的客户流失问题,构建了基于EIB属性的寿险客户指标体系。在K-means算法的改进中,使用改进后的轮廓系数确定初始聚类中心,并综合欧式距离相似度与余弦相似度的测度优势,在类划分中进行局部、全局离群点的过滤。使用改进前后的K-means算法分别进行客户细分,利用BP算法、BP-Adaboost算法对细分后的客户建立流失预测模型。算例实证结果表明改进后K-means算法的簇内误方差变小,最终聚类中心和客户数量在不同类别中的差距增大、可视化噪声降低,且基于改进K-means算法客户细分的流失预测误差较改进前有明显降低。本算法不仅为寿险公司的客户流失风险预警及挽留管理提供参考,也为寿险及相关行业的客户流失预测研究给供借鉴。本研究从“客户流失风险”角度出发,在特定的时间、空间范围内开展客户细分和流失预测建模,可以视为对客户画像的局部研究。未来可综合考虑客户各项指标在时间、空间上的变化,开展更全面的研究。

猜你喜欢
寿险细分聚类
一种傅里叶域海量数据高速谱聚类方法
六大趋势引领扫地机器人细分市场蓬勃发展
基于知识图谱的k-modes文本聚类研究
一种改进K-means聚类的近邻传播最大最小距离算法
赵波涛:发挥工匠精神 做细分领域的“小巨人”
为什么终身寿险比定期寿险贵这么多
深耕环保细分领域,维尔利为环保注入新动力
基于模糊聚类和支持向量回归的成绩预测
定期寿险和终身寿险哪个好
购买一个度假产品