基于人工智能技术的寿险客户细分研究

2020-07-22 06:10
上海立信会计金融学院学报 2020年2期
关键词:细分决策树均值

(国联人寿保险股份有限公司信息技术部,江苏无锡214002)

一、引言

“客户细分”是20世纪50年代中期由美国学者温德尔·史密斯提出的,其理论依据是客户需求异质性使得企业必须利用有限资源进行有效的市场竞争,即企业根据客户属性、行为、需求、偏好以及价值观等因素对客户进行分类,并针对不同特征的客户提供与之相匹配的产品、服务和销售模式。从研究范畴来看,寿险行业的客户细分属于消费者行为、市场细分和人工智能机器学习算法的交叉研究地带,因此可从客户需求、客户价值、公司资源与能力三个角度考虑客户细分(吕延杰和尹涛,2012)。

在买方市场环境下,由于寿险公司缺乏对客户需求的深入分析,导致保险产品设计缺乏针对性,同质化程度较高。客户需求的差异性是绝对的,相似性是相对的。为了在竞争中脱颖而出,寿险公司必须进行客户细分,结合自身战略定位,集中企业资源制定有效的营销策略。通过为特定人群量身定制保险产品并提供相应的服务,寿险公司可以打造专业的品牌形象和良好的公司声誉(孟庆良等,2005)。例如,华贵人寿针对85后尤其是90后人群,结合大数据推出了独具特色的“国民定寿”产品——擎天柱定期寿险。

二、人工智能技术的应用

2012年后,得益于运算力的提升,大数据技术和机器学习新算法的出现,人工智能(Artificial Intelligence,简称AI)技术得到爆发式的推广与应用。基于大数据的AI技术可以将客户历史交易数据、行为轨迹与机器学习算法相结合,通过快速建模与分析,发现数据中的隐藏信息,最终提供更具针对性的客户细分和客户需求预测、营销机会预测及客户流失预警等研究结论,使客户服务与运营管理更加智能化、精准化(程瑞芬,2013)。

(一)AI机器学习算法

当前人工智能的研究领域正在不断扩大。其中,机器学习主要使用算法解析数据,并对真实事件做出预测和决策。与传统的硬编码软件不同,机器学习主要通过各种算法从数据中学习如何完成任务。如图1所示,机器学习可以分为监督学习(如分类模型和回归模型)和无监督学习(如聚类模型)。通过机器学习,可以从大量数据中获取见解,提高业务敏感性和竞争优势。

图1 人工智能的研究分支

(二)AI技术与业务场景的双向匹配

不同算法有不同的业务适用范围。例如,聚类模型会根据个体相似性对客户群体进行分组,回归模型可以预测交叉销售和二次营销的收入提升,分类模型可以预测营销绩效和潜在客户转化成为真实客户的可能性。AI智能水平的提升需要大量训练,这离不开高质量的真实业务场景,而其中的数据收集、整理、清洗和转换环节将会消耗整个项目2/3左右的时间,这对企业的数据管理能力提出了更高的要求。因此,AI技术得到有效应用的前提是业务人员必须参与其中,并根据业务流程和结果评估AI技术的实用性和适用性。

三、客户细分现状与指标选取

(一)寿险公司客户细分现状

对国联人寿保险公司总公司运营部门工作人员进行一对一面谈,通过填写调研问卷,对目前客户细分操作情况进行调查。调查结果如下:

客户服务部的客服人员希望在客户嘉年华活动中,获得精准的客户分类数据,以便开展有针对性的客户营销活动,达到二次挖掘老客户需求、开拓新客户的目的。同时,希望通过柜面、电话中心、微信等渠道,将收集到的标签数据进行客户归类,结合客户职业、年龄、收入和家庭关系,绘制出以家庭或夫妻关系为单位的客户画像。

客户服务部的续期人员希望将客户基本信息与客户行为习惯进行关联,形成客户续收画像,以此辨别客户的交费习惯和长期品质,方便进行存量客户的持续维护和深度开发。

核保核赔部根据客户的基本信息评估重疾发生率、死亡率等,通过手工分群划分风险等级,进行快速核保及理赔。该部门工作人员希望引入征信系统,以及医院、体检中心、医保中心等与客户相关的外部结论性数据,在不触及客户隐私的情况下,更好地对客户风险等级进行细分,以实现系统智能核保和核赔。

此次问卷调查发现运营部门存在较强烈的客户细分需求,希望将客户细分结果运用到日常工作中,达到提高工作效率、提升客户满意度及更好地预测风险等目的。

(二)客户细分指标

有效的客户细分首先需要构建多维客户特征指标,这些指标并不是越复杂越好,而是要具备一定的稳定性和显性特征。根据公司内部问卷调查结果,并结合专业部门的评估意见,得出如下适合公司业务场景的客户细分指标:

投被保人基础信息,包括性别、年龄、学历、职业类别、婚姻状况、工资、家庭收入、家庭住址所属区域等。

保单信息,包括总保单件数、总保费、险种结构分布、产品结构分布等。

风险信息,包括退保保费、退保件数、犹豫期退保保费、犹豫期退保件数、理赔次数、理赔金额、逾期次数、出单总数、回访次数、犹豫期内退保率(契撤率)、犹豫期后退保率(退保率)、失效率等。

投诉及黑名单记录,包括投诉记录、黑名单列表、客户风险等级等。

(三)机器学习过程

确认客户细分在划分投保人客户价值方面的应用方向与智能核保预测的期望业务场景后,可采集公司客户承保的业务数据。通过数据仓库和ETL工具进行数据清洗和转换,使用Python语言和机器学习项目库搭建客户细分模型,并用处理后的数据进行模型训练和模型参数调优。运用测试数据在训练后得到的模型上进行实验,查看模型使用效果,以达到检验模型的目的(Müller和Guido,2018;Raschka和Mirjalili,2017)。机器学习过程见图2。

图2 机器学习过程

四、模型构建

(一)数据准备

将调研结果进行汇总分析,梳理关键指标并把指标转换为数据库语言。由于数据质量受各种因素的影响,因此数据采集前需要做数据探查,剔除脏数据,并使用Kettle工具进行数据预处理。该工具可以对数据进行加载、抽取和清洗,并将数据作为数据流处理后生成不同类型的数据。

1.变量筛选

变量筛选主要通过相关性分析,将相关性较高的变量组成一类,并根据分析人员经验在每一类变量中选取1~2个代表性指标,再对数据的取值和分布进行数据探查,初步筛选出适合进行分类的2大类29个变量(见表1)。

表1 变量筛选

2.数据采集

使用Kettle工具抽取核心业务系统数据库中所有个险投保和个险核保数据,共计29个字段,约13万条投保数据和12万条核保数据。在数据仓库中创建相同结构的表格,用于保存抽取的基础数据,供数据清洗使用。

3.数据清洗

根据字段类型,对字符型字段采用分布分析,对数值型字段采用集中度和离散度分析,并查看输入变量是否有缺失值、单一值、单类别取值过大、极值等问题。本文主要采用平均数填充、极值剔除等方法对数据进行清洗。例如,投保人年收入字段缺失值较多,同时存在较多的极值。根据数值分布情况,对极值数据进行过滤剔除,并在相对合理范围内,取年收入均值进行填充。另外,总保费和总件数有一些过大的数值,可能影响数据的分布状态,也对其进行过滤剔除。被保险人身高、体重数据缺失较多,无法按照经验进行填充,所以直接剔除该字段。

(二)客户细分模型搭建

本文使用Python语言进行机器学习模型的搭建,搭建过程中用到了Scikitlearn项目库以及Numpy、Pandas、Matplotlib 等一些通用的科学计算、数据分析和绘图库。

1.客户按综合价值分群

信息时代的到来使寿险公司的营销焦点从产品中心转变为客户中心,客户关系管理成为公司面临的核心问题。客户关系管理的关键是客户分类,即针对不同类型的客户制定个性化营销策略和服务,使得有限资源得到最优分配,进而实现公司利润最大化。聚类分析是对客户进行分类的通用方法,而最常用的聚类算法为K均值聚类。K均值聚类通过迭代算法找到代表数据特定区域的簇中心。算法交替执行两个步骤:第一步,将每个数据点分配给最近的簇中心;第二步,将每个簇中心设置为所分配数据的平均值。如果簇分配不再发生变化,那么算法结束。使用K均值聚类可以在选择合适属性的前提下,实现客户群体的自动分类。K均值聚类模型的参数选取情况见表2。

表2 K均值聚类模型参数

K均值聚类模型搭建方法为:读取数据,选择模型所需的参数值;对数据进行最大、最小缩放,使数据值分布在0~1;使用Scikit-learn项目库提供的KMeans模型创建K均值聚类模型,对数据进行聚类分析;将输出结果返回至原始数据,增加标签项,并输出分类结果的二维散点图。

2.智能核保预测

随着AI技术的发展,智能核保逐渐进入市场应用。保险公司列出一系列问题后,投保人根据自身情况完成选择,实时给出核保结论。要实现智能核保预测,可以使用监督学习模型。决策树是一种广泛用于分类和回归任务的监督学习模型,本质上,该模型从一层层的if/else问题中学习,并得出结论。经过前期的用户调研及综合评估,选取适合作为决策树模型参数的字段及目标值(见表3和表4)。

表3 决策树模型参数

表4 决策树模型目标值

决策树模型搭建方法为:选取模型参数及目标值,按照默认3:1的比例,将样本数据随机划分成训练集和测试集。训练集用于模型训练,使模型预测结果接近训练集的目标值输出。测试集用于评估模型分类的准确率,将测试集的参数值传递给决策树模型,验证模型预测的准确率。本文通过Scikit-learn项目库中的Decision Tree Classifier模型构建决策树模型,使用训练集对决策树模型进行训练,并输出训练集和测试集预测精度和参数重要性等指标,最终输出决策参数重要性柱状图。

决策树的主要缺点是存在过度拟合问题,而随机森林是解决该问题的有效方法。随机森林本质上是许多决策树的集合,其中每棵树都和其他树略有不同。随机森林模型的主要思想是:对预测效果良好且存在过度拟合的决策树,可对其预测结果取平均值来降低过度拟合,以保证决策树的预测能力。要搭建随机森林模型,首先需要选择模型参数及目标值数据,然后对数据进行训练集和测试集的划分。通过Scikit-learn项目库提供的Random Forest Classifier模型构造随机森林模型并对模型进行训练,得到随机森林模型的训练集和测试集预测精度等指标,最终输出决策参数重要性柱状图。

五、模型应用

完成模型搭建后,需要根据输出结果调整模型参数,以构建更好的机器学习模型(周世兵,2011)。而参数调优需要对生成的模型进行观察和调整,这里更依赖数据科学应用人员对模型算法的了解及参数调优经验。

(一)K均值分类模型参数调优

首先选取聚类数量为3。图3显示,数据在中心点周围被分为较均匀的3个簇,左右边界的数据分布较集中,总体分布均匀,因此3个簇划分效果较好。

图3 聚类数量为3的散点图

尝试选取聚类数量为4。图4显示,所有数据以多条直线为划分边界,左右两边的边界数据较集中,客户划分同一簇中相似性偏少,难以从业务角度解释不同的客户分类。因此,以3个簇为参数进行K均值分类是可接受的分类模型。

图4 聚类数量为4的散点图

(二)决策树分类模型参数调优

分别构建最大高度为3、4、5的决策树分类模型①由于篇幅限制,本文未列出最大高度为4和5的决策树模型图,有兴趣的读者可与作者联系。,绘制决策树模型参数重要性柱状图。图5为最大高度为3的决策树模型,可以看出决策树分类较少,且没有在树的叶节点区分出不同的种类;观察参数重要性柱状图(见图6),发现该决策树模型仅使用了体检、健康告知异常和投保时年龄3个参数进行决策,存在欠拟合的情况。决策树最大高度为4时,生成的决策树分类较多,可在树的叶节点上区分出不同的分类;图6显示,该决策树模型使用了体检、健康告知异常、投保时年龄、契调记录、残疾告知、年收入、性别7个属性值,以健康告知异常、体检、投保时年龄共3个参数进行决策,总体来看决策模型较好。决策树最大高度为5时,生成的决策树叶节点过多,造成分类过于细化;图6显示,该决策树模型使用了与前一决策模型相同的7个参数进行决策,但可能存在过度拟合。综合考虑,以最大高度为4来构造决策树可以得到较好的决策树模型。鉴于随机森林模型通常可以提供更好的预测,尝试使用该模型进行核保预测的优化。

图5 最大高度为3的决策树模型图

图6 决策树模型参数重要性柱状图

(三)随机森林模型评估

使用5棵决策树设置随机森林模型,得到参数重要性柱状图(见图7)。随机森林模型使用了9个属性值对被保险人数据进行分类预测,其中以健康告知异常、体检、投保时年龄、年收入为主要分类依据,分类参数较多。相对于单棵决策树来说,使用更多决策参数通常有更好的泛化性能,适用性更好。但随机森林算法对于模型的计算有更高的要求,训练时间更长。因此,在单棵决策树模型就可以取得较好预测结果的情况下,无须使用更复杂的随机森林模型。

图7 随机森林模型参数重要性柱状图

(四)模型检验

检验模型的性能和准确性是机器学习的最终步骤。将模型应用到测试集数据上查看效果,是判断模型是否准确有效的实践标准。

1.K均值聚类模型检验

从数据层面查看输出数据标签结果,分析同一标签数据内的统计分布,对比不同标签数据的不同取值,对模型进行业务解读和模型校验。查看K均值聚类模型聚类数量为3的输出数据,每条客户数据都被打上了I、II或III的分类标签及每类标签的客户群特征(见表5)。

表5 K均值聚类模型检验

观察期交比例,I类客户期交为0的较多,而II类和III类期交为1的较多;观察初次购买时间,I类和II类距今时间较短,III类距今时间较长;观察退保数据,I类和II类退保率较低,III类较多;计算保费均值,III类最高,其次为I类。上述结果的分类界限较清晰,因此该客户细分模型是有效的。

2.决策树分类模型检验

根据测试集评估分类的准确率,将测试集的参数值传递给决策树模型,验证预测的准确率。决策树最大高度为4时,训练集精度为94.8%,测试集精度为94.3%,预测正确率较高。但要得到更好的分类模型,还需要收集更多的数据并细化参数,进一步观察目标值分布情况。

3.随机森林分类模型检验

本次随机森林模型训练集的训练精度为96.8%,测试集的测试精度为93.1%。在当前数据收集情况下,随机森林模型训练集的精度高于决策树模型,而测试集的精度低于决策树模型,很可能存在过度拟合。

六、用户验证与反馈

(一)模型结果输出

客户细分模型根据总保费、期交保费占比、首次购买时间、最近活跃记录、退保保费等属性值对投保客户进行了分类,三类客户特征分别为:

I类——占比26.3%,期交保费占比较低、退保客户较少、保费均值5.5万元,近期客户活跃记录较多,属于新客户且客户价值较高。

II类——占比45.7%,期交保费占比较高、退保客户较少、保费均值3.9万元,近期客户活跃记录较多,属于新客户,但客户价值低于I类,高于III类。

III类——占比28.0%,期交保费占比较高、退保客户较多、保费均值8.6万元,近期客户活跃记录较少,属于老客户且客户价值较低。

智能核保模型中,是否有体检记录、健康告知是否异常、投保时年龄等属性,对于核保结论影响较大;残疾告知情况、是否有契调记录、被保险人年收入等属性,对核保结论也有影响。决策树模型实证结果显示,健康告知无异常的投保人,标准核保通过的比例较高;有健康告知异常、没有体检且投保年龄43岁以上的投保人,延期情况较多;有健康告知异常、有体检记录的投保人,条件承保较多。随机森林算法判断属性较多(仅有3 项没有使用),训练集、测试集整体精度较高,但存在过度拟合的情况。

(二)业务部门验证与反馈

客户服务部门对模型输出结果提出的意见包括:用价值保费代替规模保费属性;分析分类后的年龄指标,考虑年龄分层;分类时区分产品类别;观察投保人是否为家人购买保险。在智能核保决策树模型中,主要问题是数据总量偏少。在增加数据量的情况下,模型可以得到不断改进和优化。

重新调整客户细分模型的参数(见表6),并重新进行数据准备、模型搭建、模型测试和模型检验,形成闭环的模型校正过程,最终得到K均值模型聚类结果的散点图(见图8)。对输出结果进行检验,模型将数据集分为3类(见表7)。

表6 调整后参数

图8 K均值模型聚类散点图

表7 数据集分类情况

七、研究结论与展望

(一)研究结论

建模过程需要注意以下三个问题:

第一,分析目标需明确。寿险公司应针对不同类型的客户进行问题分类,并针对不同的客户问题分别进行建模分析。注意考虑实际业务背景,根据特定业务背景搭建正确的模型,并抽取相关主题的指标变量数据。

第二,数据信息需准确和及时。数据质量直接决定了模型结果的准确性,因此在采集数据时应注意收集准确的数据。本文仅使用了客户在保险公司提交的收入、职业等特征数据,若结合客户的外部数据,预测准确率将有明显提升。

第三,预测结果需及时试用并根据反馈意见进行模型修整。模型分析结果要及时传递给业务人员,在实际操作中验证模型质量,并将业务部门意见及时反馈给分析人员,以便对模型进行修整,为未来模型搭建提供依据。

通过K均值聚类算法、决策树分类算法及随机森林分类算法的研究与实践,本文充分验证了寿险公司使用AI机器学习算法进行客户分组和智能预核保的可行性。但是仅有模型还不够,需要业务部门和数据分析团队持续进行紧密合作,将业务问题转化为数据问题,共同进行数据分析,为业务目标负责。客户细分是一项需要持续改进的工作,应当积累经验并逐步完善算法。

(二)模型应用展望

1.深度展望

客户标签管理方面,在模型搭建并经业务部门验证后,可将模型结果嵌入CRM系统,并按图9所示的分类方法生成相应的客户进阶标签。

智能产品推荐(二次营销)方面,在客户首次承保时,根据其经济能力和家庭状况,生成个性化促销方案,并结合客户的智能预核保结论,直接将二次营销产品投保单提供给客户进行快捷投保,省去客户选择产品、营销员选择客户等中间环节。

2.广度展望

本文创建的模型也存在一定的问题,还需要持续调整模型指标和细分变量。未来模型可进行拓展的方向包括:

图9 客户进阶标签

首先,扩充客户外部信息数据。保险公司与客户的互动低频低效,难以形成完整客户画像。未来可结合客户外部数据,如家庭结构、个人征信、医保信息等,加强模型应用的准确性。

其次,搭建客户其他维度分析模型。除客户价值模型,还可构建客户风险等级模型、客户理赔防欺诈模型、客户退保预警模型等,以便有效实施客户关系精准化管理。

最后,搭建代理人行为分析模型。根据移动展业、微信等应用系统中采集到的保险代理人行为数据,分析代理人学历、入司时长、活动范围、工作业绩等指标,建立公司代理人行为分析模型,将代理人进行分组,制定个性化培养方案,激发不同类型代理人的业务潜能。

猜你喜欢
细分决策树均值
深耕环保细分领域,维尔利为环保注入新动力
一种针对不均衡数据集的SVM决策树算法
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
1~7月,我国货车各细分市场均有增长
整体低迷难掩细分市场亮点
关于均值有界变差函数的重要不等式
基于肺癌CT的决策树模型在肺癌诊断中的应用