改进SOM和快速K中心点银行客户细分

2021-06-21 06:58吴虹颖郑山红
长春工业大学学报 2021年3期
关键词:客户群中心点细分

吴虹颖, 郑山红, 苏 珂

(长春工业大学 计算机科学与工程学院, 吉林 长春 130012)

0 引 言

近年来,精准营销理念越来越受到公众的关注。如何利用好现有数据挖掘出客户的潜在需求,并以正确的方式将其推送给正确的人,已成为影响银行发展的战略性问题[1]。

现阶段,客户分类问题结合数据挖掘方法尤为普遍,常见的算法如K-means、决策树以及SOM神经网络等。郑焱[2]利用决策树算法对商务网站的客户分类,但这种算法过程过于冗余;任昌涛[3]、张禄等[4]利用 K-Means 方法建立客户细分模型对客户进行细分;陈倩舒[5]、包志强等[6]构建RFM模型,用层次分析法确定指标权重,再用K-means算法对客户进行分类。但上述方法中K-means聚类容易陷入局部最优,需要人为确定K值,K值将直接影响聚类结果。王珺等[7]建立银行信贷资源动态分配优化模型,对影响银行最优放贷量的重要参数进行分析;胥学峰等[8]用PCA将指标降维,再用SOM神经网络对房地产客户价值进行细分;孙铭[9]采用SOM算法对天然气生产企业用气客户进行实证分析,但是传统的SOM神经网络其学习速率难以判断。

文中在传统SOM基础上对学习速度进行改进,动态设置模型学习速度,在保证模型稳定性的同时,提高收敛速度。并将改进后的SOM与快速K中心点算法进行组合,提出一种适用于对大量银行客户进行快速聚类的SOM-Kmedoid-CH聚类算法。该算法利用SOM神经网络的输出表征输入模式的特点,结合快速K中心点对噪声数据敏感性小且时间复杂度低的特性,先用SOM对数据量大、特征多的银行客户数据进行训练,再用快速K中心点算法对SOM输出的原型向量聚类,同时用CH指标判定最优聚类个数,以克服上述研究的不足,实现对大量银行客户进行快速有效细分。

1 银行客户细分

客户细分的主要思路是找出具有相似行为、价值特征的客户群[10]。通过对银行客户进行深度细分,可以了解银行不同客户的消费特点,从而识别价值客户,然后针对不同类型的客户提供差异化服务,提高服务水平,争取更好的客户资源。文中在SOM-Kmedoid-CH算法聚类结果基础上,基于客户价值[11]对银行客户进行二次分类,依据客户的当前价值和潜在价值两个维度来划分,每个维度分为两个档,将银行客户分为重点客户、发展客户、普通客户和不稳定客户4类,客户价值矩阵如图1所示。

2 SOM-Kmedoid-CH混合聚类算法

2.1 SOM算法介绍

自组织神经网络(Self-Organizing Maps, SOM)是一种无监督神经网络,由Kohonen T[12]提出。它同时具备矢量量化功能和矢量投影功能,能够对样本进行自动聚类。SOM神经网络结构如图2所示。

图1 客户价值矩阵

图2 SOM神经网络结构

该网络结构只有两层,分别是输入层和输出层(竞争层)。第一层是输入层,负责数据的输入,第二层是输出层也是竞争层,排列方式为二维节点矩阵,输入节点处于其下方。

SOM由排列在低维空间(称为输出层)的m个神经元(结点)组成,每个神经元用一个d维权向量Wi=(Wi1,Wi2,…,Wid)表征(d代表输入数据的维度),该权向量被称为原型向量。SOM使用连续迭代的无监督学习对输入数据进行训练,目的是为了将输入数据映射到与其相似度最高的原型向量表示的结点中,并保持其拓扑结构不变,适用于样本量大的数据。但SOM神经网络输出的聚类结果不确定,学习效率受到网络连接权重和学习速率等影响,“噪声”数据也会影响聚类效果[12]。

2.2 SOM-Kmedoid-CH混合聚类算法

针对传统SOM学习效率易受到学习速率影响问题,文中将学习速率设置为关于时间t的单调递减函数,这样能保证在训练刚开始时以较快的速度对模型进行学习,在训练即将结束时,学习速率趋近于0,保证模型训练的稳定性。学习速率为

(1)

式中:λ(0)----模型初始学习速度;

T----学习步长。

该方法能够在提高SOM学习速度的同时,保证训练过程收敛的必然性,以及SOM神经网络的稳定性。

细分技术未来的发展趋势是将不同算法的优点进行结合[13],所以将改进的SOM算法和快速K中心点算法结合,并用CH指标自动判定最佳聚类个数,提出改进的SOM-Kmedoid-CH混合聚类算法。快速K中心点算法克服了K-means算法对孤立点和噪声数据敏感的问题,以及PAM时间复杂度高、计算代价大的问题。Calinski-Harabaz(CH)指标是常用的聚类效度指标[14],CH值最大的所对应的聚类个数即为最优聚类数目。SOM-Kmedoid-CH混合聚类算法在快速学习和稳定性的要求中取得了平衡,解决了传统SOM算法在学习速度上的问题,还可以有效解决噪声数据影响聚类效果问题,同时减少人为确定聚类个数的盲目性和主观性。其次,在快速K中心点以设定聚类数目的范围[Kmin,Kmax]代替直接指定最终聚类数,使细分结果有意义。

SOM-Kmedoid-CH聚类算法可以分为两个步骤:

1)一次聚类。对大量原始数据使用改进的SOM先进行“粗聚类”,得到数据量远小于输入数据量的原型向量;

2)二次聚类。再用快速K中心点对这些原型向量进行正式聚类,同时使用CH指标自动判别最优聚类数目,以保证聚类效果。

算法流程如图3所示。

图3 SOM-Kmedoid-CH算法流程

2.3 SOM-Kmedoid-CH聚类性能测试

采用UCI中不同规模的数据集对SOM-Kmedoid-CH改进聚类算法进行性能测试,测试结果见表1。

在不同数据量的测试数据集上,改进的SOM-Kmedoid-CH算法具有最高正确率,并能准确判断最佳个数;在运行时间上,由于SOM-Kmedoid-CH和SOM-Kmeans-CH需要先构建SOM网络并训练,所以处理小样本时K-means算法效率最高。当样本量增大时,SOM-Kmeans-CH算法运行时间最短,但比SOM-Kmedoid-CH并没有显著优势。综合考虑运行时间、分类正确率和CH指标有效性三方面可知,改进的SOM-Kmedoid-CH算法优于传统聚类算法。

表1 UCI数据集测试结果

3 实验验证

3.1 数据集和数据预处理

文中选取的数据是Kaggle官网Standard银行客户数据中fecha_alta属性为2014年的119 783个客户数据,包括用户的个人基本信息和产品历史购买记录等共48个属性。文中删除了对此次聚类意义不大的属性,最终选取14个属性指标,见表2。

表2 客户指标

为防止数据出现不一致性,文中按照指标的实际意义对全部客户的部分指标数据进行量化,使量化值准确反映指标内容。具体指标量化情况见表3。

表3 指标量化

为消除数据间由于量纲不同对聚类结果产生的影响,对原始数据进行MIN-MAX标准化处理。

3.2 实验与结果

使用改进SOM-Kmedoid-CH混合聚类算法对经过预处理的银行客户数据进行聚类,第一次聚类时,SOM网络结点数为150,按照[15×10]矩阵排列,迭代周期T=400;第二次聚类时,将最终簇数目的区间范围指定为[4,15]。最大的CH值对应的最佳聚类个数为8。所以通过SOM-Kmedoid-CH聚类方法将银行客户分成8类,每类的样本量以及中心点分布见表4。

第1列为类编号,第2列为每类包含的客户数量,其他各列对应各类的中心点在各细分变量的取值和占比。

3.3 聚类结果分析

通过表4可以看到,数据样本被分成8类。为使银行能够更直观地观察每类客户的特征,从而为之提供差异化服务,现将聚类结果参照巴雷托分析法[15]与客户价值矩阵进行进一步分类,最终将8类客户群划分为四大类,并为不同客户群提供针对性的经营策略。具体分类如下:

Ⅰ类客户:第5类和第6类为重点客户,占比为11.5%。其表现为年纪偏大,活跃度高且收入高,VIP客户相对较多,有较多的财富累积,较高的风险承担能力。针对该类客户群,银行应该投入主要精力和资源,设计并实行个性化保持策略,进一步巩固客户粘性。

表4 各类样本量及中心点分布

Ⅱ类客户:第1类为发展客户,占比为26.4%。其表现为有一定年纪,活跃度较高,收入较高,有一定的财富累积,各种理财产品都有所涉及,有一定的风险承担能力。针对该类客户群,银行应当提供丰富多样的产品供其选择,或者为客户制定相符合的理财计划,进而增加银行收入。

Ⅲ类客户:第2类、第3类和第4类为普通客户,占比为29.31%。其表现为有一定年纪,但活跃度和收入较为一般,VIP客户相对较少,风险承担能力较低。这类客户对理财需求较低,不会轻易购买理财产品,针对该类客户群体,银行应提供更快捷的服务渠道,帮助客户了解银行不同类型的产品,进而提升该类客户对银行产品的认可度和喜爱度。

Ⅳ类客户:第7类和第8类为不稳定客户,占比为32.6%。其表现为比较年轻,活跃度低并且收入低,财富累积较少,风险承担能力低。这类客户对理财类金融服务可能还不够了解。针对这类客户,银行可以邀请他们参加一些不同的理财产品推广会和座谈会,同时为其提供差异化的理财产品。

4 结 语

近年来,加入WTO后,金融改革和外资银行的引入对本土银行产生了巨大影响。如何有效地对数量庞大的银行客户进行准确划分,是银行制定服务对策的前提。文中提出改进的SOM-Kmedoid-CH聚类算法可以弥补传统聚类算法影响聚类结果准确性的不足。首先利用SOM算法对数据进行“粗聚类”得到表征数据主要特征的原型向量以压缩数据量,再使用快速K中心点算法对所获得的原型向量正式聚类并用CH指标识别最优聚类数目,减少人为指定聚类个数的盲目性和主观性。采用UCI上不同规模数据对算法性能进行了测试,实验结果表明,同传统聚类算法比,改进的SOM-Kmedoid-CH具有最高分类正确率并能正确判定聚类个数。将其应用于Standard银行客户细分,将客户分为8类,然后结合客户价值矩阵将客户群再次划分,最终将客户群划分为四大类,分别代表重点、发展、普通及不稳定客户群。并从服务和营销角度为银行提供针对不同客户群的营销策略。

猜你喜欢
客户群中心点细分
一种基于标准差的K-medoids聚类算法
Scratch 3.9更新了什么?
深耕环保细分领域,维尔利为环保注入新动力
如何设置造型中心点?
1~7月,我国货车各细分市场均有增长
寻找视觉中心点
浅析微电影
整体低迷难掩细分市场亮点
专注于特殊客户群社交网广告
纸媒新希望 看新型报纸如何细分市场逆势上扬