[摘 要]随着5G时代的到来,如何在日趋饱和的市场环境下准确挖掘潜在存量用户的5G业务需求,是运营商亟待解决的问题。文章利用因子分析和K均值聚类算法分析,结合电信客户的消费行为特点,给出了电信客户细分的实际解决方案。实证结果表明,该方法对细分挖掘电信客户有积极作用。
[关键词]聚类算法;K均值;因子分析;客户细分
[DOI]10.13939/j.cnki.zgsc.2021.04.120
1 引言
随着移动通信技术的发展,高速的网络应用场景,如网络购物、高清在线视频、扫码支付、刷脸识别正逐步普及在中国的大中城市。而5G技术的出现,使虚拟现实、自动驾驶、远程医疗等前沿应用也应运而生。据相关研报显示,到2020年年底我国的5G基站数将达到65万个左右,5G套餐用户预计突破2亿人次,实现全国所有二三线城市的市室外的5G信号全覆盖,重点的县城及乡镇也将逐步得到覆盖。面对用户量日趋饱和的市场格局,运营商不得不面临新一轮的市场份额争夺,如何精准营销到每一个潜在用户群体,让未来5G用户量得到快速增长,以满足自身投资回报和用户需求是一个亟待解决的难题。
大数据的普及以及数据挖掘技术的出现,使得运用统计学方法来对运营商海量客户进行精准细分、确定潜在用户成为可能。文章将通过因子分析及K均值聚类方法,对已有数据中的手机用户群体进行细分,并从中找到最可能升级变更为5G高端用户的早期潜在客户群体。
2 电信客户细分的基本思路和流程
电信运营商在每次技术通信迭代时,都需要建设新一代的基站,投资巨大,5G的建设更是如此,为了尽快产生收益回笼资金,在发展新一代资费套餐时,必定相较于3G、4G时代要高很多。故而在现有用户群体内挖掘具有高消费、高使用量的高层次用户使之快速转化为5G用户,成为5G产品精准营销的关键。
文章数据集所涉及的信息变量多,共涉及11个信息特征,包括用户“年龄”“累计在网时长”“当月总出账金额”“近三月月均出账金额”“当月累计使用流量”“上月结转流量”“套餐外使用数据流量”“当月语音主叫通话时长”“套餐外主叫通话时长”“合约时长”“交费金额”等项目,故而采用因子分析能够有效降低数据集维度,为细分客户群提供关键依据。
而本数据集数据量大,数据多以数值型为主,能够很好地体现K均值聚类简洁高效的运算特点。
3 实证因子分析
因子分析是根据变量间相关性强弱把变量进行分组,使得同组内的变量之间相关性较强,而不同组的变量间相关性则较弱。从而找出具有代表性的几个重要公共因子,来替代原有的所有变量。在不损失数据集信息量的情况下实现降维,减少了数据分析的复杂程度。
文章数据集中相关数值变量较多,通过因子分析有助于找到关键的公共因子提高分析准确率。
3.1 因子分析前置判断
首先通过SPSS软件实现因子分析,对预处理的数据集首先采用建设检验,确定数据集是否适合进行因子分析。采用KMO检验和BARTLETT球形检验,结果如表1所示。
其中KMO统计量为0.735,BARTLETT球形度检验,近似卡方839129.508,显著性水平P值0<0.05,表明本数据集具有良好的构建程度,适合做因子分析。
3.2 主成分法求解因子载荷阵原理及步骤
通常当抽取的前m个主成分累积贡献率大于80%时,就认为能够反映原有变量的信息了。表2是采用主成分分析提取公因子后的总方差解释表。
表1中显示前四个因子的载荷平方和总计栏特征值均大于1,累积值达到80.051%,基本可以代表原数据集中的客户信息。
3.3 成分矩阵公因子维度分析
旋转后的成分矩阵见表3,从表中可以看出,公因子1与用戶消费水平方面的关系相关性较高,公因子2在用户手机号累计在网时长和合约使用时长方面相关性较高,体现了客户的品牌忠诚度,公因子3在语音通话上关系较密切,公因子4在上网流量方面相关性较高。为此在进行K均值分类时,选取了“当月累计使用流量”“当月语音主叫通话时长”“近三月月均出账金额”“累计在网时长”几个指标,分别从客户上网、通话、消费能力、品牌忠诚度四个维度对客户进行聚类分析。
4 实例K均值分析
在进行因子分析后,继续使用K均值算法对数据集电信客户进行分类,K均值分算法,也被称作K-means算法,是以距离作为相似度的指标的算法,通过样本点到类别中心的误差平方和,作为聚类好坏的评价标准,通过不断迭代的方法使总体分类的误差平方和函数最终达到一个最小值的聚类方法。
4.1 K均值原理及算法步骤
(2)对于每个样本的xi,将其中标记为距离类别中心,最近的类别,即:
(3)将每个类别中心迭代更新为属于该类别的所有样本的均值,即:
(4)重复后面的两步,直到类别中心最终的变化小于某特定阈值。
4.2 K均值算法难点解析及处理方法
K均值算法使用中有两个难点,一是得到的聚类结果严重依赖于初始簇中心的选择,如果初始簇中心选择不好,就会导致聚类结果出现局部最优解,给数据集客户分类带来偏差,因此文章通过对K均值聚类算法充分迭代和多次运行取平均的方式规避这个问题的出现。
二是K均值的选取,K均值通常取决于对所分析数据集特征的了解。文章的数据集内均为电信客户,目的是找到已有客户群体中具备足够消费能力和使用量的前端客户群,使之转化为未来高层次的5G客户。为处理好K值选择,特参考经典的客户细分模型对电信进行分类数量的选择。
在经典的客户细分模型中,客户往往被按层分为顶层、大、中、小四类,如图1所示。
通常顶端客户群体只占总客户量的1%~5%,大客户占到总客户群体的5%~10%,但这部分客户消费能力强、品牌忠诚度高,往往贡献了全部用户收入的一半以上。这也就是通常所说的二八理论。依据这一特性,对数据集进行探索性实验,将K值确定为3。最终聚类结果如表4和表5所示。
4.3 聚类后客户群体特征分析
由表4可以看出,顶层用户的数量较少,只有4139人,基本符合经典客户理论里的数量占比,大客户群体占到了所有客户群的10%左右,这两部分客户群体是初期5G产品的重点营销对象。下面通过表5具体看一下客户的消费能力分界和通信产品的基本使用情况。
表5中顶层客户的近三月和当月花费都普遍较高,而且当月流量使用量巨大,由于话费几个月来都维持高位,推测用户平时流量使用量都普遍很高,按月均近30G的使用量,属于高端套餐用户内的大流量使用者,平日流量使用场景较多,应该是有较高消费能力的青年人,热衷追剧和游戏。由于5G技术的网速更快,应用场景更多,所以流量使用率也会更高,故顶层用户无疑是5G产品的首选目标客户。
大客户群体与顶层客户费用相差不多,但流量使用量相对顶层客户少很多,月均4G~5G属于较高使用水平,应该是有一定消费能力的中青年办公族,对5G的需求不如顶层用户大,但因为具备较高的消费能力,能使用较贵的高端套餐,是三个群体中平均在网时长最长的客户群体,品牌忠诚度高,故此也是未来转化为高消费5G产品的重要群体。
中小用户的语音和数据流量均不是很大,月均消费也低很多,属于市场中的基础性用户,目前的3G、4G网络速度基本已经能满足他们的需求,由于消费能力原因,他们暂时不会是5G套餐的优先使用者,但由于这一群体最为广泛,基数最大,是未来5G全面普及后的重要营销对象,但同时这一群体在网时间短,所以这部分客户流失概率大,在5G初期就应该在这部分群体中树立良好的5G品牌形象,培养这一客户群体5G时代的品牌忠诚度,挖掘其潜在需求,为日后全面的5G营销做好准备。
5 结论
文章以电信业客户近一个月的使用情况为数据集,通过因子分析和聚类分析为分析工具,对相关数据集内电信客户进行了细分,并应用客户细分理论对聚类数量分析进行了测试,最终确定了最好的分类数量。实证分析中,依据4G时代以来电信运营商更加注重流量营销、注重客户的月消费贡献和流量使用情况的特点,对分类后客户进行了具体的消费行为分析。最终结果符合客户细分理论的基本特点、用户行为特征,也符合文章定位潜在的5G高端客户群体的初衷。表明文章所采用的算法模型可以有效识别出不同消费特点客户群体,是一种有效的电信客戶细分方法。
参考文献:
[1]MAHMOOD EGHTESADIFARD.An integrated approach to the selection of municipal solid waste landfills through GIS,K-Means and multi-criteria decision analysis[J].Environmental Research,2020(6).
[2]乌韦.大数据时代移动互联网广告精准营销研究[D].重庆:西南大学.2016.
[3]郑美容.K-means聚类算法分析研究[J].信息与电脑(理论版),2012(7).
[4]王国顺,权明富,李小文.基于客户消费行为细分的营销决策分析[J].南开管理评论,2005(2).
[5]姜天赟,江燕,王卫权.美国媒体融合发展观察[J].传媒,2019(3).
[6]冯贵兰,李正楠,周文刚.大数据分析技术在网络领域中的研究综述[J].计算机科学,2019(6).
[作者简介]薛龙(1984—),男,汉族,山西太原人,对外经济贸易大学统计学院在职人员高级课程研修班学员,研究方向:项目管理、数据化运营、企业竞争力。