◆赵雨露
基于大数据分析的电信用户离网预测
◆赵雨露
(江苏省南通市海安市住房和城乡建设局档案馆 江苏 226600)
本文通过对用户数据库中的数据进行挖掘分析,分析南通电信用户的离网现状、原因,挖掘出电信用户流失的影响因子,通过计算、分析,得出影响因子的阈值。最后基于xgboost算法,以客户离网行为分析为前提,根据已有数据进行分类归纳,将离网数据进行量化后,利用多种算法进行投票表决,从而计算出用户的离网规则,根据设置的风险值来判断用户是否具有离网倾向。本文最大的创新点在于,加入了营销话术的匹配程度,判断在得出离网用户的同时是否能够挽回用户,实现精准营销。
离网;数据分析;xgboost;营销话术
随着信息技术的高速发展和移动终端的飞速进步,家用宽带和电信用户的规模也在不断扩大,同时,因为运营商之间的价格竞争激烈,并且面临互联网技术的巨大挑战,离网用户的规模也日渐增多,宽带等移动产品作为电信行业的主要收入来源,在国家提速降费政策面前停滞不前,面临巨大的挑战。
数据挖掘能够分析用户痛点、痒点、兴奋点,以大数据为驱动力,以统计学习为工具,深入客户潜在的需求。通过机器学习算法可以有效地挖掘出离网用户,但是如何精确营销,使用哪种营销话术挽回离网用户是一大难题。
精准营销就是企业需要更精准地把握市场动向、客户需求、企业效益目标,结合客户日常行为数据,给客户进行更个性化的服务。
在电信行业,国外运营商也早已涉足大数据技术应用:美国 T-mobiles 采用 Informatica-The Data Integration Company 平台开展大数据工作,通过对客户流失原因的分析,可以对潜在流失客户进行预警,根据不同客户的需求,提供个性化的服务,以最大程序减少客户的流失。
客户离网是全球各大电信运营商非常重视的话题,根据统计,美国电信行业的客户离网率达到了30%,欧洲则为25%。客户离网导致的直接后果就是公司利益的损失,因此对客户离网进行预警,能够对高潜在离网的用户进行挽留操作。
如果存在高潜在离网用户,通过对该用户的历史行为进行分析,懂得用户真正的需求,给用户进行个性化的服务推荐,满足用户需求,可以减小用户离网的可能性。
本文研究内容主要可以分为下面三个部分:一是基于用户行为、用户属性的离网预测,前期对电信大量数据进行预处理(样本采样、过滤,数据分类、归一化、离散化、特征降维等等),通过公式计算得出一些列规律,建立较为准确的模型和损失函数,使用正规化选择较好的算法模型,利用梯度下降算法对参数进行快速的确定,最后使用xgboost,将多个算法结合投票的得出结果。二是基于得出的离网用户,配合各个不同营业员的特征参数,话术参数进行第二次回归分析将第一步得到的结果,作为第二部的参数,再次进行分类,利用Softmax回归进行分类,得出结果。第三针对第一步和第二部的结果精准判断哪些是潜在用户,哪些是保有用户,哪些是离网用户,正确画出用户画像后,对比用户的购买行为,在第一层使用逻辑回归算法,第二层使用人工神经网络,从而实现精准营销。
数据获取:在南通市电信局,我们采用HDFS和Spark负责原始数据的存储和管理包括详细的通话记录单及宽带用户表。其中两张表均含有用户自身数据,包括年龄、性别、主套餐、融合套餐、资费、基站、套餐使用情况、教育程度、通话时间、最大流量APP、流量使用前10名APP等。
数据预处理:(1)进行数据清理,对数据的唯一属性值进行删除(如身份证、姓名等)。(2)对数据进行缺失值填充,先对异常数据进行过滤,将其值变为控制,然后使用拉格朗日插值方法对数据进行填充,使用回归方法进行噪声平滑处理。(3)对特征值进行One-HotEncoding,使得我们能够处理非数值属性;在一定程度上扩充了特征;编码后的属性是稀疏的,存在大量的零元分量。(4)对数据进行标准化操作于每个属性,设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x',其公式为:新数据=(原数据 - 最小值)/(最大值 - 最小值)。(5)因为前期进行了One-HotEncoding,为了减轻维度灾难问题,对特征向量使用filter进行降维处理。
Feature Engineering:特征工程模块将原始数据处理成和离网相关的结构化特征,用作分类器的输入,在这里,我们使用GMM和EM聚类方法。我们将用户的特征集进行划分,得到了三种行为分类:通信行为判别模型、交友圈与社交行为模型、业务质量感知评估模型。
Classifiers:利用分类器训练出来的模型预测未来有离网倾向的用户,按照离网倾向高低排名,根据这个名单进行个性化维挽。在分类过程中,我们整体的算法使用了投票的机制,运用多种机器学习算法,得出阈值,再对阈值进行xgboost分类,从而德奥最终的结果,在第一层,我们分别使用了SVM算法、随机森林算法、逻辑回归算法,最后使用决策树将三种算法的阈值进行分类,得到最后的分类结果。最后将用户维挽的结果反馈到模型中形成闭环,不断提高模型预测容易维挽的离网用户精度。通过设置一个预警值来进行离网预警,使用随机森林画出用户特征值的影响程度,并找到最相关的特征变量。通过交叉验证,进行模型的优化,防止过拟合和欠拟合,模型融合可以比较好地缓解训练过程中产生的过拟合问题,从而对于结果的准确度提升有一定的帮助。用python中scikit-learn里面的Bagging来完成。
结合营销话术进行二次分类:本文最大的亮点就是在找到离网用户和即将离网的情况下,如何通过营销话术和用户行为偏好挽留用户,在这里,我们结合已经画好的用户画像,对我们的营业员数据和营销数据进行结合,再次进行新的一轮数据清理,使用人工审计网络的方法对每一项特征值计算得出相对应的权值,使用后向传播算法对其进行二次分类。
收集用户属性和偏好。要从客户的行为和偏好中发现规律,并基于此给予推荐,如何收集用户的偏好信息成为系统推荐效果最基础的决定因素。
找到相似的用户。当已经对用户行为进行分析得到用户喜好后,我们可以根据用户喜好计算相似用户,然后基于相似用户进行推荐,这就是最典型的基于用户的协同过滤。最后采用皮尔逊相关系数或者余弦相似度计算用户的相似度。
计算推荐。基于用户对物品的偏好找到相邻邻居用户,然后将邻居用户喜欢的推荐给当前用户。计算上,就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,找到 K 邻居后,根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表作为推荐。
初始化推荐列表,对列表进行过滤、排名等处理,从而生成最终的推荐结果。
[1]王文学,陈天池,徐海燕.大数据在电信行业的应用研究[J].信息通信,2019(03):241-243.
[2]姚黎强.大数据在运营商中的应用[J].电信工程技术与标准化,2018,31(09):56-59.
[3]王远征,吴峰,夏明镜,等.电信宽带用户离网大数据预测实例[J].电信技术,2016(10):83-87.