李吏豫
(中国移动通信集团山西有限公司市场经营部,山西 太原 030002)
2020年,由于疫情原因,人民受限在家白天“小孩上网课、父母远程办公”,晚上个性化“影视、游戏、看直播”,充分享受到在线教育或者远程办公的便捷服务。疫情为家庭用户的消费习惯和生活习惯都带来了深远影响,同时进一步凸显出家庭宽带对全民社会经济活动的深远影响。
目前工信部发布的通信业经济运行情况显示,截至2020年10月末,三家基础电信企业的固定互联网宽带接入用户总数达4.81亿户,其中100Mb/s 及以上接入速率的固定互联网宽带接入用户达4.27亿户。另据国家卫生计生委发布的《中国家庭发展报告(2015年)》,我国共有家庭 4.3 亿户左右。也就是说,我国城市家庭和绝大部分农村家庭已经普及百兆光纤宽带服务,增加了家庭宽带发展对精准营销的要求。
家庭宽带发展对运营商增收、保有存量用户有着重要意义,然而目前仍缺乏家庭级客户画像、家庭级业务推荐能力,更多依赖一线人员凭经验行销摆摊或电话营销时,数字化获客水平低。为了进一步提高营销效率,需有的放矢针对性开展精准营销工作。因此,本文对如何精准定位家庭宽带营销目标用户进行了系统研究。
Boosting 算法的思想主要来源于Valiant[1]提出的计算学习理论——PAC(Probably Approxi-mately Correct)学习模型。该算法的提出对弱学习算法与强学习算法的等价性问题作出了肯定的回答,将许多弱学习算法进行组合迭代,最终生成一种强学习算法。也就是说,Boosting 算法可以通过集成一些预测精度高于随机预测的学习算法获得高性能的学习算法。
XGBoost 算法是一种基于梯度决策树的Boosting 算法,相对于普通的决策树算法,XGBoost 算法因其更高的准确性以及对数据的普适性,近年来被广泛应用于商品推荐算法等方面。本文基于XGBoost 算法,建立分类预测模型,预判用户办理家庭宽带的需求。结果表明,与其他机器学习算法相比,XGBoost 速度更快、准确度更高。
山西移动2020年8-10月订购家庭宽带业务的21.0万用户作为正样本,随机选择42.0万未办理业务用户作为负样本;11-12月订购家庭宽带业务的10.9万户作为验证集。
通过文件数据采集及入库、数据同步、网络爬取3种方式采集到B 域与O 域的家庭相关数据。B 域数据包括用户包括信息数据、业务使用数据、投诉数据、活动及业务订购数据等,O 域数据包括用户APP 使用数据、用户轨迹数据、DPI 信令数据等。最终选择14大类347个字段作为原始特征,详见表1。
表1 原始特征
对数据预处理后,通过逐步回归方法对原始特征进行相关性分析,筛选出与办理家庭宽带行为关联性较高的特征,并剔除自相关特征,最终选择56个特征入模,详见表2。
表2 入模特征
通过数据处理后用XGBoost 算法进行数据建模并输出模型结果,同时使用决策树与随机森林算法建模。通过查准率、召回率、F1值、提升率指标来评估模型效果,XGBoost 算法效果最佳。详见表3。
表3 模型评估结果
整个研究项目初步达成了如下成果:
本次研究完善了家庭圈标签,并首次将小区网络指标、友商APP 使用及搜索类特征作为家庭宽带潜客研究对象特征。通过对基础特征分析建模,输出潜在家庭宽带用户,作为标签上线。完善家庭类、宽带类标签体系,直接应用至家庭宽带及家庭类产品营销中,产生了更好的营销效果。
在家庭宽带潜在客户基础上,形成“高价值小区模型”。使用家庭宽带潜在用户常驻地的经纬度和小区位置数据进行关联,计算用户所属小区,并结合家庭圈、B域与O 域的数据,以小区为粒度进行整合,从而将家庭宽带潜在用户聚类至小区中,生成高价值小区清单。在一线人员营销工具中增加“宽带作战专区”,将模型输出高价值小区按颜色高亮展示,助力其优选重点小区攻坚,提升公司家庭宽带业务发展成功率。
本研究整合运营商B 域和O 域信息,完善了基于小区和用户画像特征,结合用户位置信息、用户消费信息、用户使用相关APP 信息、用户的通话行为等用户特征数据,利用XGBoost 算法,形成家庭宽带潜在客户清单及高价值小区清单,实现家庭业务的精准推荐。