汪悦?高伟?程新洲?王思维?孟范玉
摘要:当前国内移动网络用户已经趋于饱和,运营商之间对于用户的竞争进一步加剧。如何通过人工智能技术提前预测用户携号转出的倾向是运营商目前的一项重要工作。而当前的预测方法大多基于业务人员积累的经验,无法充分发挥运营商海量多模态数据的优势,也无法充分挖掘数据间的关系。因此,本文提出一种基于Focal Loss改进的GraphSAGE(Graph Sample Aggregate)模型,用于用户携转预测。该模型在携转数据集上实验,结果验证了本模型的优异效果。
关键词:携转用户预测;图神经网络模型;GraphSAGE
一、引言
随着移动互联网时代的到来,在移动通信市场存量用户十分有限的情况下,我国电信业务面临着极大的市场竞争压力。当前国内移动网络用户已经趋于饱和,随着携号转网业务的开通,运营商之间对用户的竞争进一步加剧。各运营商都希望能够减少用户转出的数量,控制用户流失,如何通过人工智能技术提前预测用户携号转出的倾向,及时制定相应策略进行用户挽留是运营商目前的一项重要工作。
现有用户携号转网的识别方法大多基于规则进行判断,或者基于决策树、随机森林等传统机器学习方法[1-3]计算用户携号转网的概率。这些方法所采用的规则或者特征主要是业务人员积累的经验,无法充分发挥运营商海量多模态数据的优势,无法充分挖掘数据间的关系,存在识别准确率低的問题,无法为用户的维系、挽留提供足够的指导。
因此,一种通过新的技术手段去识别携号转网用户的方法是必要的。在移动通信领域,网络和人机物交互的拓扑结构具有应用图神经网络技术[4-5]的天然优势。人工智能领域的图神经网络算法在多模态数据(文本、语音、图像等)和复杂网络场景下均表现出比传统机器学习方法更优的决策能力。
本文提出一种基于Focal Loss改进的GraphSAGE模型识别携号转网用户。该方法先基于用户的通话关系,构建用户关系拓扑结构,收集并处理用户信息,输入到基于Focal Loss改进后的GraphSAGE网络中,预测用户是否会在未来携号转网。本模型在运营商省分公司用户数据集上测试,对比多种传统机器学习方法,验证了本模型的优异效果。
二、方法
对于携转用户预测算法,首先构图G(V, E)。其中,V代表运营商省份用户数据,{xv,∈V}表示每一用户的表示特征,其中包含:用户性别、用户年龄、出生日期、套餐号码、流量使用信息、通话时长和信用等级等20个维度。E代表通话关系,矩阵中数值1代表记录中两个用户有通话,0表示无联系。
(一)GraphSage
尽管深度学习在计算机视觉和自然语言处理等领域已取得了巨大的成功,但传统的深度学习方法在处理非欧式空间(图)数据上的结果仍让人不满意。为了解决这一问题,研究人员借鉴了卷积网络(Convolutional Neural Network,CNN)等传统深度学习网络,定义和设计了用于处理图数据的神经网络结构,图卷积网络(Grpah Convolutional Network, GCN)等图神经网络。
GraphSAGE是2017年提出的一种图神经网络方法[4],用于解决图卷积网络(Grpah Convolutional Network,GCN)[5]的局限性。GCN利用了图的整个邻接矩阵和图卷积操作融合相邻节点的信息,一般用于直推式学习。而GraphSAGE采用了节点的邻域信息,不依赖于全局的图结构。它使用多层聚合函数,每一层聚合函数会将节点及其邻居的信息聚合在一起得到下一层的特征向量。
GraphSAGE包含采样和聚合,首先使用节点之间关系连接信息,对邻居进行采样,然后通过多层聚合函数不断地将相邻节点的信息融合在一起,用融合后的特征表示预测节点标签。公式表示如下:
(1)
(2)
(3)
其中,l为层数,N(v)为对节点v其一阶相连的节点上均匀采样的结果。聚合aggregate函数采用mean方式,即对邻域的节点取平均值。W为权值矩阵。σ为激活函数,本文采用reLU函数。最后一步公式(3)为对数据的归一化处理。
(二)Focal Loss
Focal loss [6]被提出用于图像领域解决数据不平衡造成的模型性能问题。本任务所采用的运营商省分公司用户数据集存在着样本不均衡的问题,故本模型采用Focal Loss作为损失函数。公式表达如下:
(4)
其中,α、γ为权重因子分别控制样本不均衡和识别难易程度问题,本文采用α=0.2,γ=2。
三、实验结果与对比
基于Focal Loss改进的GraphSAGE携转预测模型在省份用户数据集上进行实验验证。本文共收集了半年大约10万多条用户数据,按照8:1:1划分训练集、验证集和测试集。并且在各个数据集中携转与不携转的比例大约为5:1。
本文与决策树和随机森林方法做对比。评价指标采用精准率、召回率、F1分数和AUC(Area Under Curve)。精准率也叫查准率,即正确预测为正的占全部预测为正的比例。召回率为正确预测为正的占全部实际为正的比例。F1分数作为综合指标,兼顾了精确率与召回率。AUC被定义为ROC(Receiver Operating Characteristic)曲线下的面积。
实验结果如表1所示。从表中可以看出,基于Focal Loss改进的GraphSAGE模型取得了最优的结果。
四、结束语
本文采用基于Focal Loss改进的GraphSAGE模型,用于预测运营商携号转网情况。该模型充分考虑了海量的多模态数据以及挖掘了数据间的关系。实验结果验证了本模型的优异效果,为用户携转预测提供了有效的方案。在未来,将收集并分析更多月份数据,用以提高模型准确度。
作者单位:汪悦 高伟 程新洲 中国联合网络通信集团有限公司研究院
王思维 孟范玉 中国联合网络通信集团有限公司
参 考 文 献
[1] 胡文玉,李红霞. 我国实施移动业务携号转网政策的研究[J].电信科学, 2010, 26(8A): 133-138.
[2] 盛昭瀚,柳炳祥. 客户流失危机分析的决策树方法[J].管理科学学报, 2005, 8(02): 20-25.
[3] 应维云.随机森林方法及其在客户流失預测中的应用研究[J].管理评论, 2012, 24(2): 140-145.
[4] Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[J]. Advances in neural information processing systems, 2017, 30.
[5] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
[6] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]. Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.
汪悦(1990.04-),女,汉族,河北,博士学位,工程师,研究方向:深度学习、图神经网络技术、通信行业用户侧的场景分析与建模;
高伟(1992.05-),男,汉族,河南确山,硕士研究生,中级工程师,研究方向:机器学习、深度学习、图神经网络等人工智能技术在运营商网络以及业务中的应用研究;
程新洲(1978.08-),男,汉族,河南,教授级高级工程师,研究方向:大数据与网络智能运营研究;
王思维(1982.03-),女,汉族,北京,本科毕业,研究方向:运营平台能力建设及大数据模型开发应用;
孟范玉(1981.11-),男,汉族,山东泰安,大学本科,工程师,研究方向:数据挖掘、机器学习、数据分析等。