唐崔巍 王琼 徐海勇 黄岩
【摘要】 基于运营商5G套餐的精准营销场景,将用户数据、产品数据、访问行为数据等多源异构数据进行图结构转化,文章采用InfoMap算法做图数据节点聚类,使用图卷积神经网络技术对图数据深度计算挖掘,并在群簇节点间通过随机删边技术进行结构优化。结果显示,基于InfoMap算法的图卷积神经网络与随机删边技术相结合的潜客挖掘模型的推荐准确性具有明显提升。在数字化转型时期,该潜客挖掘算法为运营商提供了精准营销、客户管理等方面的新思路。
【关键词】 图卷积神经网络 InfoMap 随机删边技术 潜客挖掘
Research on the Application of Graph Convolution Network in the Telecom OperatorsPotential Customer Mining
TANG Cui-wei, WANG Qiong,XU Hai-yong, HUANG Yan,
(China Mobile Information Technology Co., Ltd., Beijing 100037,China)
Abstract: Based on the 5G package precision marketing scenario, this paper converted users, products and behaviors data into graph-structured data.This paper applied the InfoMap algorithm to cluster nodes of graph data, utilized graph convolution neural network technology to carry out deep computation and mining of graph data, performed random drop edge technology among cluster nodes of the graph data to achieve structural optimization. The results showed that this studys model which was based on InfoMap algorithm combining graph convolution neural network with random drop edge technology model improved the recommend accuracy significantly. In the digital transformation period, the potential customer mining algorithm provides operators with new ideas in precision marketing and customer management.
Keywords: graph convolution neural network; InfoMap; dropedge; potential customers mining
引言:
随着 “5G+工业互联网”的应用场景迅速发展,企业数字化、智能化转型正在加速形成,运营商的业务更趋于互联网化和个性化,深度把握市场需求,为客户创造价值对运营商来说至关重要。业务推荐主要是通过指标分段或以存量标签为规则筛选目标用户,再将配置好的商品名称、商品图片、商品价格、优惠方式以及商品链接进行推送,然而这种推荐模式存在定位人群不精准,推送商品内容与目标人群不匹配等问题,对用户信息数据的利用率仍待提升。因此,提升运营商潜客挖掘的匹配度和准确率愈发重要。本文基于运营商线上用户群体,将推荐引擎与5G套餐推荐场景相结合,采用GCN图挖掘算法进行5G套餐的用户订购行为和用户特征挖掘分析,深度训练优化5G套餐订购潜客挖掘模型,挖掘与现有订购5G套餐用户的特征相似用户,从而输出更精准有效的潜在客户名单,实现用户数据价值充分挖掘。
一、技术现状分析
1.1傳统推荐算法分析
传统潜客挖掘方法的基本原理是基于用户与用户,产品与产品,产品与用户之间的关联关系进行推荐计算[1]。然而,传统推荐算法存在诸多问题,如算法缺乏挖掘深度关联信息的能力,推荐内容与用户所需内容可能只是共有很多浅层联系,如共有很多相同的关键字词,但在语义表达中并不相关,存在推荐结果形似而非神似的问题。此外,不论是人工为内容添加标签,还是构建领域本体或建立规则进行推荐,都需要投入大量人工,训练过程耗时较长,并要求处理者具有一定的行业知识储备。推荐结果的精准度不仅取决于算法模型的精确性,还取决于人工工作的关联性和准确性。最后,传统推荐算法对数据利用并不充分,导致推荐准确率仍有较大提升空间。如何根据已有的用户行为和信息,由推荐算法引擎精准定位出待推荐的人群,准确地进行潜客挖掘和用户偏好预测是一个重要的问题。
1.2图神经网络推荐分析
图数据在现实世界中广泛存在,2009年Franco博士在其论文中定义了图神经网络[2]的理论基础,相较于传统推荐算法具有较高的精准度和较快的计算速度。图神经网络(GNN)也在相关的机器学习任务中取得了不错的效果,但简单地将数据给模型、希望其拟合出来可以得到预期结果的一整套函数在某种程度上是不负责任的。除此之外,随着神经网络层数加深,图神经网络存在过拟合和过平滑的问题,从而阻碍了深层图神经网络对节点的分类效果,影响最终的推荐模型性能。Bruna于2013年提出的图卷积神经网络算法[3]是基于图神经网络的算法升级,在一定程度上缓解了过拟合和过平滑,但是图卷积神经网络算法存在模型单一,缺乏实际生产的案例验证等问题。同时,5G套餐精准推荐业务具有极强的时效性和不确定性,这将直接影响潜客挖掘的精准性。因此需要在图卷积神经网络与其他算法相结合,来提升潜客挖掘算法模型的精度和效率。本文将针对5G套餐客户线上推送场景,从图卷积神经网络算法入手,结合其他模型优化算法,从而更加深度精准的挖掘订购5G套餐的潜在客户。
四、潜客挖掘算法实现
4.1 实验概述
我们根据获取的运营商数据,设置了三个具有不同特征类型和不同图大小(用户数量)的基准图数据集。分别将神经网络深度设置为2/4/8/32层,不同层数即代表不同的网络深度,基于以上数据集对潜客挖掘模型进行性能测试和结果比对。为了验证方法的有效性,文章在不同的基准数据集上分别使用协同过滤算法、GNN、GCN、GCN + DropEdge、GCN + InfoMap + DropEdge五种模型进行数据拟合训练。对若干产品的潜在购买用户的进行计算挖掘,计算已订购某产品用户的特征相似人群。将数据集内前6个月的数据作为训练集,后2个月的数据作为测试集。使用不同方法挖掘出相同数量的用户,计算挖掘出用户中真实有订购行为的人群占比,即模型推荐准确率。
4.2 图矩阵表示
图数据中的每个结点无时无刻不因为相邻和更远的点的影响而在改变着自己的状态直到最终的平衡,关系越亲近的邻居影响越大,图数据如图2所示:
因此,我们应用矩阵来度量节点和邻居节点间的关系。将图数据分别表示为度矩阵,邻接矩阵和拉普拉斯矩阵,分别如图3所示。其中度矩阵只有对角线上有值,为对应节点的度,其余为0;邻接矩阵只有在有边连接的两个节点之间为1,其余地方为0 ;拉普拉斯矩阵为度矩阵与邻接矩阵之差。
4.3图神经网络搭建
图3展示了图卷积神经网络的搭建过程,图卷积的核心在于聚合邻居结点的信息,卷积操作关心每个结点的隐藏状态如何更新。输入的数据是整张图,在卷积层1中,对每个结点的邻居都进行一次卷积操作,并用卷积的结果更新该结点;然后经过激活函数如ReLU,然后再过一层卷积层与一层激活函数;反复上述过程,直到层数达到预期深度。图卷积神经网络会有一个局部输出函数,用于将结点的状态(包括隐藏状态与结点特征)转换成任务相关的标签。最终在输出层后添加一个SoftMax层,即可实现分类。
4.4图节点聚合与随机删边
图神经网络上的卷积的过程存在一个缺陷:卷积操作针对的对象是整张图,也就意味着要将所有结点放入内存或显存中,才能进行卷积操作。但对实际场景中的大规模图而言,整个图上的卷积操作并不现实。
因此,我们在图卷积神经网络中添加InfoMap算法对聚合邻居节点的信息并结合随机删边技术,如图4所示,在保留原有信息的基础上对数据进行整合,以提高计算效率和计算精准度。
4.5算法实现
协同过滤算法:使用传统的推荐算法协同过滤作为实验对照,根据用户信息和用户行为数据构建用户画像,通过相似的用户画像和用户行为,计算出已订购5G产品的相似用户。
GCN算法:
基于数据集进行GCN模型运算,计算图结构中的每个节点的向量特征,最终获取已订购5G产品的相似用户。然而,随着深度的增加,图神经网络层间输出差会逐渐趋近于0,这表明隐藏特征已经收敛到某一驻点,出现了过平滑的问题[15]。除此之外,当图网络深度趋近一定数量级的层后会导致内存不足,计算效率明显下降。
GCN + DropEdge:
通过在GCN模型基础上添加DropEdge处理,计算圖结构中每个节点的向量特征,并随机将不相似的产品或不具有相似特征的用户之间的关联切断,随机截断图数据中节点的路径,最终计算挖掘出已订购5G产品的相似用户。添加DropEdge处理后的GCN性能表现良好,当层数增加时,距离不会消失为零,表明一定程度消除了过拟合问题,GCN的推荐精度显著提升。
并且,添加DropEdge处理后的GCN模型随着网络深度增加计算效率依然高效,这表明DropEdge具有通过使邻接矩阵稀疏来节省内存消耗的优势。
GCN + InfoMap + DropEdge:
基于InfoMap聚类后的群簇数据,进行群簇间节点的随机DropEdge,同样保持随机DropEdge带来的优势,可以显著提高当前GCN在节点分类上的性能。
首先,我们对基准数据集进行InfoMap聚类,将图数据中的各个节点按照平均每步编码长度最优原则,划分为若干个内部节点彼此相似的特定群簇类别。设置不同类别之间的各个节点间关系为0,类别内各个节点间关系为1的邻接矩阵。
随后,对进行InfoMap聚类后的群簇数据集进行GCN计算同时添加群簇间的随机删边处理,随机截断图数据中群簇的路径。GCN在每轮训练时,在节点群簇间随机去掉输入的图上的边,即将邻接矩阵中的非零元素置0,得到随机删边后的邻接矩阵,正则化后代替原来的邻接矩阵。最终计算图结构中每个节点的向量特征,获取已订购5G产品的相似用户。
考虑到图卷积神经网络对深度敏感,本文分别测试了网络深度为2/4/8/32层情况下模型的准确率。由于不同的超参对不同深度的网络影响不同,随机测试了多组超参,最终选取了每个模型在不同基准验证集上的最佳准确性结果。其中,协同过滤算法不具备网络深度计算,只基于各个数据集中包含的不同用户数量实施计算。各模型的计算结果分类汇总如下:
表2总结了4个模型基于测试集在不同网络深度情况下的计算实验效果,结果表明,GCN + InfoMap + DropEdge模型对于潜客挖掘提升效果显著。据观察,在GCN模型中添加DropEdge处理可以提高所有情况下GCN模型的计算精度,而在此基础上融合InfoMap算法可以进一步提升模型精准度。图5更清楚地描述了添加DropEdge和InfoMap处理对于GCN的改进情况,我们计算了单独添加DropEdge和添加DropEdge + InfoMap在不同层数下对GCN主干的平均绝对改进。
图5显示DropEdge为更深层次的架构提供了明显改进,而DropEdge + InfoMap的组合为深层架构提供了进一步优化。相较于单独使用GCN模型,对于有2层的模型,DropEdge + InfoMap + GCN获得了平均1.1%的改进;而对于有32层的模型,它获得了显著的8.2%的提高。因此,应用DropEdge + InfoMap可以大幅度提高GCN在节点分类方面的性能。
此外,單独使用GCN的32层模型可能会出现内存不足的问题,而添加了DropEdge + InfoMap的GCN模型则运行良好,显示了DropEdge + InfoMap通过使邻接矩阵稀疏来节省内存消耗的优势。
表3展示了本实验中在GCN模型中添加和未添加DropEdge和InfoMap的计算资源内存占用情况。
五、结束语
文章将运营商5G套餐数据进行图结构改造,将多源异构数据转化为图数据。对输入的图数据节点进行InfoMap聚类,更加有效地聚合图数据节点挖掘隐藏信息,在图卷积神经网络的基础上使用聚类结果进行随机删边处理,显著提升了算法的潜客挖掘能力。
通过用户特征挖掘和用户订购行为分析,不断深度训练优化5G套餐潜客挖掘模型,最终挖掘输出1000万个潜在5G套餐订购用户名单。将该潜在客户名单作为App Push推送目标用户群,并引导用户进行5G套餐办理,有效提升了5G套餐业务销量。本文的潜客挖掘方法为电信运营商用户精细化运营、产品精准营销提供了借鉴思路,将持续提升5G时代下算法的潜客挖掘和精准营销能力。
参 考 文 献
[1]高琪,辛乐.基于用户偏好度模型和情感计算的产品推荐算法[C]//第 29 届中国控制会议. 中国自动化学会, 2011: 2981-2986.
[2] Scarselli F, Gori M, Tsoi A C, et al. The graph neural network model[J]. IEEE transactions on neural networks, 2008, 20(1): 61-80.
[3] Bruna J, Zaremba W, Szlam A, et al. Spectral networks and locally connected networks on graphs[J]. arXiv preprint arXiv:1312.6203, 2013.
[4]吴国栋, 查志康, 涂立静,等. 图神经网络推荐研究进展[J]. 智能系统学报, 2020, v.15; No.81(01):20-30.
[5]王佳. 图神经网络浅析[J]. 现代计算机(专业版), 2019, 000(023):58-62.
[6]徐冰冰,岑科廷,黄俊杰,等. 图卷积神经网络综述[J]. 计算机学报, 2020, 043(005):755-780.
[7]毛冰城. 面向脑网络分类的图卷积神经网络方法及其扩展研究[D].南京航空航天大学,2019.
[8] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv,2016:1609.02907,.
[9] Li G, Muller M, Thabet A, et al. Deepgcns: Can gcns go as deep as cnns?[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9267-9276.
[10]郑小柏, 崔岩, 刘兴林,等. 基于实体描述和关系图卷积神经网络的实体分类研究[J]. 计算机科学与应用, 2020, 10(7):8.
[11] Bohlin L, Edler D, Lancichinetti A, et al. Community detection and visualization of networks with the map equation framework[M]//Measuring scholarly impact. Springer, Cham, 2014: 3-34.
[12] Rosvall M, Bergstrom C T. Maps of Information Flow Reveal Community Structure in Complex Networks[J]. Proceedings of the National Academy of Sciences USA, 2008:1118--1123.
[13] Rong Y, Huang W, Xu T,et al. DropEdge: Towards Deep Graph Convolutional Networks on Node Classification[C].2020.1907.10903,
[14]雷小锋, 陈皎, 毛善君,等. 基于随机KNN图的批量边删除聚类算法[J]. 软件学报, 2018, 029(012):3764-3785.
[15] Schlichtkrull M., Kipf T.N., Bloem P., van den Berg R., Titov I., Welling M. (2018) Modeling Relational Data with Graph Convolutional Networks. In: Gangemi A. et al. (eds) The Semantic Web. ESWC 2018. Lecture Notes in Computer Science, vol 10843. Springer, Cham. https://doi.org/10.1007/978-3-319-93417-4_38