赵东明 候越先 王博 田雷 刘静
(1.中国移动通信集团天津有限公司人工智能实验室 天津市 300020)
(2. 天津大学智能与计算学部 天津市 300192)
客户潜在不满预测,是中国移动重要的客户服务分析任务,用于挖掘潜在不满意用户,给予精准维系和服务,以提升客户服务感知。中国移动各服务领域应用呈现出越发复杂的特性,数据来源众多、系统逻辑复杂、应用需求繁杂,因此构建中国移动潜在不满预测系统,面临的场景是“多而杂”,比如智能应答侧提供的数据来源为投诉工单、在线服务记录、需求文档、业务管理规定、语音转写文本等,而存量运营侧则需要客户特征、客户标签、场景化行为、DPI解析数据等。通过构建一种面向中国移动服务预警的认知概念网络,针对不同场景定制模型,将会对服务提升产生重要作用,当然,完成构建过程中的数据处理、模型学习等工作也是巨大挑战。
本文主要研究面向中国移动客户潜在不满预测的分析型认知知识图谱,由于知识图谱具有深度语义信息,因此将其命名为认知概念网络,以体现其基于认知智能进行语义深度理解的价值,重点从隐语义数据(大数据画像、偏好、标签、行为、应用、数据库、位置、浏览记录等)挖掘逻辑挖掘,针对服务策略推荐、根因分析、问题溯源等提供认知理解能力。
满意度预测的分析类知识图谱是一种认知概念网络,其作为认知智能在中国移动客户服务领域的重要落地方向,可以成为各类服务运营工作的辅助决策中心,通过各层业务要素的构建,辅助认知推理及逻辑表达,在精准不满预测的同时也可以提供原因解释。认知概念网络的核心是将中国移动业务类数据(大数据标签、家宽探测感知等)与海量常识类概念进行语义网络构建,业务数据本身具备将客户链接的能力,再通过常识类概念中的语义信息与业务类数据映射,从而实现推理过程从业务数据到常识概念的认知,对业务指标的变化(如不满意、降档降费)给予语义层面的预测及解析。
认知概念网络是基于大数据基础能力进行构建的,通过融合业务数据与大数据标签数据,使语义网络进行层次串接,以捕捉客户的潜在意图,基于多种可能的链路进行推荐排序,支撑服务运营人员的权益推荐、用户维系、策略制定等工作,以认知智能技术驱动运营体系进行图谱化重构,实现推荐、维系、策略、数据分析结果可读可理解,打造人工智能智慧运营的技术体系、知识体系。
本文打造了基于认知概念网络技术的运营商潜在不满识别系统,主要基于中国移动大数据基础能力进行构建,纳入“原子-概念”生成算法实现语义延伸,在传统大数据分析基础上加入语义理解能力,构建以用户号码节点为中心的服务分析图谱,链接用户服务评测结果(不满意)、大数据标签、原因概念,并实现全量用户潜在不满意的推理,输出用户群进行后续运营维系。同时,系统可以进一步链接多模态数据(文本、标识、语音等)提升识别准确率,并且提供可解释能力,在资费、家宽、无线领域的满意度预测场景落地,为预测结果提供明确的解释理由。
潜在不满识别系统的服务对象,主要为中国移动用户,通过智能化分析潜在不满意图,给予预先的资源投放,避免后续的离网、投诉等严重服务事件。系统接入中国移动全量业务支撑领域的大数据标签数据,客响中心提供的家宽用户感知探测数据,以及无线中心提供的无线网络异常感知数据,具备BOM三域融通的数据基础。系统以认知概念网络技术打造了全场景、多功能域的满意度预测体系,对全量客户的资费满意度、家宽满意度、无线满意度进行周期预测。系统目前已导入了现网不满、投诉、离网的用户特征,根据现网用户和不满用户在资费、家宽、集客等资费使用情况的语义分析,以种子用户推理全量用户的业务满意度情况,预估全量用户对业务、服务、资费的满意度,并以可视化方式输出,并给出具体的不满意原因,帮助分公司、网格的服务运营人员针对性做好用户服务和精准营销。
潜在不满识别系统的场景如图1所示,主要体现在智能化分析预测全量客户的不满意甚至离网的概率,尤其要给出不满原因,作为精准运营的数据支撑,帮助服务运营人员精准施测。例如资费不满意输出原因概念:流量超套、语音超套、叠加包高、套外占比高等,并结合具体的次数、费用、流量进行精准分类;家宽不满意输出原因概念:ONU弱光、Wi-Fi弱覆盖、持续多天异常掉线、持续多天电视卡顿;无线网络不满意输出原因概念:VOLTE 5S切片丢包次数高,TCP三次握手时延大于300毫秒次数高,视频下载低速率次数高,本周高倒流出现频次高,用户级NPS质差占比高。
图1:客户满意度预测的认知理解场景示例
认知概念网络的价值,就是解决传统满意度测评系统仅能做到满意度预测不能产出不满意原因的问题,节约后期服务人员的工作量,无需判断原因,直接基于分析结果指定方案,提质增效。
本文应用于满意度测评的认知概念网络构,为自底向上的构建逻辑,在预测结果输出时,同步生成不满意原因,并结合专家经验的积累以不断迭代更新,其技术架构如图2所示。
图2:中国移动潜在不满识别的认知概念网络技术架构
本文认知概念网络构建的主要步骤分为:模式设计、抽取实体、关系计算。应用的主要步骤分为:满意度预测、原因预测。
认知概念网络的构建过程是一个整体,模式设计决定了知识图谱构建时中结构的关注节点,根据业务的架构确认知识图谱的基础框架,才可以更好的填充信息;知识图谱的组织方式是“实体-关系-实体”,在本图谱中,实体代表不同层中间的节点,包括基本描述概念,原因概念,现象概念等,通过数据以及标注中提取实体信息,可以生成图谱中全量实体节点;关系计算,是通过人工智能算法,计算出不同实体之间的指向关系以及边权重,用于后期的预测工作。
利用认知概念网络做满意度预测分为两个部分,满意度预测输出代表一个用户是否体验不满意的得分,得分越高,代表越可能是体验不满意的用户;原因预测是通过知识图谱的边权重,输出一个用户体验不满意的多个原因。
模式是认知概念网络的概念模型和逻辑基础, 借助实体关系的规则定义,来约束认知网络内具有语义关系的数据,模式设计是认知网络构建的基础。
本文主要是构建潜在不满识别的认知概念网络,设计的模式借鉴了阿里的电商图谱,主要分为四个层面,分别为原子层,基本概念层,原因概念层和现象层。原子层定义为数据的特征,包含所有可以统计出来的特征名称,例如超套次数、套外流量、套外语音、月消费金额,以及属性和偏好;基本概念层定义为对原子层的直接描述,比如对于连续型变量,直接描述即为多或者少,对于离散型变量,直接描述即为类别,是基于原子层进行分析后得到的概念描述,如上月套外流量少,高频热线呼入等;原因概念层对应客户具体场景,可以看做是对客户一类问题的原因解释,分为一级原因概念和二级原因概念,因为有些原因概念相互组合,会组合成更大的原因概念,这里多个二级原因概念会对应一个一级原因概念。现象层对应用户不同的现象,比如对网络不满意、资费不满意、家宽不满意、换机倾向、潜在预离网及升级投诉倾向等,代表客户的待解决问题,也是服务运营工作中需重点关注的客户需求。
通过这样的一个四层的架构,认知概念网络可以很容易的扩展到其他的场景下,只需要有对应的数据,就可以融合进新的现象和原因概念,从而减少了扩展场景的工作量。
认知概念网络模式设计如图3所示。
图3:中国移动认知概念网络模式设计
本文认知概念网络的构建首先需导入中国移动的满意度调研方案结果数据,满意度调研结果是网络链接的基础。本项目的分层体系,将系统包含面向运营场景的现象层(概念标签),原子层(原子标签),分层理论映射成基本概念层(分层分类),原因概念库(面向场景的维系、推荐、服务策略的解释性语义概念),来提升运营推荐的精准度,并面向“客户需求”提供可理解、可解释的运营策略。
基于标注的数据首先进行清洗,去除掉缺失过多的特征,然后再根据数据,进行实体的获取,针对四类层次分别提取实体,并以语义进行网络链接。
原子层:原子层的实体为数据的特征列名,可以先通过寻找特征重要性的方法-随机森林,滤除一些不重要的特征。
基本概念层:针对原子层的有实体,如果是连续型变量,就在基本概念层添加特征+多和特征+少的基本概念;比如对应“上月套内流量”这个原子,就会在基本概念层添加“上月套内流量多”和“上月套内流量少”这两个基本概念;如果是离散型变量,就在基本概念层添加特征+类别,比如“性别”这个原子,就会在基本概念层添加“性别男”和“性别女”这两个基本概念。
原因概念层:根据标注好的原因概念,分别抽取一级原因概念实体和二级原因概念实体。
现象层:根据对应的场景,抽取对应的现象。
关系计算是认知概念网络进行连接和推理的关键,通过关系计算把通层次的实体、不同层次的实体都连接起来,从而实现溯因和推荐。在本系统的关系计算当中,主要需要计算层之间不同实体之间的关系以及边权重,从而实现自底而上的推理。
原子层到基本概念层:在构建的时候,通过历史的数据,对于连续型特征,计算并且保存特征对应的 10% 和 90% 的分位点,用于推理,当数据大于 90% 分位点时,就映射为高,小于 10% 分位点时映射为低,连续型特征需要转化为原子和概念层的链接,必须转换为二值型数据,而如10-90%内的数据也被分为“低或高”,会造成原子层和概念层连接过于稠密,在推理时计算量过大,因此仅考虑小于10%和大于90%两种情况来确保连接链路较稀疏,以在推理时的置信度区分度更大;对于离散型特征,则无需保存,因为本身数据就代表了一种映射。有了这样的映射关系,在预测时,就可以自底向上的推理出基本概念。
基本概念层到原因概念层:首先对标注数据的特征数据进行转换,根据原子层到基本概念层保存的分位点,转换为对应的基本概念,例如一个用户的基本概念可能就为上月套内流量高,性别男,上月套外流量低等。再以基本概念作为特征,标注好的原因概念作为标签,去训练一个多标签分类模型,利用模型来获取关系以及边权重。
由于基本概念为文本概念,这里我们需要把他转换为独热向量(one hot)。独热向量就是对类别进行二进制化操作,然后再将其作为模型训练的特征,相较于直接作为特征,独热编码可以更好的避免出现假定类别值越高越好这样的错误。
本节给出一次面向满意度预测的认知概念网络构建过程,示例如下:
设定基本概念层一共共有4个基本概念实体,分别为话费高,话费低,和性别男,性别女;那么一个用户对应的基本概念如果为话费高,性别男,那他的独热编码即为 [1, 0, 1,0], 编码中第一位对应的1代表用户有话费高这个基本概念,第二位对应的0代表用户没有话费低这个基本概念,通过这样,就可以把用户对应的基本概念转换为独热编码,用于后面的模型。
由于用户的原因标签为多个标签,代表用户可能会有多个不满意的原因,所以这是一个多标签分类任务。多标签一般有一个特点,类别标的数量是不确定的:有些样本可能只有一个类标,有些样本可能存在多个类别标签。所以常用的分类器是不适用的,需要加一些步骤。这里我们采用了多分类器法,将多标签中的每一个标签当成是单标签,对每一个标签实施二分类算法,然后整合,从而得到最终的结果,比如假设原因标签只有 A/B/C三个,一个用户对应的原因标签为 A/C,首先转换为独热编码后为 [1, 0, 1],然后分别训练三个二分类模型,然后整合后就可以输出多标签的结果。
模型训练结束后,提取出模型中的参数,即可以作为从基本概念层到原因概念层的关系和边权重,用于潜在不满意预测时的推理算法。而且逻辑回归的参数都服从一个正态分布,概率上很难出现参数有一个过大或者一个过于小的情况。还可以在逻辑回归的基础上加上正则化,防止过拟合。
基本概念层到现象层,因为和业务规则和客户服务逻辑紧密相关,本文的方案是无需计算边权重,直接以监督方式进行标注,形成认知网络的关系连接,确保系统整体上与业务运营规则保持一致。
本文累计纳入2.3万潜在不满意(满意度调研结果中明确为不满意)种子用户,对900万全量用户生成预测结果,最终得到89万的待维系客户群。
在模型迭代中,重点关注ROC和PR曲线,ROC曲线(Receiver Operating Characteristic Curve):横坐标为假阳性率(False Positive Rate, FPR),纵坐标为真阳性率(True Positive Rate, TPR)。PR曲线:recall(召回率)为横坐标,precision(精准率)为纵坐标。
如图4所示,本文的认知概念网络模型在1050次迭代更新后达到收敛状态,采用P-R曲线判断模型可用状态,即当查准率达80%且查全率60%时,模型实现收敛并可用。
图4:认知概念网络模型迭代曲线
潜在不满识别认知概念网络完成全量用户计算后,输出每名用户的不满意概率,并输出置信度TOP20万客户群CSV文件,通过大数据微营销平台给客户服务存量运营团队做精准维系,输出列包含客户标识、基本描述、L1原因概念、L2原因概念、置信得分,输出结果示例如表1所示。
表1:认知网络结果输出示例
本文所构建的系统,已经在中国移动不满意客户识别和精准维系工作中取得效果,自2021年11月起,已在天津移动存量运营工作中已正式应用,模型查准率约85%,查全率约63%,累计输出潜在不满用户123.6万,并已执行了75.2万名用户的维系挽留。精准服务的举措主要是超值优惠的推荐,平均推荐成功率32%,大幅超出传统模型识别结果的推荐成功率12%,带来直接经济收入超750万元。
本文提出一种基于认知概念网络的电信用户潜在不满识别方法,通过构建认知网络实现全量用户的满意度预测,并实现输出语义级别的不满意原因,帮助运营商人员更好的执行精准服务维系方案。本文核心技术为认知网络,用于电信运营商的满意度预测工作中,模型融合了运营商业务数据、大数据标签数据及网络数据,使语义网络具备捕捉客户的潜在意图的能力,实现推荐、维系、策略、数据分析结果可读可理解。
本文设计并实施的系统,已在中国移动满意度预测领域实现正式应用,显著提升了业务运营和推荐的成功率,可以有效改善服务质量,提升客户满意度,在客户处于潜在不满状态时及时进行精准维系,在确保满意度不下降情况下提升了业务价值。同时,将传统的机器学习、知识图谱构建与推理,改进为纳入语义分析能力的认知网络,在各个业务推荐、存量运营、服务感知分析领域体现“可解释”的优势。因此,本文构建的认知概念网络,对于电信行业打造人工智能智慧运营的客户认知分析体系具有重要价值,对于运营分析、服务预警、离网预警,都有非常广泛的应用前景。