张 轩a,,许国良**,魏 安a,,王 超a,,雒江涛
(重庆邮电大学 a.通信与信息工程学院;b.电子信息与网络工程研究院,重庆 400065)
随着经济全球化和国际化进程的加快,出境市场迎来良好的发展机遇,作为出境市场的核心,出境用户的画像和行为分析研究越来越受到关注。文献[1]利用调查问卷数据分析了武汉出境游客的人文属性特征和行为特征。文献[2]利用在线旅游社区的文本数据分析了中国游客购物行为特征。文献[3]利用调查问卷、访谈和在线旅游内容对前往泰国的中国游客进行研究,分析了游客的人文属性特征、出境动机以及消费特征。文献[4]利用调查问卷数据,分析了香港居民的人文属性特征、网络行为特征、心理特征等,并利用网络行为特征和心理特征来识别潜在出境用户,但准确率不高。以上研究存在样本量小、数据真实性无法保证等问题,且缺乏对用户出境前行为的分析研究。
电信运营商积累了海量的用户数据,包括消费信息、终端信息等静态数据,以及上网、通话、出行等行为产生的大量时空数据,运营商数据因自身的数据优势在行业市场得到了广泛应用[5]。研究学者利用运营商数据进行城市居民流动模式和城市土地功能使用模式分析、特定行业用户挖掘、城市交通预测[6]等,但鲜有学者利用运营商数据在出境领域展开研究。虽然运营商数据为出境领域研究带来了新的突破口,但是如何利用运营商数据挖掘欲发生出境行为的用户仍然存在着诸多挑战。
在模式识别系统中,特征融合方法得到了广泛应用,融合后的新特征更具抽象性,可提高模型的分类性能。文献[7]通过串联形式融合图像的深浅层特征,提高了人脸识别的准确率。文献[8]通过加权求和、向量拼接的方式融合文本特征,显著提高了译文估计质量的准确性。文献[9]通过多核学习法融合音频特征,显著提高了语音情感识别准确率。
本文提出了一种三层架构的基于多分类器集成和特征融合的用户出境预测模型(Three-level Model for Predict Users Whether to Leave the Country Based on Ensemble Learning and Feature Fusion,TMPBEF),首先构建用户多行为分析参考字段库,利用用户的移动终端信息交互数据挖掘用户的出境相关行为特征和静态特征,然后将第一层和第二层分类器的输出特征进行融合,构建交互特征输入三层分类器进行训练和预测,以预测用户近期是否出境。
目前,主要采用两种分类器融合方法处理分类问题。以二分类(0,1)为例,yi和pi分别为单个模型的预测类别和预测概率,fre(yi)为yi出现的次数,M为模型的数量,wm为单个模型权重,选择结果为H(x)。
(1)
(2)
(1)投票法
利用简单投票法(如式(1))或加权投票法(如式(2))对多个分类器的输出结果进行选择,选择结果作为最终的输出类别。例如,文献[10]利用简单投票法构建融合模型,模型的泛化性能大幅度提升。文献[11]利用加权投票法集成多个模型,实现越南语组合歧义的准确分类。
(2)堆栈泛化法
堆栈泛化(Stacked Generalization)方法(以下简称Stacking方法)采用两层框架结构,利用多个分类器对样本集进行学习和预测,然后将所有分类器的输出结果作为特征,输入最终的分类器中进行学习[12]。例如,文献[13]采用该方法融合多种基于决策树的集成学习算法构建钓鱼网页识别模型,模型准确率达97.3%,优于各单一模型。
贝叶斯优化算法因搜索效率高、稳健性好等优点,在科研工作中得到了广泛的应用[16]。假设模型参数值集合为X={x1,x2,…,xn},未知目标函数和模型参数间有一定的映射关系g,则目标函数可表示为g(X),算法的优化问题转化为求未知目标函数g(X)的全局最优解[14],如式(3)所示:
(3)
除了算法参数集合X和映射关系g,贝叶斯优化还需要关键的两个元素,即采集函数和假设模型。采集函数用于从X中确定下一次需要评估的参数x,假设模型用于模拟目标函数的先验分布,然后根据此分布评估参数x的性能。
最小冗余最大相关(Minimum Redundancy Maximum Relevance,mRMR)算法是一种典型的基于空间搜索的过滤式特征选择方法,其使用互信息与信息熵作为特征子集的搜索策略,遴选出与类别变量有最大依赖性的特征子集[15]。假设F={f1,f2,…,fk}为特征集合,C为样本类别,I(fi;C)为特征fi与类别C之间的互信息,I(fi;fj)为特征fi与特征fj之间的互信息。互信息I(fi;fj)最小时,fi与fj相关性最小;互信息I(fi;C)最大时,fi为与类别强相关。最小冗余指标minR(F)定义和最大相关指标maxD(F,C)定义如下所示:
(4)
(5)
基于上述公式,mRMR算法MIQ(Mutual Information Quotient)准则表示如下:
(6)
鉴于Stacking法不仅能够综合降低投票法融合所产生的偏差和方差,还能融合各分类器的输出结果,本文在Stacking算法基础上,构建三层框架的多分类器集成算法。TMPBEF模型的1-level分类器和2-level分类器采用逻辑回归(Logistic Regression,LR)、k最近邻(k-Nearest Neighbor,KNN)、高效梯度提升决策树(Highly Efficient Gradient Boosting Decision Tree,LGB)、自适应提升(AdaBoost)的融合模型,3-level分类器采用泛化能力强、训练数据快的随机森林(Random Forest,RF)模型。为了提高模型的预测精度,本文选用了贝叶斯优化方法对单一分类器进行性能优化,实现模型的分类精度最大化。
本文选择高斯过程作为假设模型,选择UCB函数作为采集函数。模型的最终目的是基于用户的最优特征,实现较高的分类准确度。本文属于类别不均衡问题,为了更全面评估单一模型的分类性能,采用AUC(Area Under the Curve)值作为优化函数,具体如式(7)所示:
(7)
式中:l为按预测概率从小到大排序时正样本在真实样本中的排列序号,kpositive为正样本的数目,knegative为负样本的数目。
图1 TMPBEF框架
TMPBEF模型的设计流程如下:
Step1 为了降低模型的分类误差,提高模型的稳定性,对初始训练集的特征向量X进行切分,将数据分为k份,采用滑动窗口的形式将前k-1份数据作为1-level分类器的训练输入,第k份数据作为1-level分类器的预测输入,直到遍历全部数据。数据切分重组如表1所示。
表1 切分重组样本
Step2 假设1-level分类器为χ={χ1,χ2,χ3,χ4},利用Step 1中的切分重组样本Train-input对分类器进行训练,得到预测函数集合χ(x)={χ1(x),χ2(x),χ3(x),χ4(x)};利用χ(x)分别对训练集的特征向量Xtr和测试集特征向量Xte进行预测,得到预测结果χ(Xtr)={χ1(Xtr),χ2(Xtr),χ3(Xtr),χ4(Xtr)}和χ(Xte)={χ1(Xte),χ2(Xte),χ3(Xte),χ4(Xte)},构建新特征集A;将χ(Xtr)添加到Xtr中,χ(Xte)添加到Xte中,构建新特征样本集B。
Step3 利用Step 1中的数据划分方法对特征向量Xtr进行切分重组,假设2-level分类器为φ={φ1,φ2,φ3,φ4},利用切分重组后的数据Train-input对分类器进行训练,得到预测函数集合φ(x)={φ1(x),φ2(x),φ3(x),φ4(x)};利用φ(x)分别对训练集的特征向量Xtr和测试集的特征向量Xte预测,得到预测结果集φ(Xtr)={φ1(Xtr),φ2(Xtr),φ3(Xtr),φ4(Xtr)}和φ(Xte)={φ1(Xte),φ2(Xte),φ3(Xte),φ4(Xte)},构建新特征集C。
Step4 当分类器存在显著不同时,分类器间会存在较强的互补性。为了增加特征的细腻和抽象性,本文考虑设计特征融合函数G(x1,x2),将特征样本集A的特征向量χ(X)和特征样本集C中的特征向量φ(X)进行融合,得到融合后的特征向量G(X),用于3-level分类器的输入。初始化集合F1=∅,F2=∅,特征融合函数G(x1,x2)的伪代码如下:
输入:集合A,集合B
输出:融合后的集合C
1.初始化集合C=∅,M=len(A),N=len(B)
2.fori=1,2,…,Mdo
3. forj=(i+1),…,Mdo
4. 更新集合C:C=C∪(A[i]×A[j])
5.fori=1,2,…,Mdo
6. forj=1,…,Ndo
7. 更新集合C:C=C∪(A[i]×B[j])
8.fori=1,2,…,Ndo
9. forj=(i+1),…Ndo
10. 更新集合C:C=C∪(B[i]×B[j])
11.输出集合C
来源于某省占市场份额最大的电信运营商,数据周期为2019年1—3月,包括:CDR话单数据(CDR data),记录用户通信时所处位置、通话时长、通话次数、对端号码等信息;上网日志数据(Internet log data),记录用户上网的地理位置、使用的APP名称、访问的目的网页、消耗的流量、上网时间等信息;信令轨迹数据(Signaling trace data),记录用户的出行位置、驻留时长、出行时间等信息;用户属性数据,记录用户的性别、年龄、月均话费、终端品牌等属性信息。将1—2月的样本作为候选训练集,2—3月的样本作为候选测试集(剔除训练集中的重复数据)。考虑到用户隐私,样本中用户编号、手机号码等关键字段进行数据脱敏。
本文利用深度包解析技术和爬虫技术构建上网行为分析参考字段库(Host_Keys)、通话行为分析参考字段库(Port_No)、出行行为分析参考字段库(Lac_Cell),用于从移动大数据中识别具有出境意向且发生出境相关行为的用户。
利用行为分析参考字段库分别对候选训练集和候选测试集进行匹配过滤(关联条件如图2所示,黄色部分为参考字段库数据,绿色部分为移动大数据),得到发生过出境相关行为的潜在目标用户样本集,样本中包含正样本和负样本。对潜在目标用户样本集进行冗余字段过滤、异常值剔除、空缺值填充或剔除等处理,提高样本数据的质量。以真实的业务场景为参考,提取用户的静态特征(性别、年龄等)和特定时空行为特征(上网特征、出行特征、国内通话特征、国际通话特征),如表2所示,其中fi(i=1,2,…,50)代表用户特征。
表2 用户特征集合
图2 表间关联条件
考虑到性别为类别特征,本文对类别特征进行属性转换处理。将每个用户样本构造为<用户编号,特征,标签>类型,以此构建特征训练集和特征测试集。特征间的量纲不同对于KNN、逻辑回归等基于距离计算的分类算法的分类精度会有很大影响,本文采用标准化方法本对特征变量f进行归一化处理,将数据取值范围缩放到[0,1],归一化后的特征数据为f*,特征转换公式如下:
(8)
式中:u和δ分别为特征变量f的均值和方差。
本文实验数据中,出境用户的数量小于非出境用户数量,属于类别不均衡问题。为了更好地评估模型的分类性能,故采用F值(F1-score)、AUC值、算法耗时三个评价指标。假设模型对目标数据的预测结果为PL(Predict Label),数据的真实标签为AL(Actual Label),则F1-score计算公式如下:
(9)
(10)
(11)
本文中,AUC值指从真实样本中随机选择一个出境用户和一个非出境用户,模型对出境用户的预测概率大于对非出境用户的预测概率的概率。
本文的实验基于Hadoop大数据平台和Python3.6环境完成的。Hadoop的MapReduce框架可并行高效地处理大数据,本文将其用于移动大数据和行为分析参考字段库的关联匹配及冗余字段的过滤处理。Python的Scikit-learn中封装了多种机器学习算法,本文利用Python环境完成特征的构建、特征提取、模型构建、参数调优和模型验证等工作。
1-level分类器的输入数据非原始的移动数据,而为3.2小节特征提取操作后的特征数据(即表3),用于模型输入的用户特征共计50个,全部为数值型数据。用户的50个特征值存在缺失值情况,本文针对缺失的特征值采用0填充处理。基于以上特征构建模型输入样本集(包括训练集和测试集)。训练集样本的形状为(52 625,50),测试集样本形状为(32 270,50)。部分输入数据特征如表3所示。
表3 部分输入数据特征
经过数据预处理后得到了50个可能与用户出境相关的数据特征中包含许多相关性较低的特征,所以本文利用mRMR特征算法的MIQ准则对训练集样本进行特征选择,算法输出结果为各特征的得分值。本文根据特征得分将特征由高到低排列,选择前15个特征用于后续的模型训练。这15个特征达到的分类性能是50个特征达到的性能的97.9%,而且运算效率明显提高,故本文选择前15个特征作为最优特征,如表4所示。经过特征选择后,最终用于1-level分类器输入的训练集样本形状为(52 625,15),测试集样本形状为(32 270,15)。
表4 最优特征
(1)3-level分类器输入
由于本文是处理二分类问题,用户出境的类别对应1,用户不出境的类别对应0,所以1-level分类器和2-level分类器的输出值均为1或0。将前两个level共计8个分类器的输出值进行拼接,得到特征向量X=[x1,x2,x3,x4,x5,x6,x7,x8],将特征两两之间进行相乘构建交互特征,共生成28个新特征。将每个用户样本构造为<用户编号,新特征,标签>类型,标签采用最开始的用户标签,则3-level分类器的训练集样本形状为(52 625,28),测试集样本形状为(32 270,28)。
(2)3-level分类器学习与预测
利用3-level分类器对训练集样本进行训练,得到预测函数f(u,X,y),利用预测函数f(u,X,y)对测试集样本进行预测,最终得到用户的类别标签(0或1)。
为客观评估TMPBEF的分类性能,本文将TMPBEF分别与LGB、KNN、LR、RF、AdaBoost五种单一模型、基于五种单一模型的两层Stacking融合模型、基于1-level分类器的投票法融合模型进行对比,所有对比模型如表5所示。
表5 对比模型
本文所有实验均在同一环境下和同一特征数据集上进行,TPMBIF与单一模型、Stacking两层融合模型、投票法融合模型的对比实验结果见表6。
表6 对比实验数据
(1)TMPBEF与单一模型的对比
5种单一模型中,性能最差的是RF模型,性能最好的是LR模型,模型对比详见图3。TMPBEF相比LR模型,F1分值提高8.55%,AUC值提高9.61%,耗时较高。TMPBEF相比RF模型,F1分值提高21.17%,AUC值提高27.79%,耗时较高。综上,TMPBEF相比单一模型,F1分值提升范围为[8.55%,21.17%],AUC值提升范围为[9.61%,27.79%]。
图3 TMPBEF与单一模型、Stacking融合模型对比
(2)TMPBEF与Stacking融合模型的对比
5种算法中,RF算法对1-level分类器的预测结果拟合学习最好,LGB算法对1-level分类器的预测结果拟合学习最差,模型对比详见图3。TMPBEF相比Stacked_RF模型,F1分值提高5.97%,AUC值提高6.37%,耗时较高。TMPBEF相比Stacked_LGB模型,F1分值提高17.41%,AUC值提高21.97%,耗时较高。综上,TMPBEF相比Stacking融合模型,F1分值提升范围为[5.97%,17.4%],AUC值提升范围为[6.37%,21.97%]。
(3)TMPBEF与投票法融合模型的对比
11种投票法融合模型中,Type2融合模型性能最优,Type3模型性能最差,模型对比详见图4。相比Type2模型,TMPBEF的F1分值提高3.65%,AUC值提高4.13%,耗时较高。相比Type3模型,TMPBEF的F1分值提高19.96%,AUC值提高25.77%,耗时较高。综上,TMPBEF相比投票法融合模型,F1分值提升范围为[3.65%,19.96%],AUC值提升范围为[4.13%,25.77%]。
图4 TMPBEF与投票法融合模型对比
如图5所示,TMPBEF相比单一模型、投票法融合、Stacking融合在AUC值和F1值上均有所提升。相比单一模型、投票法融合、Stacking融合,AUC值提升范围为[4.13%,27.79%],F1值提升范围为[3.85%,21.17%]。综上,本文提出的TMPBEF具有良好的分类性能,可用于用户出境预测。
图5 TMPBEF与变种所有模型对比
本文提出了一种基于多层分类器集成和特征融合的用户出境预测方法,利用用户的移动终端信息交互数据,挖掘用户的通话特征、上网特征、出行特征和静态特征,融合贝叶斯优化、机器学习和特征融合法构建TMPBEF模型,实现用户出境的预测,弥补了传统基于问卷数据或旅游网站数据进行出境用户行为特征分析研究的不足。通过实验对比分析,TMPBEF模型对用户出境具有良好的预测性能,但因为三层模型涉及大量的数据运算,所以运算耗时偏高。未来工作侧重于增大数据量和数据周期,更加全面地提取用户出境前的特定行为特征,增加用户的特征维度;另外,对当前的机器学习算法模型进行优化,以求进一步提升模型的预测准确性,同时降低模型的运算耗时。