王冰莹 杭州东信北邮信息技术有限公司
北京邮电大学网络与交换技术国家重点实验室硕士研究生在读
王晶 杭州东信北邮信息技术有限公司
北京邮电大学网络与交换技术国家重点实验室副教授
分维度策略的异网宽带用户识别方案
王冰莹 杭州东信北邮信息技术有限公司
北京邮电大学网络与交换技术国家重点实验室硕士研究生在读
王晶 杭州东信北邮信息技术有限公司
北京邮电大学网络与交换技术国家重点实验室副教授
目前某运营商已有的异网宽带识别模型采用用户使用异网IP登陆自有网站这种单一维度分析的方式,识别准确率较低且覆盖用户数过少。采用多维度分析的方式构建模型可以提高准确率和效率,但是不同维度的数据量级差异明显,如果强行建立模型分析会导致出现大量的空值。针对这些问题,本文设计了一种分维度策略的异网宽带用户识别方案,实际应用表明,该设计行之有效。
分维度策略;异网宽带;模型
通过从某省运营商宽带运营业务人员处调研得知,目前已有的异网宽带识别模型采用用户使用异网IP登陆运营商自有网站这种单一维度分析的方式。这种方式没有对照已办理该运营商本网的宽带用户和其他用户的多种行为交叉分析,导致识别准确率较低且覆盖用户数过少。
分析挖掘融合分析不同类型宽带用户的多种行为特征,对多种渠道采集来的信息进行数据分析和挖掘,构建识别模型可以大幅度提高识别准确率。提升对推荐异网宽带用户转网、宽带营销的精准度,减少人力成本和提升主动服务能力,为企业进一步制定营销策略提供依据。
但是,采用多维度的数据构建异网宽带识别模型涉及到的数据较广,指标较多,并且数据获取时间先后跨度较大,不同维度的数据量级明显差异,将不同维度的数据强行建立一个模型分析会导致出现大量的空值,影响模型的准确率和模型效率。
因此,本文采取分维度的策略进行,模型先采用用户手机流量使用清单数据挖掘分析出疑似办理宽带用户,这类输出覆盖率较广;然后,使用其余数据进一步对这类用户进行判别分析,提高模型输出的准确率。
运营商使用客户的宽带使用上分为4大类,分别是办理本网宽带的用户、办理异网(其他运营商)宽带的用户、未办理任何宽带(没有办理宽带的需求)的用户、未办理任何宽带(有办理宽带的需求)的用户,本文模型的设计是针对办理异网宽带的用户。
模型所需数据分为3大类,分别是本网用户手机流量使用清单、电渠登陆日志数据、XDR媒体面手机流量去向信息数据。另外,模型还需部分辅助信息,主要包括运营商用户基本信息、用户居住地信息、已办理本网宽带成员信息、家庭网用户信息、异网IP信息、异网URL信息。
由于这3类数据的量级差距较大,模型首先根据已办理该运营商宽带的用户的手机流量使用特征对比分析出疑似办理宽带的用户,进一步融合用户网关接触维度分析,从疑似办理宽带的用户中分析挖掘出疑似异网宽带用户,提高模型输出的准确率。
因此,模型主要从用户手机流量使用特征、网关接触这两个维度分析识别全省全网用户中异网宽带用户,模型整体设计思路如图1所示。
图1 模型整体设计思路图
用户手机流量使用特征通过对比已办理宽带的用户的手机流量使用特征和未知用户的手机流量使用特征,从中挖掘出疑似办理宽带的用户。疑似办理宽带用户包括办理异网或本网宽带的用户,通过K-means聚类的方法,获得手机流量使用用户的自然分类结果,并得知群体间属性特征差异,分类后将已办理本网宽带用户的收敛比例最多的一类划分为目标类。
启东市位于长江入海口,与上海隔江相望,地理位置优越。境内地势平坦,土壤肥沃,有机质含量1.4%以上,速效氮90 mg/kg,速效磷4.63 mg/kg,速效钾152 mg/kg,pH值7.8-8.2之间,土质以轻壤为主,土层深厚。全市属海洋性气候,四季分明,日照充分,雨量充沛,无霜期长,是山药种植的理想之地。山药能单独种植也可与粮、棉、油、菜作物间套夹种,十分符合全市多元多熟制耕作制度,经济效益高,亩产值可达9000元以上。
(1)提取存量客户最近一个月的手机流量使用相关指标数据。
(2)采用K-means聚类方法将存量用户聚成K类,K值从大到小,直到已办理本网宽带的用户收敛为一类。
K-means采用欧氏距离公式分别计算该对象到K个簇内点的距离,然后迭代的改善簇内变差重新分配所有对象直到分配稳定,根据结果簇获取用户所属类别。
欧氏距离公式:
其中i=(1,2,……,n)和j=(1,2,……,n)是两个n维数据对象。
(3)对每个类别进行类别特征提取,提取类别中心指标值。
(4)将各类别特征与各阶段特征进行对比,分析各类别用户的手机流量使用特征,并与已办理本网宽带的用户的流量使用特征进行对比。
3.1 提取相关指标数据
提取存量客户最近一个月的手机流量使用相关指标数据是非常重要的步骤,模型需计算用户在闲/忙、白天/夜间不同时段使用手机流量的特征,因此需确定这些不同时段的划分,本文的设计是采取根据业务人员配置的方式获取。模型启动阶段的初始值则使用以下方式获取。根据2016年2月份的全网使用流量信息,确定模型的初始流量使用忙/闲时时段和白天/夜间时段。
全网流量使用量排前10的时间段分别为:20、21、19、22、23、12、18、11、13、17,模型初始确定这些时段为忙时时段;根据某省2016年2月份的天亮/天黑时间,
确定模型的初始白天时间为07:00—18:59。通过以上这些时段的确定,统计用户在这些不同时段使用流量的不同特征,以用户号码为唯一标识对用户手机流量使用信息表进行统计衍生并汇总,生成用户手机流量使用分析表。
由于指标间共线性会影响聚类质量,所以需提取聚类的字段进行相关性分析,综合考虑选择业务分析意义较大,相关性较小的指标进入模型。根据模型设计思路,并通过对比分析各指标之间的相关性,确定模型的最终输入指标,采用R中的聚类分析对模型的指标进行筛选,具体过程如图2所示。
图2 手机流量使用特征输入指标
通过以上分析,选取不同分类内方差和均值均有显著性差异的指标,表1所示为模型的输入指标。
表1 手机流量使用特征输入系统
3.2 疑似办理宽带用户识别模型搭建
将输入指标进行预处理之后,使用某一月的用户手机流量使用数据,用K-means聚类算法进行建模,通过调整聚类个数及迭代次数,选择合适的类间差异较大的建模结果,将绝大部分的已办理本网宽带的用户聚为一类。模型采用R构建,直到绝大部分的已办理本网宽带的用户聚为了同一类,达到了模型设计的分类要求。
对每个类别进行类别特征提取,确定最终聚类的中心点,对聚类结果的各指标的原始值计算均值进行特征分析,最后总结各类用户使用手机流量特征。
网关接触维度可以根据接触类型分为3类,具体如图3所示。
在第一步分析出的疑似办理宽带的用户的基础上采用异网宽带接触本网自有网页、客户端与使用本网流量接触异网宽带办理页面的相关信息数据,进行不同类型用户行为特征判别分析来识别出疑似异网宽带用户。
(1)提取用户流量特征分析模型识别出的疑似办理宽带用户最近一个月的使用异网宽带登陆某省该运营商自有网站、使用本网手机流量访问异网宽带相关URL的相关指标数据。
(2)通过对疑似办理宽带用户信息数据进行统计衍生,生成模型输入信息数据,采用组合规则判别分析,输出判别公式。
(3)将判别公式作用于测试数据,输出疑似异网宽带用户,并根据准确率、覆盖率进行模型验证。
4.1 提取相关指标数据
通过单一指标分析,分析用户使用异网IP登陆运营商本网自有网站和访问异网宽带相关URL的特征,通过访问次数、个数等所有变量初步单一识别,并统计识别的覆盖率,初步筛选出符合分析的指标。根据单一指标的分析结果,选取覆盖率较高的一个指标作为第一变量,逐步层层递进组合多个变量分析筛选出最终的输入指标,指标筛选过
程见图4。
图3 网关接触维度类型
图4 网关融合指标筛选过程
4.2 识别模型搭建
根据第一步获取的手机流量特征维度模型规则,作用于待识别数据,识别出疑似办理宽带的号码。分析这类用户的使用异网IP登陆运营商自有网站和访问异网宽带相关URL的特征,通过访问次数、个数等单一变量初步识别,统计识别的覆盖率,并分别获取这两维度的判别规则。最终根据判别分析的组合规则的层层递进分析用户的行为特征,总结出符合异网宽带用户的登陆和使用手机流量的业务特征。
本文结合异网宽带用户识别的需求,针对多维度数据构建识别模型数据量级差异明显的问题,设计了分维度策略构建识别模型的方案。最后,不同维度的模型建立给出了不同的设计思路,以及提取相关指标数据的方法,增加结果的准确性。并且在实际应用中,允许业务人员配置模型的相关参数,如白天时段、忙时时段等。通过本文的工作,希望满足运营商多维度方式构建异网宽带识别模型的需求,提高模型准确率。
[1]周颖,吕巍,井淼等.基于数据挖掘技术的移动通信行业客户细分[J].上海交通大学学报,2007,41(7):1142-1145.
[2]Jiawei Han,Micheline Kamber.数据挖掘概念与技术范明[M].孟小峰,等译.北京:机械工业出版社,2012.
[3]贾金柱.数据挖掘、因果推断和变量选择的方法和理论[D].北京大学,2008.
Afractional dimension strategy for user identification of different broadband
WANGBingying,WANGJing
Currently,some operators already adopt a method for user identification of different broadband.The method is a single dimensional analysis,that is,analysis the behavior of other IP landing operator’sown web sites.But the identification correct rate and user coverage rate is low.Adopting multi-dimensional analysis method formulates the model could improve its accuracy and efficiency.However,different dimensional data gap obvious.If forced to establish the model,it might cause many vacant data.Aiming at these problems,this paper designed a fractional dimension strategy plan and the practice shows its effectiveness.
fractional dimension strategy;different broadband;model
2016-10-25)