基于呼叫指纹的重入网识别算法研究

2017-03-07 22:01蒋仕宝陈少权
移动通信 2016年22期

蒋仕宝 陈少权

摘要:为了有效解决重入网用户运营成本和运营风险“双高”的难题,在采用改进TF-IDF提取用户有效交往圈的基础上,通过加权余弦相似度衡量移动用户呼叫交往圈的匹配程度来判断新入网的用户是否为重入网用户,以此帮助通信运营商有效甄别市场虚增高和用户高流失的现象。经过实验表明,该算法具有较高的识别准确度和识别速度,并具有较好的扩展性。

关键词:呼叫指纹 重入网 改进TF-IDF 匹配度

1 引言

重入网是指移动用户正在使用或者曾经使用一家移动运营商的通信服务,而在短期内又购买所归属的同一移动运营商新号码入网,新号码全部或者部分替代原有旧号码[1]。造成移动用户重入网的原因主要包括:运营商的营销方案偏向于吸引新用户,导致老用户的忠诚度降低;运营商对社会渠道的激励政策偏重于销售佣金,社会渠道通过对部分佣金补贴到新用户的手段来诱导用户重入网。

重入网会造成卡号资源浪费、市场虚增高、用户流失率过高等严重后果,极大程度影响运营商精准营销的战略布局。如何准确有效地识别重入网用户,挖掘用户重入网的原因,进而为运营商提高用户发展的质量和降低运营的成本及风险,是近年来我国移动通信关注的一项新技术。其中,基于呼叫指纹的重入网用户的识别技术是当前的研究主流,这种方法的思路是利用移动用户在使用业务过程中所产生的相关数据,再采用数据挖掘的手段提取其中所隐含的用户特征。因为在实际生活中,每个用户都有自己的独特性,那么用户对手机的使用行为和呼叫对象也应该有鲜明的特征性。目前主要的研究方法包括:利用交往频度和通话次数计算交往圈重合度,进而识别重入网用户[1-2];利用用户交往号码的通话次数、通话时长,建立新老用户的交往圈指纹库,再通过向量的余弦值计算用户语音交往圈指纹相似度来识别重入网用户[3-4];通过改进Hausdorff算法来提高识别重入网用户的精度和速度[5];利用改进TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)的权重来排除公共号码,再通过余弦相似性来判断重入网用户,进而达到提升速度的目的[6]。本文在已有研究的基础上,基于用户的呼叫指纹建立用户的语音交往圈,再采用改进TF-IDF算法提取用户的交往圈,最后通过余弦相似度的算法来计算新老用户的有效交往圈指纹库的匹配度,并根据匹配度的排序来提取重入网用户。

2 重入网识别的思路与相关理论研究

2.1 重入网用户识别

重入网用户的识别原理是对比新增用户特征和离网用户在系统中记录的特征。如果特征符合判断条件,则认为该用户是重入网用户;如果没有符合特征的记录,则认为该用户是新增用户[7]。呼叫指纹是指移动用户在发生移动业务的过程中产生一系列的信息组合:通话群体(与用户发生通话的对象)的通话习惯(通话频次与通话时长)。因为任何的两个移动用户之间的通话群体和通话习惯都会存在一定的差异,这种差异就类似于人类的指纹一样,可作为不同用户的一个标识。因此,本文定义的重入网用户识别是通过一系列的用户呼叫指纹进行相似度计算的识别技术,进而判别重入网用户。重入网用户识别流程图如图1所示。

2.2 建立语音交往圈指

纹库

首先对用户交往圈内的呼叫详单信息进行汇总,提取的字段包括用户交往号码的通话次数和通话时长,分别建立新老用户的呼叫交往圈指纹库。

交往圈是指移动用户联系频繁且保持长时间交往的用户群体。但是,如果仅仅根据用户的通话次数和通话时长等衡量用户“紧密度”的方式来确定用户交往圈的重要通话群体,便会把一些公共号码、快递号码、送餐号码等非重要通话群体纳入其中。因此,需要采用一些技术手段处理上述非重要通话群体,提取有效的交往圈指纹库,以保证重入网用户识别的质量。本文采用改进TF-IDF算法來计算用户与通话群体的呼叫特征系数,选取特征系数大于设定的阈值的用户群体,提取有效的用户交往圈。

2.3 采用改进TF-IDF算法提取有效的交往圈

有效交往圈是指与一个移动号码发生通信行为且具有相对重要和紧密程度的对端号码集合[8]。众所周知,用户之间的通话次数越多,表示用户之间越“紧密”,而衡量用户之间的重要程度则需要一个重要性的调整系数。

重要性调整系数来源于TF-IDF中的逆文档频率(IDF)。TF-IDF方法是Salton和MeGill在1983年针对向量空间信息检索范例(Vector Space Information Retrieval Paradigm)提出的文档特征表示方法[4],也就是提取文档的关键词的方法。该算法有两个重要的指标:TF和IDF。TF称为词频,也就是关键词在文档出现的次数;IDF称为逆文档频率,是关键词在全部文档集中出现的频率,它作为一个重要性调整系数,来衡量一个关键词是不是常见词,其在全部文档集出现的频率越高,表明该关键词没有区分度,不能反映该文档的特征。

TF-IDF的算法为:

(1)

分子是关键词在文档中出现的频率,分母是所有关键词出现的频率合计。

(2)

分子为文档集中的文档数量,分母为文档集中出现过关键词的文档数量。基于公式(1)和(2),TF-IDF定义为:

tfidf=tf×idf (3)

借鉴TF-IDF算法的思想,本文对TF-IDF进行改进,在通话频次的基础上,结合通话时长和通话逆频率对紧密用户分配一个“重要性”权重。

假设需要对用户u的交往圈内的所有用户进行呼叫指纹处理,那么用户u交往圈内的其中一位用户v的紧密度和重要性表达式为:

TF-IDFuv=Tuv/Tu×tfuv×idfuv (4)

其中,Tuv为用户u与用户v在一段时间内的总通话时长;Tu为用户u与所有用户在一段时间内的总通话时长;tfuv为用户u与用户v的通话频率;idfuv为用户v与所有用户通话的逆频率。

2.4 计算新老用户的有效交往圈指纹库的匹配度

匹配度是评价两个移动用户之间在重合指标上的相似度。采用加权余弦相似度的方法表示匹配度的公式为:

(5)

其中,xj、yj分别表示匹配移动用户和待匹配移动用户的第j个重合指标;α1和β1分别表示两个用户每个指标的权重。

基于交往圈的思想,衡量交往圈指纹库的匹配度就是需要衡量匹配用户和待匹配用户的前n个共同朋友的呼叫紧密度及重要性的相似度。

假设用户u交往圈表示为Du=(a1, a2, …, an),其中an表示用户u交往圈的前n个共同好友,如果考虑每个用户的呼叫紧密度和重要性的不一致性,则得到Du=(a1w1, a2w2, …, anwn),简记为(w1, w2, …, wn),wn表示用户an的呼叫紧密度和重要性,用户之间的紧密度和重要性可由公式(4)计算得出。那么,匹配度公式为:

(6)

其中,w1k、w2k分别代表用户D1及用户D2第k个朋友的呼叫紧密度和重要性,1≤k≤n,为了缩短计算的时间,根据紧密度和重要性的大小进行排序,取n=top20即可。

3 实验过程

(1)提取用户呼叫详单的关键字段

用户的呼叫详单字段很多,根据本文的数据挖掘需求,提取用户呼叫详单的关键字段包括主叫号码、日期/时间、呼叫时长、被叫号码。具体如表1所示:

(2)建立新老用户呼叫交往圈指纹库

对每个用户的呼叫详单进行汇总,分别建立新老用户的呼叫交往圈指纹库。号码为18676445***的用户呼叫交往圈的部分指纹库如表2所示:

(3)采用改进TF-IDF算法提取有效的交往圈

采用公式(4)计算号码为18676445***的用户与交往圈内部分用户的紧密度和重要性如表3所示。

采用改进TF-IDF算法计算18676445***交往圈的所有用户的TF-IDF值,再基于设定的阈值(0.05)提取18676445***的有效交往圈。

(4)计算新老用户匹配度,识别重入网用户

采用改进TF-IDF算法确定新老用户的有效交往圈指纹库后,需要衡量匹配用戶和待匹配用户的前n个共同朋友的呼叫紧密度和重要性的相似度。根据公式(6)对多次抽样3万新用户与老用户的呼叫特征进行余弦相似度计算,匹配结果如表4所示:

由表4可知,相似度的阈值的合理范围为(0.4537, 0.5536),运营商可以按照该范围对重入网的新用户进行重入网原因的分析,为后续的用户维护和营销工作提供数据支撑。

4 结束语

本文考虑每个移动用户呼叫指纹的差异,结合采用改进TF-IDF和加权余弦相似度的算法识别重入网用户。实验表明,综合用户在交往圈的呼叫频率和呼叫时长对算法进行改进,有助于提升用户重入网的识别效率,为通信运营商准确预测市场占有率,及时调整营销策略,规避经营风险提供强有力的依据。

参考文献:

[1] 蒲锋,田真. 基于呼叫指纹的重入网识别研究[J]. 中国新通信, 2007(9): 74-76.

[2] 李铁钢,马驷良,王春胜. 基于“呼叫指纹”的重入网识别算法及其在移动市场占有率预测中的应用[J]. 现代情报, 2006(12): 207-208.

[3] 艾达,罗爱平. 移动通信重入网用户识别算法分析研究[J]. 西安邮电学院学报, 2012,17(3): 30-33.

[4] 罗亚. 移动电话用户重入网识别及营销建议[D]. 北京: 北京邮电大学, 2010.

[5] 李铁钢,马驷良,王彦. 改进的呼叫指纹算法及其在重入网识别中的应用[J]. 吉林大学学报: 理学版, 2007,45(2): 254-255.

[6] 刘清松,王霓虹,王伟. 权重算法在计算移动用户重入网的应用[J]. 自动化技术与应用, 2009,28(2): 19-21.

[7] 贺彬. 电信经营分析系统重入网子系统的设计与实现[D]. 成都: 电子科技大学, 2007.

[8] 陆菁. 基于移动通信交往圈的家庭用户识别研究[D]. 上海: 上海交通大学, 2014.

[9] 陈大力,沈岩涛,谢槟竹,等. 基于余弦相似度模型的最佳教练遴选算法[J]. 东北大学学报: 自然科学版, 2014,35(12): 1697-1700.

[10] 徐忠健,陈孚,任小龙,等. 基于TF-IDF算法的家庭关系识别模型构建及其应用[J]. 井冈山大学学报: 自然科学版, 2012,33(5): 54-58.★