张瑾
摘要:移动通信的快速发展为人们带来了便利,同时也伴随着商业目的的营销甚至一些非法信息的传播,导致骚扰电话的泛滥。骚扰电话已成为用户投诉电信运营商的重要原因之一,也对通信设备的负荷造成了重大影响。本文通过对用户通话行为特征进行分析,从运营商数据中提取了包含传统特征的多维融合特征,如平均通话距离、外卖时间占比、物理位置变化率等生成骚扰电话识别模型,有效地识别了骚扰电话,同时降低了快递外卖以及一些社区医院、水站等符合社区居民利益的正常电话的误检测率,并通过投诉数据和实际检测结果不断优化已有模型,提高识别准确率。
关键词:骚扰电话;运营商数据;通话行为特征
Abstract: The rapid development of mobile communications has brought convenience to people, accompanied by marketing for commercial purposes and even the spread of some illegal information. The proliferation of harassing calls has become one of the important reasons for users to complain to telecom operators, and has also caused a significant impact on the load of communication equipment.This article analyzes user call behavior features and extracts multi-dimensional fusion features including traditional features from operator data, such as average call distance, take-out time ratio, and physical location change rate to generate harassing phone recognition models. It reduces the false detection rate of delivery and some normal calls such as community hospitals and water stations, and optimizes existing strategies through complaint data.
Keywords: harassing calls; mobile operator data; call behavioral feature
1 引言
随着移动通信业务不断发展,移动通信在给人们带来了便利的同时,也使一些人为了商业目的而进行电话营销、骚扰。其中骚扰电话的泛滥已成为用户投诉电信运营商的重要原因之一,也对通信网络设备的负荷造成了重大影响[2]。2018年7月30日,工信部等13个部门联合发布《综合整治骚扰电话专项行动方案》的通知,通知里提出,即将在全国范围内严厉整治骚扰电话乱象。
本文首先通过对运营商信令数据和话单数据进行分析,得出典型场景下的骚扰电话的通话行为特征。然后通过大数据技术[4],对运营商的信令监测数据进行计算,得出每个用户的通话行为特征值,生成骚扰电话识别模型,经过识别模型的过滤,得出疑似骚扰电话号码。最后通过投诉数据调整模型阈值,进一步优化模型的准确性。
2 骚扰电话行为特征分析
2.1 通话行为特征概括
骚扰电话由于其特殊的目的,与正常呼叫电话的通话行为上存在比较明显的区别。经过调查研究,总结出现有网络环境中骚扰电话存在如下特点。
1)骚扰电话的呼叫频次高;
2)骚扰号码呼出与呼入的比例高;
3)骚扰电话的骚扰目标离散度高;
4)被骚扰号码的相关性较小;
5)骚扰电话的通话时长较低,且被叫先挂机的概率大;
6)骚扰号码与所有的被骚扰号码间的重复通话次数相对较少;
7)骚扰电话的物理位置变化较小,常常在同一个地方产生大量外呼;
8)真实的骚扰电话常常配有多个终端、多张手机卡,往往一张卡被关停后更换另一张卡继续拨打骚扰电话。
2.2 传统特征和多维融合特征分析
基于以上对通话行为的特点进行分析,本文从如下多维融合特征来考量骚扰电话的判别依据。
各維度的含义及计算方式如下。
1)主叫频次:指某一号码作主叫时的试呼次数。
2)忙时主叫频次:指工作时间段的主叫频次。
3)主叫占比:指某一号码作为主叫时的频次与其作为主叫和作为被叫的总频次之和的比值。
4)被叫号码离散度:指某一主叫对应的所有被叫号码去重后的数量与该主叫号码的主叫频次的比值。
5)被叫空间离散度:指某一主叫对应的所有被叫号码的归属地去重后的数量与中国省份数量的比值。
6)外省呼叫占比:指某一主叫拨打外省的频次在其主叫频次所占的比重。
7)接通率:指某一主叫号码外呼的所有电话中被接通的次数的占比。
8)平均通话时长:指某一主叫号码所有被接通的通话记录的通话时长的平均值。
9)平均振铃时长:指某一主叫号码所有外呼记录的振铃时长的平均值。
10)ci去重后数量:指某一主叫号码所有外呼记录中的ci值(或cell值)去重后的数量。
11)物理位置变化率:指某一主叫号码的ci去重后数量与主叫频次之比。
12)外卖时间占比:指某一号码在外卖时间(11:00-14:00,17:00-20:00)外呼的频次与主叫频次的比值。
13)15秒以下通话占比:指某一主叫号码通话时长小于15秒的记录数量与主叫频次之比。
14)个人名下黑名单数量:指某一主叫号码对应的使用人,其名下已被判定为骚扰电话号码的数量。
2.3 信令数据介绍与处理
2.3.1 信令数据
针对投诉率居高不下的痛点,我们利用信令数据、精分数据和话单数据,综合第三方标记数据库,全面分析了所有用户的通话行为特征。
2.3.2 数据处理
本文使用的数据主要包括用户的mc口数据、nc口数据、4g(VoLTE)信令系统接口数据、话单数据和用户签约数据。
1)不同来源的信令数据聚合
2)号码和IMSI对应补全
3 多维融合特征模型
由于特征选取的丰富性,本文将多维融合特征模型的所有判定策略分为基础策略模型、主叫策略模型、信息关联策略模型和专题模型。
3.1基础策略
考虑到所有骚扰电话的共同特点主要有:主叫频次高、同一主叫号码对应的被叫号码离散度高、主叫占比高。此外,主要治理本省骚扰电话,故主叫归属地都为本省。
3.2主叫行为策略
基础策略中使用的特征维度为几乎所有骚扰电话的通用特征,排除这些通用特征后,其他一些特征如忙时主叫频次、平均通话时长、外省呼叫占比、平均振铃时长、接通率、位置信息等也可以作为判断骚扰电话的特征维度。
3.2.1工作日高频骚扰策略
工作日高频骚扰指在工作日忙时(08:00~12:00,14:00~18:00)主叫频次超过50次/小时且平均通话时长小于30秒,且外卖时间占比小于60%,则判定该主叫号码为疑似工作日忙时高频骚扰号码。
3.2.2本省用户对外地用户的骚扰策略
本省用户对外地用户的骚扰指主叫为本省,被叫外地的通话记录的占比超过90%,且平均通话时长小于30s时,则判定该主叫号码为疑似本省用户对外地用户骚扰号码。
3.2.3物理位置不变
物理位置不变是指骚扰电话拨出的位置不变,判定条件是时间类型为主叫,一段时间内主叫号码位置信息不变,且平均通话时长小于30s,如同时满足上述三个条件,则判定该主叫号码为疑似物理位置不变骚扰号码。
3.3信息关联策略
3.3.1个人身份信息关联策略
个人身份信息关联是指同一个人身份证下的骚扰电话数量超过3个,则将该身份证下的其他号码也加入骚扰电话黑名单。
3.3.2设备信息关联策略
设备信息关联是指某一主叫号码对应的IMEI号若已存在IMEI黑名单中,则将该IMEI下的其他号码也纳入骚扰电话黑名单。
3.4专题策略
3.4.1贷款理财策略
贷款理财类骚扰电话通常针对特定年龄段(18~35)的人群,这类人群有比较强烈的信贷消费需求,如买房买车等。本文通过被叫的年龄信息和接通率来判定是否归属贷款理财类骚扰电话。
4 实验结果与评估
4.1 策略模型流程
将所有的信令数据、话单数据和用户签约数据采集过来后,首先进行数据清洗和初步处理,将所有的数据进行聚合汇总,形成一张聚合表。再按照各维度的特征值对所有的主叫号码进行过滤,找出能被各策略命中的疑似号码。
需要注意的是,基础策略和主叫行为策略、专题策略需要配合使用。信息关联策略与基础策略则相互独立,依赖历史数据中的黑名单。对于曾经被关停过的骚扰电话号码,若新得到的号码其IMEI号与黑IMEI号相同,则直接进行关停。
4.2 传统特征模型和多维融合特征模型对比计算
选取连续一周的号码进行检测,其中多维融合特征模型连续一周的准确率超过95%,而传统特征模型连续一周的准确率最高为80.2%,最低为59.9%,说明新添加的特征对快递外卖等正常号码的识别效果较好,有效地降低了识别误差。5 结论
本文提出了一种改进的基于通话行为特征的骚扰电话检测方法。通过分析骚扰电话的通话行为特征,生成骚扰电话识别模型。利用大数据技术计算得到所有用户的通话行为特征值,然后经过模型识别过滤后得出所有骚扰电话号码。在传统的用户通话行为特征的基礎上,通过添加各维度融合特征,提出了一种多维融合特征检测模型,有效地减少了对快递外卖、社区水站、社区医院等非骚扰电话的误判率。进行第三方平台验证以及人工拨测验证,准确率达到95%以上,是一种可靠的骚扰电话检测方法。
参考文献
[1] 王彦青,王瀚辰. 一种识别骚扰电话的组合算法研究[J].电信科学,2017,33(7)112-119.
[2] 刘剑. 基于数据挖掘技术实现骚扰电话识别[D]. 北京.中国地质大学(北京).2011
[3] 王丹阳. 数据挖掘技术在骚扰电话监控系统的应用研究 [D].湖南大学,2010.
[4] HUANG Y J, FENG M, DING S Y, et al. Discussion on the devolpment strategy of telecom operators[J]. Telecommunications Science, 2013, 29(3): 6-11.
(中国移动通信集团天津有限公司)