垃圾短信拦截技术研究

2011-06-09 07:23吴振奎娄涛田刚赖晓龙乔芸
电信工程技术与标准化 2011年10期
关键词:关键字有效期黑名单

吴振奎, 娄涛, 田刚, 赖晓龙, 乔芸

(1 中国移动通信集团陕西有限公司,西安 710075; 2 中国移动通信集团公司,北京 100032)

1 背景

随着移动通信服务的不断拓展,利用移动通信网络传送各类不良和违法内容的垃圾短信现象随之出现,严重影响电信运营商客户感知。陕西移动从2004年6月起,持续不断的进行垃圾短信的治理。目前在垃圾短信的治理过程中,采取多项措施来控制垃圾短信传播,对垃圾短信实施拦截,拦截范围逐步扩大,拦截手段也日益精益。从最初的发送频率阀值,关键字控制到后来的发送量组合、关键字组合、号码离散度控制、内容离散度控制,垃圾短信的拦截一直紧跟最新的垃圾短信发送方法的发展趋势,拦截工作取得了令人瞩目的效果。

然而,近期垃圾短信的发送开始变幻莫测,发送方式层出不穷。先后出现了大量购买SIM卡低频发送、复制卡发送垃圾短信,关键字同音替代、异型字替代、近体字替代、多音字、竖形排版等多种发送方式,近期还出现利用手机中毒来向其通讯录中的联系人发送垃圾短信的恶意软件。目前的垃圾短信系统没有策略对这些行为实施检测,这些发送垃圾短信的方式仅仅是因为客户有相应的投诉,进而被发现并核实。这就要求整个垃圾短信拦截业务系统的智能化,有效性持续提升。

2 目前垃圾短信发送行为的主要特点

2.1 复制卡发送垃圾短信

多张复制的SIM卡被复制以后,同时激活附着网络,可以同时存活于不同的MSC下,同时发送短信。传统HLR停短信功能方式仅仅只能关停掉其中的一张卡。其它的复制卡仍然可以高速群发垃圾短信。

2.2 低频发送

采用大量号码,模拟正常用户以较低的发送频率进行垃圾短信发送。

2.3 表达形式多样

使用如:“fa-瞟”、“黑車”、“货(贷)款”等拼音、词汇变形、繁体字、标点符号嵌入,使得目前的关键字和关键字组合失效。

2.4 竖形排版

垃圾短信用如图1所示方式进行发送。

图1 垃圾短信

针对以上垃圾短信,系统按照“[发] {恭} [piao]{喜} [联] {发} [系]{财}137%72@02@9118”进行处理,这样竖形排版的垃圾短信使得关键字识别方式失效,对垃圾短信拦截造成极大障碍。

3 应对策略及方法分析

3.1 复制卡问题

不法分子恶意利用多张复制的SIM卡同时激活同时附着网络,可以实现在多个MSC下同时有效附着,并可以大量发送垃圾短信。传统垃圾短信HLR停短信功能方式只能使其中一个MSC下的卡失效,其余的卡仍然附着于网络并持续发送大量的垃圾信息。通过数据统计分析复制卡所在的MSC,人工或使用清理程序逐一进行清理,操作复杂,效率低下,无法抑制复制卡垃圾短信的传播。

另一方面,在垃圾短信发送过程中,因为其被叫号码用户状态相对于BOSS的滞后性,其必然有一部分是无效号码。在对这些号码发送短信时,归属位置寄存器(HLR)会返回的用户无效或者无短信功能的错误码到短信中心。当一个用户群发短信产生错误堆积到一定程度后,则会对该用户向短信中心提交短信进行拒绝。短信中心固有的这种策略是针对手机号码的,不受复制卡数量和其附着原理的限制,多张复制卡在短信中心看来仍然是同一个号码,那么可以很好的利用这个策略来抑制复制卡发送垃圾短信。

实际上,复制卡发送垃圾短信时,进一步将短信的有效期设置为非常短的时间。如果该短信没有发送成功,则此条短信失效,释放了发送占用的短消息缓存,从而逃避了发送缓存的限制。那么需要研究通过对短信的有效期进行强制,使得短信缓存的作用得以发挥,就可以抑制复制卡发送垃圾短信。

3.2 低频发送问题

个人客户日发送垃圾短信条数比例基本符合指数分布。其指数分布的公式:

这里K为客户发送短信的条数,P是客户发送K条短信的概率,E为某一常量。

经过对陕西移动短信中心和BOSS系统2011年某日的数据进行实际的计算,得到了陕西省一个非节假日短信发送的类指数函数分布图,如图2所示。

图2 实际短信发送条数分布图

从图2中分析到,降低每日的拦截阈值就会使得拦截到的嫌疑黑名单随着指数分布的横轴从右向左积分增大。

在阈值为T的情况下,其嫌疑黑名单在所有用户的占比S将为:

对部分现网数据分析,98.93%的客户日发送量在35条以下,1.07%的客户每日发送量超过34条。假设将拦截阈值降低到35,那么在陕西客户数量为2200万的条件下,每天至少会有23.54万(2200万×1.07%)的客户号码被垃圾短信系统中检测出而成为嫌疑黑名单呈现在客户服务中心前台。继续对阈值降低到25,每天至少会有23.54万(2200万×1.07%)的客户号码被垃圾短信系统中检测出而成为嫌疑黑名单需要进行处理。继续对阈值降低到25,每天至少会有48.4万(2200万×2.20%)的客户号码被垃圾短信系统中检测出而成为嫌疑黑名单要进行处理。那么嫌疑黑名单数量将非常庞大,带来巨大的处理压力。

垃圾短信低频发送就是利用目前拦截阈值设置受限,隐藏于大量正常短信之间。

3.3 关键字表达形式多样和排版变化应对策略分析

因为关键字的多种异型字、同音字、拼音、繁体字、变体字、以及垃圾短信竖形排版等因素导致其关键字变化理论上超过1×1035,不可能通过扩展关键字来彻底解决关键字变化问题,未来垃圾短信的关键字拦截作用将逐渐弱化。需要找寻另一种策略来应对关键字各类变化问题。

4 应对方式和效果

4.1 针对复制卡

我们分析其短信有效期判定的流程如图3所示。

在这个流程中,通过7个决策点来判断了短信有效期,复制卡发送垃圾短信手机端设定有效期在第4个决策点生效,为了干扰这个有效期设定,必须在第1~3的判断过程予以设定。1和2的判断是无法人工控制的,只有第3个决策点业务调度决策表指定有效期是运营商可以进行设置有效期的。要对短信有效期进行设置并对有效期拦截效果予以强化,需要在短信中心设置3项措施。

(1)在业务调度决策表中强制短信有效期,使发送垃圾短信设备设置的短有效期失效,此时同一号码的所有复制卡发送能力仅相当于一张普通SIM卡;

(2)更进一步限制复制卡号码段短信发送缓存;

(3)对群发特征对应的错误码未知用户、呼叫被禁止加长下发周期,使发送缓存限制作用放大。

采用以上方法后,复制卡迅速绝迹。

4.2 针对低频率发送和各种关键字变形和竖形排版

针对低频发送,异体字、异型字、同音字、拼音、繁体字、变体字、以及垃圾短信竖形排版以及未来所有可能的垃圾短信发送策略,需要找出垃圾短信发送行为和普通客户号码发送行为的一个不同点。这个不同点可以将垃圾短信号码和正常客户号码区分开来。

图4表明了垃圾短信号码的社会关系。垃圾短信号码的社会关系简单,趋向于一个星形网络。

图3 短信有效期决定流程

图4 星形网络

在一般的人联系过程中,一个号码相关联系人之间应该也有联系,这种属性称为网络的聚合类特性。一般的,假设网络中的一个节点i有Ki个边与其它的Ki个点相连接,Ki个点就称为节点i的邻居,显然,在这Ki个节点间,最多可能有Ki(Ki-1)/2条边,而这Ki个节点之间,实际存在的边数Ei和总的可能的边数Ki(Ki-1)/2之比就定义为节点i的聚类系数Ci,即

垃圾短信号码的社会关系Ci接近于零,而普通号码的Ci小于1但一般是大于0.2的常数。根据短信实际的发送特征,总结如下:它是社会关系学中的施与者,广泛联系者,失败联系过多者。通过和复杂网络的聚类系数结合进行数学描述后,可以如下描述垃圾短信号码的特征。

(1)垃圾短信号码网络的聚类系数小于0.1;

(2)垃圾短信号码相关度均是出度(无收短信记录);

(3)垃圾短信号码在话音网络中是孤立点(无话音记录);

(4)垃圾短信号码240h内其相邻的点大于500;

(5)垃圾短信号码在网络上试图建立的点失败率在10%以上。

垃圾短信号码基本上符合以上的5个条件,而正常短信用户使用习惯基本不满足这些条件。用规则灵活组合的方式在垃圾短信系统中实现便可以将这些垃圾短信号码和点对点垃圾短信区分开来。这个策略经过修正和扩展有望成为未来垃圾短信拦截的终极策略,未来也可以应用于垃圾彩信的拦截中。

5 总结

围绕如何更加准确快速的解决复制卡发送垃圾短信和关键字、发送阈值千变万化的问题,垃圾短信系统维护人员从细节中查找问题,分析原因,进行应对,并创造性的提出彻底清除垃圾短信号码的方法。

猜你喜欢
关键字有效期黑名单
防晒黑名单?第2款就翻车了!
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
药品效期管理:有效期≠失效期
成功避开“关键字”
压力容器定期检验合格有效期该从何时起算
受惩黑名单
受惩黑名单
黑名单
结婚证设“有效期”是拿婚姻当儿戏
智能垃圾箱