张鸷,王浩
(中国移动通信集团辽宁有限公司,沈阳 110179)
行业端口业务因能够弥补互联网数据离线导致的通知不可达,受到移动互联网业务青睐,业务量连年递增。当前对违规的行业端口管理以接到投诉后关停为主,治理环节滞后、粗暴,安全管理与业务发展无法有效平衡。本文基于运营商行业端口短信管理现状,提出了一套行业端口垃圾短信主动防御体系。从短信炸弹监控、快速模板匹配、业务量监测预警及百万投诉比显性呈现等角度实现了化被动治理为主动研判,前置了风险预警及处置环节,有效提升行业端口业务质量,降低端口业务投诉率。
在工业和信息化部指导下,为切实履行企业社会责任,运营商逐渐规范行业短信运营管理。技术手段方面,建设了垃圾短信拦截系统、先审后发平台等,通过关键字匹配+流量监控+人工审核的模式实现了不良信息的发现及处置。管理方面,多从投诉及拦截数据入手,发现违法违规信息或投诉量异常增长则立即对端口进行关停。上述技管结合的手段在前期治理过程取得较好效果,抑制了大部分行业端口不良信息。但随着行业端口业务运营的深入,传统治理手段暴露出以下问题:一是难以应对新型多端口并发型短信炸弹攻击,造成大量用户被骚扰,产生投诉。二是基于关键字+人工审核的处置流程可能造成未超过拦截门限的部分短信已经发送到客户手机,即不良信息、转租转售、超范围发送等违规行为的发现和违规端口处理存在滞后性。三是完全基于短信内容的监控无法及时应对变体短信发送。四是投诉关停未与业务属性相结合,造成业务量大的短信端口因部分投诉被关停,对业务发展造成极大的负面影响。
2.1.1 网络架构设计
行业端口短信发送流程如图1所示,由集团客户管理员将发送内容提交至本省行业网关。行业网关根据行业端口在网状态、黑白名单、端口服务范围、速率等参数对信息发送行为进行鉴权,拒绝不合规的发送明细。随后,根据目的号码归属地分拣至接收号码短信中心并发送至客户手机。可以看出,本省行业网关是行业短信的鉴权、转发、汇接的核心节点。故我们将行业短信主动防御系统设计串接至客户侧短信发送平台与省内行业网关之间。此网络架构可实现对全量行业短信的监控,监测对象包括了省内、省外的端口及用户,确保了不良信息或异常业务的零死角实时阻断。
图1 网络架构设计图
2.1.2 业务流程设计
基于上述网络架构,我们设计了系统核心交互流程,如图2所示。所有提交至行业网关的短信消息首先提交至PROXY(通信代理子系统),再经KERNEL(核心处理子系统)进行监控。核心处理子系统进行数据统计及汇总后,根据预先配置的监控规则组进行风险行为的预判。预判违规规则包括是否符合短信炸弹发送模型、发送内容与该端口的短信模板是否完整匹配或模糊匹配。数据统计规则包括本时段产生的业务量较根据历史情况预测的业务量是否存在异常增长、是否产生较高的投诉比。此两数据不作为直接关停端口或为用户屏蔽短信的依据,仅用以异常事件预警提示。
根据用户投诉数据分析,目前出现新型垃圾短信轰炸形式。有别于传统利用存在管理漏洞的某一个端口频繁向用户发送短信,新型轰炸形式是在短时间内利用多个端口向同一用户发送短信。由于端口本身未发送任何违规信息,也未出现短时间内频繁发送短信的行为,传统的单一端口流量限制的治理手段已无法应对新型短信炸弹攻击。
为解决上述问题,本平台短信炸弹防护功能设计以用户感知为导向,通过对用户单位时间内收到的行业短信数量(包括省内、省外行业短信)进行累加,统计用户接收短信数量。当用户接收短信数量超出阈值时,系统判定为该用户遭受短信炸弹骚扰。解决方案是暂时将其手机号纳入行业网关系统黑名单中,暂停行业端口向其发送短信。
该功能支持灵活的参数配置,可根据实际需要对时间窗口和短信数量进行动态调整,如30s内10条或1min内25条等。为便于后续处置,系统对监控判定的异常轰炸情况进行短信预警,提醒管理人员对预警明细尽快确认,如涉及违规端口即刻开展处置,并可根据用户需求和实际情况选择对被叫用户是否取消屏蔽或继续屏蔽。
在行业端口业务运营过程中发现大量行业端口发送非签约内容,甚至违法违规信息。为解决此问题,针对高危风险或业务质量较差的端口建立了模板过滤机制。纳入过滤机制的行业端口只允许发送指定内容或部分变量短信,系统对模板范围以外的短信内容予以拒绝。根据业务需要,每个行业端口可能设置很多个子端口,每个子端口对应不同的业务,每个业务都需要使用模板判定。为提高多发并行的模板匹配效率,本系统提出了一种利用线性滑动抽取算法,提取每个模板的独有特征信息,快速定位到待鉴权消息对应的模板,减少匹配次数,提高模板审核效率。算法的主要原理如下。
图2 业务流程图
使用两个指针left和right在源模板串中提取最长汉字串,二者组成一个线性滑动窗口,窗口大小由模板串中连续汉字串的长度决定。首先,定义一个全局变量max以保存该模板中最长汉字串长度。该值初始值为零,并不断更新;再定义一个全局变量pos保存汉字串首位置。初值也为零,随max一起更新。初始状态时,两指针均指向模板的串首字符。随着指针的动向决策,分为以下几种情况。
(1)如果right指针指向的字符为汉字字符, left指针保持原位置,right指针向右滑动。
(2)如果right指针指向的字符不是汉字字符,计算right left并与max值比较,若left right>max,则将right left赋给max,并将left的赋值给pos,最后将right赋值给left。
(3)当right滑动到模板串的最后一个字符时,整个算法过程结束。
max保存最长汉字串的长度,pos保存最长汉字串的起始位置。可完成一次拷贝性的最长汉字串拷贝。
图3 线性滑动抽取算法图例
抽取过程中,指针均不会回退,当right指针指向模板串的尾字符时,抽取的过程结束。算法的时间复杂度为O(NM),其中,NM为模板串长度,只需对模板串遍历一次便可抽取出该模板的特征信息,与传统提取算法相比提升了一个量级。经测试,长度为135 byte的模板提取耗时由0.054 s缩短至0.000 57 s。
垃圾短信拦截系统的工作原理是对短信发送内容中的关键字和短信发送量进行监控和判断,对符合判定规则的短信判定为垃圾短信。但在日常治理过程中,违规分子为了逃避系统拦截,会对短信文本进行加工变体再配合特殊字符,例如“微信”变体为“薇?信)。”为解决变体不良信息难以监控及拦截的问题,我们提出了基于业务异常流量进行不良信息行为分析研判的思路。行业用户短信发送行为遵循一定的周期性规律,例如仅在工作日的上午10:00-12:00发送或每周三下午4:00等。如果端口被盗用以发送不良信息,一般会出现在非常规时段且会产生业务量的激增。根据上述模型,我们设计了行业短信日发送量画像功能,基于历史发送情况对行业端口每天的业务量进行预测,并根据这个预测值监控行业端口流量的异常变化。当流量超过设定值的冗余比例时,触发预警功能,及时提醒业务管理员对事件进行确认。
本文所述系统使用“多元线性回归算法+浮动修正”的方式对日发送量策略进行自适应调整,预测指定时段发送量值,从而进行端口被盗风险管理的态势分析。算法主要原理如下:
多元线性回归算法的数学模型为
其中:θ0、θ1、θ2、…θi、…θn为待求解参数;y为真实值,为预测值。
利用最小二乘法定义损失函数为:
其中: θ为待求解参数向量, yi(θ)为预测值,yi为实际值;损失函数越小,表明算法的效果越佳。
利用随机梯度下降算法,最小化损失函数:
对上式求驻点得到解析式:
我们可以设置每天的3个时段为特征,其中两个时段作为普通端口的发送时段特征,另外一个作为被盗端口的发送时段特征,若端口未被盗,则这个时段内的发送量几乎为零,也就不会影响该端口整体的日发送量。每个时段每分钟发送的消息量作为待训练参数,作为预测日发送量值的参数,即θ=(θ1,θ2,θ3)T,其中:θ1为时段1每分钟的发送量,θ2为时段2每分钟的发送量,θ3为时段3每分钟的发送量;利用上述算法,基于样本数据,能够顺利的训练出这些参数;我们便可以根据多元线性回归数学模型预测出日发送量。
为更加科学合理地评价端口的业务质量有助于支撑市场部门调整业务发展策略,筛选优质客户,促进端口业务健康运营。结合上级单位考核要求和市场部门实际需要,我们以图形化界面形式展示行业端口百万投诉率(投诉量/业务量×1 000 000)。相比于前期只看投诉量,不考虑业务贡献的统计和治理方式,该指标更客观、更合理地呈现出业务质量,实现了业务质量的精细化管理,大幅降低了投诉量高就关停的粗暴管理方式对优质业务的负面影响。为了更全面客观地展示业务健康度,我们分为按地市、时间及端口3个维度对行业端口投诉比进行统计和展示。3类数据的图形化呈现有助于对各市分公司业务水平实现横向对比,对投诉率变化趋势进行简单预测,对某个端口的业务质量也可清晰呈现,作为治理策略调整的有力依据。
本文所述系统上线后,行业端口业务质量显著提升。一是快速响应短信炸弹攻击事件,平台上线后累计拦截短信炸弹300余次,变体短信拦截时长由1.5个工作日缩短至2 min以内自动拦截。二是及时研判和拒绝非模板化短信700余万条,提高行业短信内容的规范性和安全性。三是通过异常流量分析成功预警端口在凌晨被盗发送非法信息事件2起。四是促进优质业务驻网,数据显示,行业端口月均业务量提高14.76%(蓝线趋势),投诉比降低19.66%(红线趋势)如图4所示。
图4 业务量及投诉率变化情况
本文结合运营商行业端口业务运营经验,针对当前管控的各项短板提出了一套完整的行业短信主动防御方案。为解决最新出现的多端口并发式短信炸弹轰炸问题,以被叫用户短信接收量为计数标准,实现了灵活可控的轰炸行为监控功能。对行业短口管理实行模板化自动过滤,提高端口发送内容的可控性。通过优化算法实现了主端口下多模板并发的短信内容快速校验,有效支撑业务发展需要。使用“多元线性回归算法+浮动修正”的方式根据历史业务量精准预测当前个性化业务量,并对预测值进行了分时段统计,提高业务量预测精细化程度。根据行业端口业务特点提出了对投诉比测算方式。该指标的测算有助于真实体现业务质量,对业务量大、投诉较小的业务进行筛选,重点进行资源倾斜和网络保障,对业务质量较差的及时进行关停或业务整改。系统上线后,公司行业端口业务运营质量显著提升,在业务量及业务收入增加的基础上,违规事件数量及投诉率大幅降低。
[1] 崔高侠. 基于信令监测的垃圾短信监控平台设计和实现[D].济南: 山东大学, 2013.
[2] 肖子玉,吕姗. 信息安全与垃圾短信监控[J]. 电信工程技术与标准化, 2010,23(3):60-64.
[3] 刘金岭. 基于语义信息的中文短信文本相似度研究[J]. 计算机工程学报, 2012,38(13).