孟利青,常润梅
(1 中国移动通信集团内蒙古有限公司,呼和浩特 010020; 2 内蒙古电子信息职业技术学院,呼和浩特 010070)
基于贝叶斯算法的短信营业厅防护系统设计
孟利青1,常润梅2
(1 中国移动通信集团内蒙古有限公司,呼和浩特 010020; 2 内蒙古电子信息职业技术学院,呼和浩特 010070)
针对电信运营商短信营业厅系统易受垃圾短信影响的问题,给出一种基于贝叶斯算法的短信营业厅防护系统构建方法,即在现有系统的基础上,另外构建一个与现有业务系统无耦合的独立系统,部署在短信营业厅系统前端进行短信预处理。新系统主要由文本特征提取模块、分类模块、过滤模块组成,对接收到短信按贝叶斯算法进行分类,按规则库进行过滤和清洗垃圾短信,将有价值的短信送到短信营业厅系统处理,减少垃圾短信对系统资源的开销。理论分析显示,利用所建系统,可达到对短信营业厅有效防护效果。实践证明,防护系统应用后,短信营业厅系统资源消耗下降。
短信营业厅;防护系统;贝叶斯算法
随着市场的发展和客户需求的变化,电信企业纷纷利用互联网、短信等电子渠道向客户提供方便快捷的服务,开展高效率体验式的业务营销,企业的服务和业务项目日渐丰富。电子渠道是指电信企业与客户非面对面通过信息化方式提供服务和销售产品的自有渠道,是企业整体渠道体系的重要组成部分,与实体渠道互为补充、相互结合,形成多层次、立体化的服务营销渠道体系。电子渠道可以提供方便快捷的服务,提高客户满意度;加强对移动产品的营销,提高产品营销的效率,降低营销成本;发挥电子渠道优势,分流人工服务压力;沟通客户,维系客户关系,支撑客户品牌建设;开展电子商务,逐步实现涉及物流和资金流的商务功能。短信营业厅作为电信企业重要的电子渠道之一,为客户提供便捷服务同时,也带来一些不规范的、恶意的垃圾短信给短信营业厅系统问题,以致系统的资源消耗大、处理效率低、企业投资成本高。对于日常交流信息的点对点短信,已有成熟的垃圾短信治理方法,多数采用黑名单、非法关键词过滤方法。对短信营业厅的垃圾短信治理目前没有一种可用、成熟的方法,因为短信营业厅是新型发展的营业渠道。但由于短信营业厅的业务量大,投资成本有限,垃圾短信会对短信营业厅造成极大的影响。优化短信营业厅系统,建立与短信营业厅无耦合的防护系统部署在短信营业厅系统前端可以过滤垃圾短信,防护系统采用贝叶斯分类算法进行分类,通过分词、特征提取、分类,过滤掉垃圾短信,减少垃圾短信调用短信营业厅系统后台处理流程。
短信营业厅指电信企业通过短信向客户提供自有服务和产品服务的营销渠道,包括查询、办理、咨询等业务类别,以及通过短信群发进行的营销类、调查类、告知类、问候类业务。适合短期群发营销,开通即可使用的产品;信息量小的查询,其它各电子渠道使用中的提醒,以短信为凭证的预约类服务等。建设有完整菜单结构的短信营业厅,整合服务和营销短信代码,扩展短信在提醒、预约和凭证等方面的使用,科学开展短信精确营销。
特点如下。
(1)全天提供随时随地服务,使用受限条件少,主动性强。
(2)覆盖面广。
(3)使用普及率较高。
(4)建设和管理成本较低。
(5)但传递信息量少。
短信处理功能如下。
(1)通过与短信网关的交互,实现短信营业厅短信接收和发送的功能。
(2)解析规则是用于处理用户上行短信内容以获取格式化用户指令,以及后续处理方法的规则集合。
(3)内容解析依据解析规则对短信内容进行处理,提取用户号码、服务代码等信息,生成结构化用户指令。
(4)封装规则是处理下发信息封装时采用的基本规则。封装规则是信息封装功能的实现基础。
(5)信息封装依据封装规则将信息内容、服务代码等信息进行封装处理,生成可下发的短信内容数据。
(6)业务处理引擎完成对结构化指令信息和下发信息的业务处理功能,包括菜单定位、生成回复菜单等。
短信营业厅短信处理功能如图1所示。
随着短信作为一种普遍、实用的信息交流方式得到大家的广泛使用,利用短信进行业务办理方便用户,但不良的垃圾短信也和计算机病毒、黑客程序等一样,成为困扰电信运营商的重大难题。目前通常采取分析发送人、过滤短信内容等方式来识别并拦截垃圾短信,对于短信营业厅的防护主要采用以下3种方法。
(1)安全认证:即通信双方在收发短信之前互相认证,只有通过认证的短信可以被接受。
(2)基于规则的方法:包括关键词匹配的方法对短信内容进行过滤。
(3)基于统计和学习的方法:如贝叶斯算法。贝叶斯分类算法是统计学分类方法,它是一类利用概率统计知识进行分类的算法。在此场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。
2.1 系统结构图
该系统分为3大模块,分别为分词模块、分类模块、学习模块(学习机)。4个数据库分别为分词词库、停用词库、分类词库、规则词库。首先,程序读入从短信网关来的短信。在分词模块中,软件根据分词词库和停用词库将短信文本分割为单词。然后用贝叶斯算法根据分类词典中存贮的特征项条件概率,并加入针对短信的规则特征,计算并选取其中概率值最大的类别进行分类。如果分类错误,可由用户手动进行更正,然后由学习机进行学习,也就是修改对应库中的条件概率值。其模块结构如图2所示。
图1 短信营业厅短信处理功能
图2 防护系统结构图
2.2 短信样本预处理
样本中的信息可以用向量来表示。短信m,可以表示为n维的特征向量Xm=(x1, x2… xn)对于文本分类,特征项一般采用对文本进行分词后的单词。
2.2.1 对短信进行分词
分词是将短信分割成一个个有意义的单词。像英文等以词为最小语言单位不同,中文的最小语言元素是字,字再构成词,而且词之间没有分隔标记(如空格),所以中文的分词相对来说复杂很多,需要查询分词词典进行匹配。
2.2.2 剔除停用词
对分类没有用的词,主要是分词后形成的单个的字,以及叹词、语气助词、代词等。通过查阅停用词表(包括助词、代词等)方式除掉。
2.3 特征项提取
2.3.1 分词特征提取
由于短信由很多不同的词组成,如果把这些词都作为特征项,则特征项的维度过大。不难发现,有些单词对区分垃圾信息所起的贡献很小,完全可以忽略,因此相应的维数可以减小。一般可以根据词的信息熵增益或互信息决定特征的选取,我们采用互信息。计算每个候选属性A出现与否和某个分类的互信息MI(A,C),这里只有两个分类spam, legit
然后从中选出具有最高互信息的属性作为分词后的特征。P(X, C), P(X)和P(C)可以从样本中统计得来。
2.3.2 长度特征提取
每条短信长度为70个中文字符,通过对短信长度统计,得到如下结果。垃圾和非垃圾短信在长度上有很明显的区别,75%的合法短信长度在20个中文字符内。85%的垃圾短信长度在50个字符以上。由此可以得出结论,垃圾短信具有更长的长度,也就是说包含的信息量比普通短信要多。同时我们注意到,大约有3%的合法短信长度在60个字符以上,这主要是过节时发送的祝福短信。所以可以在节日时对含有祝福话语的短信放宽它的长度限制。
2.3.3 规则特征提取
表1统计了一些规则的匹配频率,其中 P(Aj| Cspam)为规则Aj在垃圾短信中规则匹配频率,P(Aj| Clegit)为规则Aj在合法短信中规则匹配频率。假设各个规则间独立,并将此规则也当作分类属性。P(Aj|Cspam) P(Aj|Clegit)均可从样本中得来。
表1 垃圾短信和合法短信中规则匹配频率对照表
2.4 反馈学习与贝叶斯分类
假设属性抽取完成后,数据集中有n个属性(包括词属性,长度属性,规则属性),我们记为A1, A2…An,样本X在这n个属性上的取值记为X = {x1, x2… xn}。给定一个数据样本X,朴素贝叶斯分类将预测X属于具有最高后验概率的类。即该方法将类别属性值未知的样本分配给类Ci, 当且仅当:
P(Ci|X)>P(Cj|X) 1<j<m, j≠i,
根据贝叶斯定理,有:
P(Ci)是由以前的分析得到的,因此称为先验概率,而P(X|Ci)是根据新得到的信息(X的取值)来加以计算的,因此成为后验概率。
贝叶斯定理将事件的先验概率和后验概率结合起来,对未知参数向量的估计综合了它的先验信息和样本信息。为了降低计算P(X|Ci)的开销,朴素贝叶斯分类假设一个属性值对给定类的影响独立于其它属性,即属性值条件是互相独立的,在属性间不存在依赖关系,因此:
其中Ak表示第k个属性值,xk表示样本X在属性Ak上的取值,因此上式可以改写为:
P(Ci)为任意一个样本属于类Ci的概率,若记Ci中的样本个数为|Si|,所有样本总数为|S|,则有:
对所有类来说,由于P(X)是常数,因此P(Ci|X)的最大性与P(X|Ci)P(Ci)的最大性是一致的。类的先验概率通过对训练集中数据观察而得到,也就是用学习机计算每个属性值xi的P(xi|Cspam)和P(xi|Clegit)。
短信过滤是两类分类,存在两种分类错误:将垃圾短信判别为非垃圾短信或者将非垃圾短信判别为垃圾短信。对我们来说,第2种错误是更严重的。我们可以通过以下方法来解决。
(1)定义一个变量
并给定一个常数λ,如果α>λ,则分类器预测X是一个垃圾短信,否则认为,它是个合法短信。
(2)通过训练集,使系统对垃圾短信的分类正确率提高。
(3)通过增强属性之间的相关性假设而得到更好的分类效果。
2.5 训练样本(如表2所示)
训练样本数据集包含每个数据集的名字(Dataset),每个数据集测试实例的数量(In)s属性的数量(Attr)和类别的数量(Classes)。
表2 训练样本
2.6 防护系统运行效果
对于短信营业厅的防护主要采用以下3种方法。
(1)安全认证:即通信双方在收发短信之前互相认证,只有通过认证的短信可以被接受。
(2)基于规则的方法:包括关键词匹配的方法对短信内容进行过滤。
(3)基于统计和学习的方法:如贝叶斯算法等。贝叶斯分类算法是统计学分类方法,它是一类利用概率统计知识进行分类的算法。在此场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。
通过在内蒙移动短信营业系统中实践,日均过滤垃圾短信2%,对一个拥有2 000万用户规模短信营业厅系统,日均短信营业厅服务量200万条,服务器配备惠普安腾8640服务器,32颗CPU,128 G内存。未加防护系统时,系统资源消耗如图3所示,加上防护系统后,系统资源消耗如图4所示,CPU资源消耗明显下降。
图3 营业厅系统服务器资源消耗(未加防护系统)
图4 营业厅系统服务器资源消耗(加防护系统后)
在经历了从产品性能到价格的白热化竞争阶段之后,电信运营商又转向了以服务为侧重的激烈竞争之中,在产品同质化、价格透明化的市场环境中,服务质量与服务水平将成为用户在选择运营商时越来越重要的一个考虑因素,各电信企业也纷纷在梳理自己的服务渠道,希望通过发挥各渠道的优势提高客户服务水平与市场拓展能力,而在自助话音、互联网(网上营业厅)、短信渠道(短信营业厅)、掌上营业厅四大电子渠道正是各大运营商当前梳理渠道的重点之一。其中短信营业厅是最具普遍性便捷的电子渠道,通过挖掘与发挥短信渠道的客户交互能力对电信运营商提高客户服务水平、增强市场拓展能力有着重要的意义。自助服务的水平可以从侧面反映电信运营商的服务发展水平,在通信业发达的国家,自动服务是主要的客户服务渠道,有意识的培养用户的电子化自动服务消费习惯不仅可以提高业务运营能力、提升客户服务水平,还可以较大幅度的降低运营商的客户服务成本,而短信营业厅以其在业务运营承载能力方面的优势将在电信运营领域发挥越来越重要的作用。通过短信营业厅防护系统的应用,解决了不良用户对系统的影响,提升系统运行效率,节约企业投资成本,提升客户满意度。
参考文献
[1] 王慧, 郭俏俏. 电信用户满意度的评价算法探讨[J]. 西安邮电学院学报, 2007,64(04):5-7.
[2] 徐丽琴, 何晓川. 一种基于负熵的信赖区域盲分离方法[J].西安邮电学院学报, 2010,15(3):14-18.
[3] 张宁, 贾自艳, 史忠植. 使用KNN算法的文本分类[J]. 计算机工程, 2005,31(8):171-172.
[4] 张文良, 黄亚楼, 倪维健. 一种基于聚类的文本特征选择方法[J]. 计算机应用, 2007,27(1):205-206.
[5] 张兢, 候旭东, 吕和胜. 基于朴素贝叶斯和支持向量机的短信智能分析系统设计[J]. 重庆理工大学学报(自然科学版),2010,24(1):77-80.
[6] 金展, 范晶, 陈峰, 等. 基于朴素贝叶斯和支持向量机的自适应垃圾短信过滤系统[J]. 计算机应用, 2008,28(3):714-718.
[7] 邓维维, 彭宏. 移动环境下的垃圾短信过滤系统的研究[J].计算机应用, 2007,27(1):221-224.
[8] 张兢, 李雪梅, 徐伟, 等.改进的人工免疫算法及在垃圾短信过滤系统中的应用[J]. 重庆理工大学学报(自然科学版),2011,25(8):34-38.
Design of protection system of SMS business system based on Bayesian algorithm
MENG Li-qing1, CHANG Run-mei2
(1 China Mobile Group Inner Mongolia Company Limited, Huhehaote 010020, China; 2 Inner Mongolia Electronic Information Vocational Technical College, Huhehaote 010070, China)
In order to solve the inf uence of rubbish short message telecom operators short message service business system, put forward a method of short message business office protection system based on Bayesian algorithm. Based on the existing system as the basis, to build a independent system without coupled with existing business system, the deployment of short message service pretreatment in front of short message service business system, system mainly has the text feature extraction module, a classif cation module, f ltering module, to receive text messages are classif ed by the Bias algorithm, f lter, according to the rule base cleaning garbage short message service, short message service text messages will be of value to the business hall system processing, reduce spam messages on the spending of system resources. Theoretical analysis shows that, by using the established system, can achieve effective protection effect of short message service business hall. Practice has proved, protection system, short message service business system resource consumption is reduced.
short message service business hall; protection system; Bayesian algorithm
TN915
A
1008-5599(2014)12-0043-06
吉时利推出面向源测量单元 (SMU)仪器的首款免费应用程序
2014-09-30
News
近日,吉时利仪器宣布开发了一款面向安卓智能手机和平板电脑(这些设备可通过其前面板USB接口与吉时利2600B系列数字源表SMU仪器互动)的免费应用程序:IVy。IVy延伸了吉时利的Touch,Test,Invent(触摸、测试、创新)设计理念,向台式2600B系列仪器用户提供了快速、易于使用的触摸屏工具,来对2和3端子器件进行特性分析。借助智能移动设备,IVy把2600B系列仪器变成强大的工具,让用户能够高效地进行直观、互动和分享测量结果,同时帮助他们对其器件的性能有更深入的理解。