姚跃
摘要:违规短信是诈骗分子的温床,亟须严格管控。文章提出了基于数据挖掘的违规短信自动识别算法设计,通过决策树分类算法技术进行违规短信判决,构建违规短信自动识别算法模型,设计模型系统的架构生成、指标属性以及工作流程。实验分析,利用基于数据挖掘技术的违规短信自动识别算法准确率虽存在一定的波动性,违规短信自动识别的准确率为96.42%,但能够较好地识别疑似违规短信,实现有效识别与控制违规短信用户,高效治理违规短信现象的终极目标。
关键词:数据挖掘;决策树;违规短信;信息自动识别
中图分类号:TP311 文献标志码:A
0 引言
短信属性自动识别是维护信息安全的重要依据,违规信息的散布在造成垃圾信息的同时,也为违法犯罪活动提供了平台,有必要严格管控。随着违规短信隐蔽性逐渐增强,当前以黑白名单、关键字词监控以及文本分类过滤等技术为主的违规短信拦截处理方法已经无法满足短信治理工作的需要[1]。本设计基于数据挖掘的违规短信自动识别算法,动态提取短信的信号数据特征,构建违规短信自动识别计算模型,可完成短信接收端与违规短信识别平台的对接。此外,本设计通过数据监测获取全部短信内容,使其经短信自动识别系统确认后,可实现对违规短信的自动筛查[2]。对短信进行精细化数据管理,有助于提升违规短信的治理效率,保障通信信息安全[3]。
1 基于决策树分类算法的违规短信判决
1.1 特征提取
用于识别违规短信信号特征的提取是实现内容判决自动识别的关键环节,本设计主要结合了现有样本数据信息,对违规短信数量、违规短信类型、涉及发送违规信息的手机号码等多个违规数据进行了特征提取[4]。结果如表1所示。
如表1所示,本文将采集到的初始信息进行预处理及属性判定后作为决策树的样本数据。违规短信权重计算公式:
Xweight(wi)=pp(wi,C)P(wi,C)-P(wi,C)P(wi,C)p(wi)P(wi)P(C)P(C)(1)
其中,p=wi2(2)
式中,wi为不包含词wi的数据样本,P(wi,C)为不在分类C中且不包含词wi的样本数据信息在所有样本中的概率。|wi|为词wi的样本数据长度,式(1)与式(2)表示了短信用词词频、短信用词在样本空间中的使用情况以及短信用词数据长度,得出:常规情况下样本数据长度越长的短信违规短信特征属性越显明,被识别为违规短信的概率越高,且权重较高,定义阈值如下式(3):
η=(1-k)minXweight(wi)+kmaxXweight(wi)(3)
式中,k为特征提取系数,取值范围为[0,1],结果表明k取0.7为最佳值,权重大于此值的特征词将被提取。特征属性中的长度特征用样本数据长度说明,属性值为离散值;违规短信类型特征以违规广告信息宣传、信息精神污染、诈骗信息做特征属性说明,特征属性值为离散值;短信源头规范用是否满足源头规范做说明,特征属性值为0/1;手机号码归属地以手机号码是否为本地做属性说明,特征属性值为0/1。以此得出违规分类算法属性类别,在决策树分类算法识别中的数据特征提取完成。
1.2 决策树生成
本文采用提取出的信息增益作为选择决策点依据,计算决策树各特征属性的信息增益,选取信息增益最大特征作为决策点,由上而下生成决策树。设S为某短信数据源中的s个样本数据的总和,{C1,C2,…,Cm}为其列度中的m个不同标识,且si为列度标识Ci中的样本数量,由此得出,短信样本集分类所需的期望信息为:
I(s1,s2,…,sm)=-∑mi=1pilog2(pi)(4)
式中,I(s1,s2,…,sm)表示短信样本集s1,s2,…,sm分类所需的期望值,pi为任一短信样本属于列维度标识Ci的概率。假设一个特征a取v个不同的值{v1,v2,…,vv},利用a將集合S划分为v个子集{S1,S2,…,Sv},其中S1包含了S集合中特征a取v1值的短信数据样本,若特征a被选择为划分已有短信样本集的决策属性点,设Sij为子集Sj中属于Ci列标识的样本集,利用a划分已有样本集的信息决策点所需要的信息熵为:
E(a)=∑vj=1s1j+s2j+…smjsI(s1j,s2j,…,smj)=-∑vj=1∑mi=1s1j+s2j+smjspijlog(pij)(5)
式中,E(a)是已有短信样本集所需要的信息熵,pij为子集sj中任意一个数据样本属于列标识Ci的概率。利用特征对分支节点划分样本集所获得的信息增益即可生成违规短信判决决策树分类[5] 。
2 违规短信自动识别模型构建
在违规短信识别模型中,假设y为决定用户是正常用户还是违规短信用户的二值变量,以y=1代表违规短信用户,以y=0代表正常用户,以p表示以统计学的计算方式对短信接收用户进行预测的预测值,即y=1的概率。一般情况下,p的值与短信接收用户是违规短信用户的可能性成正比,p的值越大,该用户是违规短信用户的可能性越高;p值越小,该用户是违规短信用户的可能性便越小。计算方式可依据Logistic的线性回归模型,如下式(6)所示。
logp1-p=β0+β1X1+…+βnXn(6)
式中,p=p(y=1)是二值变量中y=1的概率,X1,X2,…Xn是影响y=1的n个预测变量。β0,β1,…βn是需要结合短信用户数据等相关数据库进行预估的模型参数。将收集到的短信样本组以7∶3的比例划分为训练集与测试集,依据训练集求出模型参数β0,β1…βn的值,将各数据的值代入表达式中求得p(y=1)的值。此时可依据得到的结果进行判断,当p等于1时,短信为正常短信,不予处置,正常进行信息接收;当p不等于1时,短信被自动识别为违规短信。
(6)根据决策树处理违规短信,依照违规短信识别拦截规则生成短信识别拦截方案,进而通过判断违规短信的拦截参数是否符合预期拦截要求进行短信识别,计算拦截参数具体如下式(7):
pl=MN(7)
式中,pl为拦截参数,M为违规信息拦截概率,N为用户接收的短信条数。违规短信自动识别即以采集的违规短信为依据获取违规短信数据,在此基础上随机抽取部分非违规短信数据与之混合,形成短信自动识别建模样本组。选定样本数据后,总体用户数据库提取与该用户相关联的短信,结合违规短信数据形成宽表,而后运用计算方法进行相关性数据的分析与整合,完成相应的违规短信自动识别参数计算。
3 测试实验
3.1 实验准备
本文通过实验验证违规短信自动识别设计的有效性。实验中的数据采用某信息平台中采集到的含有多维未知属性的结构化数据源。为保障违规短信自动识别模型数据获取的精细化,实验以短信接收用户接收短信的相关特征和数据的可获取性原则为依据,构建违规短信自动识别模型。具体实验以某两个月上限的短信样本数据为例,将样本数据导入违规短信自动识别算法模型,以3∶7的比例对样本数据进行分区,建立Logistic的线性回归模型,预估Logistic回归模型的参数,β0,β1,…βn,以及y=1的概率,具体数值如表2所示。
由表2可知,当y=1时,截距、网络在线时长、短信发送消耗费用以及每月前3天内集中时段短信发送条数的自由度一致,显著水平稳定;违规短信自动识别算法的识别表现可从两个方面进行评判。本文对比训练集中获取的违规短信用户量以及测试集中获取的违规短信用户量数据,获取数据对比的差值,判断违规短信自动识别算法的识别结果是否可靠,获取违规短信自动识别波动率及准确率结果。
3.2 实验结果
3.2.1 波动率
违规短信自动识别的波动率是指通过对已知的违规短信用户量进行对比,获取的短信自动识别训练集中的数据命中率与测试集中数据命中率的差值。实验以5个短信自动识别基础指标为例,分别对置信区间,即指标数据参数估计区间的上限及下限数据进行计算,进而通过上下限的数据比对得出违规短信自动识别的波动率,具体数值如表3所示。
短信自动识别指标的置信区间(eβ)上下限波动值分别为0.01、0.003、0.003、0.002、0.008,违规短信自动识别的波动率幅度为0.8%上下,以此判定,违规短信自动识别模型相对可靠。
3.2.2 自动识别准确率
违规短信识别准确率即以所获取短信中属于黑名单的用户在嫌疑黑名单中的所占比例为标准判断违规短信自动识别模型的稳定可靠性。随机采集某用户近两个月时间段内的短信数据进行分析,共获取违规短信28条,经对违规短信进行样本分析后,按照违规短信类型对违规短信进行了分类,违规短信自动识别模型对全部短信进行识别判断后,得出相关违规短信判断数据,经数据分析与比对后得出违规短信自动识别算法的准确率,具体结果如表4所示。
据表4数据显示,基于数据挖掘的违规短信自动识别模型过滤的准确率为96.42%。实验结果表明,基于数据挖掘技术的违规短信自动识别模型识别的准确率虽存在一定的波动性,但能够较好地识别疑似违规用户中的违规短信,一定程度上能够提升短信信息服务质量,基于数据挖掘的违规短信自动识别算法的稳定性与可靠性较强。
4 结语
以数据挖掘技术为技术保障的违规信息自动识别算法设计,降低违规短信的不良影响是提升短信信息服务质量、保障用户信息安全的直接途径。基于数据挖掘技术的违规短信自动计算算法下,违规短信的识别率及识别准确率较为精准,系统处理速率较快,能够有效降低人工拦截违规短信的工作量,提升违规短信的拦截效率,实现违规短信过滤拦截的循环优化,便于信息平台精细化管理违规短信用戶,有效保障短信数据来源的安全性及用户短信通信权益的稳定性。
参考文献
[1]李琼阳,田萍.基于主成分分析的朴素贝叶斯算法在垃圾短信用户识别中的应用[J].数学的实践与认识,2019(1):134-138.
[2]李靖超,钱迪,董春蕾.基于小波熵理论的决策树信号分类识别算法[J].上海电机学院学报,2019(2):100-103.
[3]邱达超,王海燕,李振华.谈移动互联网时代的手机信息安全[J].电信工程技术与标准化,2020(8):21-26.
[4]王金栋,向前兰,李岳.基于广义数字的智能垃圾短信拦截系统设计[J].邮电设计技术,2021(3):55-57.
[5]王金栋,任燕影,向前兰.智能识别内容的垃圾短信系统设计[J].内江科技,2020(8):16-17.
(编辑 编辑傅金睿)
Design of automatic SMS recognition algorithm based on data mining
Yao Yue
(Changsha Vocational & Technical College, Changsha 410217, China)
Abstract: Illegal SMS is the hotbed of fraudsters, which needs to be strictly controlled. Therefore, an automatic identification algorithm of illegal SMS based on data mining is proposed. Through the decision tree classification algorithm technology, we can judge the illegal short messages, build the automatic recognition algorithm model of illegal short messages, and design the architecture generation, index attributes and workflow of the model system. Through experimental analysis, although the accuracy rate of the automatic recognition algorithm of illegal short messages based on data mining technology has certain fluctuations, the accuracy rate of automatic recognition of illegal short messages is 96.42%, which can better identify suspected illegal short messages, realize the ultimate goal of effectively identifying and controlling illegal short message users, and effectively manage the phenomenon of illegal short messages.
Key words: data mining; decision tree; illegal SMS; automatic information identification