李锋++万小强
摘要:短信自动分类一直以来都是学者研究的热点问题,伴随着各种类别短信的出现,对于用户来说,希望尽可能获取到自己想要看到的短信,因此本文在此问题上提出了利用一种结合黑白名单及时间因素的短信分类器,通过实验表明该分类器可以获得较好的准确率及召回率。
关键词:短信自动分类; 分类器; 黑白名单; 准确率; 召回率
中图分类号: TP391
文献标志码: A
文章编号: 2095-2163(2016)06-0005-04
0引言
[JP2]短信在人们生活中作为一种重要的交流方式,已然获得了高度广泛的现实应用。但无可避免地却会发现:当短信进入了大批量、各范畴的使用领域时,其中却瑕瑜互见地混杂有某些经由不法商户制造形成的带有欺诈行为性质的短信内容。基于此,为了杜绝该类事情现象的发生困扰,同时更为了助益用户快速定位到目標需求短信,本次研究中通过结合黑白名单以及时间因素而设计提出了短信分类器,根据短信的特征将其分为不同类别,这样一来,用户就可以通过类别来获取到自己想要看到的短信。针对这一相关课题,[JP3]学界也已展开了一定研究。诸如陈公平、沈明玉等提出基于改进贝叶斯的短信分类[1]。蔡永泉等人也随即给出了基于语序的关联分类算法[2]。王栋则进一步探讨了基于文本挖掘的短信分类技术[3]。此后,还有王红等人深入研究了云计算在短信分类中的应用[4]。李彩雁又重点发表了云计算在短信分类中的应用浅议[5]。另有崔彩霞也研发推出了基于字特征的短信分类方法[6]。[JP]
综上文献分析可知,已有成果都是利用相关算法实现的分类器来对短信进行分类,但是考虑到短信的如下特征[7]:
1)短信是一种内容比较短的文本;
2)短信没有完备的数据集;
3)短信的语法格式和一般的文本区别很大。
至此,研究引入了有关短信特征的具体分析后,本文就将主要利用短信的特征词对短信进行自动分类。
1短信的特征词提取
在短信分类中,短信中的词语是一个关键的分类特征,因此选择合理的特征词提取方法对于短信自动分类是非常重要的。目前比较常用的特征提取方法主要包括文档频率和信息增益[8-10] 。为了叙述上的方便,本文中所提特征词如无特别标注将均不包含停用词[11]。