史琬莹
摘要 在互联网飞速发展的背景下,面对庞大的数据,我们急需一种有效的数据分类方式,朴素贝叶斯就是在这种情况下得广泛关注的。朴素贝叶斯是一种基于条件独立性和贝叶斯定理的分类方法。本文通过朴素贝叶斯原理,朴素贝叶斯分类流程,模型评估,介绍了如何用朴素贝叶斯方法处理文本分类问题。
[关键词]朴素贝叶斯 特征选择 文本分类
1 引言
随着互联网的飞速发展,海量数据注入到通讯设备中。如此大量的信息就让信息检索和数据挖掘的重要性更加突出。文本分类作为数据挖掘的一部分也逐渐被人们重视起来。其中文本分类的主要内容是在预先给定的类标签的集合下,根据文章内容,确定它的类别。当前比较流行的文本分类方法主要包涵文本的表示,分类方法及效果,评估,这三部分。我们接下来将要通过三个方面来介绍:文本表示,分类器构造和分类器评估。
2 朴素贝叶斯原理
朴素贝叶斯是基于条件独立性和贝叶斯定理的分类方法。
2.1 条件独立性
条件独立性是指集合中任意两个事件均为相互独立事件,不存在依赖关系,满足:
P(XY|Z)=P(X|Z)*P(Y|Z)
(1)
2.2 条件概率
条件概率是指事件x在另一个事件y发生的条件下,其发生的概率,可以表示为:
其中,P(X)表示X的先验概率或者称为边缘概率。P(Y|X)表示己知事件x发生后事件Y发生的条件概率,也称Y的后验概率。
2.3 全概率公式
设实验E的样本空间为S,Y1,…,Yn为S的一个划分,且P(Yi》O(i=l,2,…,n),则对样本空间中的任一事件X,恒有
P(X)=∑niP(Yi)P(XIYi)
(3)
2.4 贝叶斯公式
设Y1,Y2,…,Yn为样本空间的一个划分,X为Ω中的任一事件,且P(X)>O,则恒有
3 朴素贝叶斯分类流程
3.1 特征选择
本文使用TFIDF做特征选择。TF-IDF是一种用以评测某一个文件或是文件集,在所有语料中重要程度的统计方法,字词的重要性与其在文件中出现的次数成正比,与在语料库中出现的频率成反比。
词频(TF)表示词语在文件中出现的频率。为了减小因文件长度造成的误差,通常以频率表示这个数字。
对于在某个特定文件中的文本,它的重要性通常可以表示为:
文件频率(DF) DF,表示包含词语t的文档个数。
逆向文件频率(IDF)用来表示词语在文件中的普遍程度。用总文件数与包含该词语的文件数目相除,可以得到该词在文件中的普遍程度。若包含该词的文件越少,则IDF值越大,则可以说明该词区分某一类文件的能力较强。结算公式为:
在计算得到每个词汇的TFIDF值以后,按照值的大小进行递减排序,选出TFIDF值较大的部分词汇作为特征。
3.2 朴素贝叶斯模型计算流程
朴素贝叶斯模型的计算流程如下所示:
(1)设x为一个待分类项;
(2)有类别集合C={y1,…ym);
(3)计算P(y1|x),…,P(yn|x);
(4) 如果P(yk|x)=max{P(y1|x),…, P(yn|x}),則x属于yk。
根据上述分析,朴素贝叶斯流程如图1表示。
4 模型评估
4.1 准确率
准确率是最常用的分类指标。就最常见的二分类问题来说,模型的目的是分析出正类和负类。在测试集合中,被正确识别的量,除以测试集中的总量(包括把正样本识别为负样本以及把负样本识别为负样本的情况)就是准确率。
4.2 精确度和召回率
精确度容易和准确率混为一谈。其实,精确度针对的只是预测正确的样本中,正样本的数量。它可以由预测正确的样本中,正样本的数量除以模型中所有正样本的数量总数得到。表现为预测为正的样本中,真正是正的数目。
召回率表示对于测试集中的正样本,分类器能识别出来的概率,它是用预测正确的正样本数目除以测试集中所有的正样本数目计算得出的。
4.3 混淆矩阵
混淆矩阵将实际样本数和预测样本数放到同一表格中进行分析的方法,是用来计算准确率、精确度、召回率常用的一种方法。对于二类分类问题而言,样本一般会被标为正类和负类,其中正类是我们关注的类型。
参考文献
[1]苏金树,张博锋,徐昕,基于机器学习的文本分类技术研究进展[J],软件学报,2006,17 (09):1848-1859.
[2]李学明,李海瑞,薛亮,何光军,基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38 (08):37-40.