胡 龙 茂
(安徽财贸职业学院,安徽 合肥 230601)
中文文本分类技术比较研究
胡 龙 茂
(安徽财贸职业学院,安徽 合肥 230601)
摘要:文本分类中特征选择、权重计算及分类算法三个阶段中都存在一些经典方法,在实际的中文文本分类任务中,如何从各阶段不同方法的组合中找到一个好的组合成为值得研究的问题。比较研究中文文本分类中各阶段经典方法的不同组合对分类效果的影响结果表明:采用CHI特征选择方法、TFIDF权重计算方法及SVM分类方法的组合为最佳组合。
关键词:文本分类;特征选择;权重计算;分类算法
文本分类是在给定分类体系的情况下,根据文本的内容或属性将其分到预先定义的—个或多个类别。文本分类在自然语言处理与理解、信息检索、内容信息过滤等领域都有着广泛的应用。中文文本分类主要包括文本分词、特征选择、权重计算及使用分类算法进行分类四个步骤。国内外学者对特征选择、权重计算及分类算法展开了大量研究,在这三个阶段中都提出了不少经典的方法,这些方法的提出有效地提升了文本分类性能。
由于在各阶段有不同的方法可供选择,在实际的中文文本分类任务中,如何从各阶段不同方法的组合中找到一个好的组合成为值得研究的问题。文献[1-2]针对特征选择与分类算法的不同组合进行了比较研究,文献[3]研究了特征选择和权重计算方法的不同组合对分类效果的影响,都获得了一些提高分类效果的有益组合。
上述研究虽然对不同阶段的方法组合进行了有益尝试,但都只局限在相邻两阶段的组合中,未能解决文本分类全过程的方法选择问题。本文进一步将特征选择、权重计算及分类算法作为一个整体进行研究,对这三个步骤中经典方法的不同组合进行比较测试,找出对文本分类比较有效的组合。
1中文分类关键技术
1.1特征选择
虽然在文本分词阶段中已利用去除停用词的方法删除了大量与分类无关的特征词,但剩下的特征集仍然是个高维的特征空间,其中有很多特征词并不能很好地反映类别信息,甚至会误导分类结果[4]。因此,为提高分类精度和效率,就需要从这个特征集中挑选对分类贡献大的特征子集。目前常用的特征选择方法有信息增益方法(IG)、互信息方法(MI)、卡方检验方法(CHI)、文档频率方法(DF)等[4]。Yang[5]针对文本分类问题,在分析和比较了上述方法后,得出IG和CHI方法分类效果相对较好的结论。为此,本文在特征选择阶段,选择IG和CHI作为测试对象。
1.1.1 信息增益 (Information Gain, IG)
信息增益衡量的是某个特征词的出现与否对判断一个文档是否属于某个类所提供的信息量。其计算公式如下[6],
(1)
1.1.2 卡方检验 (Chi-square,CHI)
CHI统计方法衡量的是特征t和文档类别c之间的相关程度,并假设t和c之间符合具有一阶自由度的χ2分布,其计算公式如下[6],
(2)
其中,A表示包含特征t且属于类别ci的文档频数,B表示包含特征t但不属于类别ci的文档频数,C表示属于类别ci但不包含特征t的文档频数,D表示既不属于类别ci也不包含特征t的文档频数,N表示训练集中的文档总数。
可以看出,对于给定的语料集和类别ci,N,A+C和B+D对同一类别文档中的所有特征词来说都是一样的,所以上式可以简化为
(3)
特征t对于某个类别ci的CHI值越高,表明它与该类之间的相关性越大,此时特征t所包含的与该类相关的鉴别信息就越多。对于多类别而言,特征t的CHI值一般取与所有类的最大值。
(4)
1.2权重计算
权重计算是指为特征空间的文本向量的每一维确定合适的数字,以表达对应特征在文本中的重要程度。常用的权重计算方法有布尔权重、词频权重和TFIDF权重。布尔权重以特征是否在文本中出现进行加权,效果略差于较精密的权重。为此,本文在权重计算阶段,使用词频权重和TFIDF作为测试对象。
1.2.1 词频权重
使用特征在文档中出现的频度TF(termfrequency)进行加权,其基本思想是:特征在文档中出现的次数越多,它就越重要[7]。特征ti在文档dj中的词频权重wij如下,
wij=t fij=特征ti在文档dj中出现的次数
(5)
1.2.2TFIDF权重
TFIDF使用特征在文档中出现的频度TF和逆文档频率IDF(inversedocumentfrequency)进行加权,其基本思想是:一是特征ti在文档dj中出现次数越多,越重要;二是文档集中含有特征ti的文档数越大,越不重要[7]。TFIDF权重函数如下,
(6)
其中,tfij表示特征ti在文档dj中出现的次数,idfi表示特征ti的逆文档频率,N表示训练集的总文档数,ni表示特征ti出现的文档频数,l为试验确定的参数,通常取0.01。
为了消除文本长度对特征权重的影响,需要对权重向量进行归一化处理。通常采用余弦归一化,以TFIDF权重为例,归一化后的权重公式为
(7)
1.3分类算法
目前常见的文本分类算法有贝叶斯算法、k-近邻算法及支持向量机算法。
1.3.1 贝叶斯分类算法(Bayes)
贝叶斯分类基于贝叶斯定理,根据训练集将文档类别的先验概率转化为后验概率[8]。文档dj属于类别ck的概率:
(8)
贝叶斯分类的依赖条件是文本的特征词之间相互独立,尽管在实际应用中往往不能满足这个条件,但使用时却常常得到令人满意的文本分类效果[1]。由于在贝叶斯分类中只需计算特征在类别中出现的次数,无需计算特征的文档频率,由此在测试组合中,贝叶斯分类只采用词频权重。
1.3.2k-近邻分类算法(k-NearestNeighbour,KNN)
KNN是一种基于实例的分类算法,也叫懒惰学习系统。这种方法无需进行学习,分类时需将待分类文本与所有的训练样本进行比较,找出最近的k个邻居,然后在这个k个邻居中,按照投票方式来决定属于哪一类邻居从而确定类别,一般采用多数表决进行投票。通常采用余弦向量距离计算相似度。分类时由于需要与训练集中所有样本进行比对,因此效率比较低。在分类性能上,KNN是最好的分类器之一[5]。
1.3.3 支持向量机分类算法(SVM)
支持向量机是基于统计学习理论建立的一种分类器。它基于结构风险最小化的原则,具有较好的泛化能力。SVM是从线性可分情况下的最优分类面出发,其基本思想可用图1的二维情况说明。
图中,圆圈和方框代表两类样本,H是分类面,而H1和H2是平行于H,且过离H距离最近的两类样本的直线,它们之间的距离叫做分类间隔(margin),所谓最优分类面就是要求分类面不但能将两类正确分开,而且使分类间隔最大。位于H1和H2上的样本称为支持向量,它们决定了最优分类面,这也是支持向量机名字的来源,其它的向量对于分类面的决定无关。分类时,待分类样本点只需与支持向量进行运算即可决定所属类别,分类速度很快。
当训练样本不是线性可分时,可以采用核函数的方法将样本空间映射到更高维的空间来实现线性可分。当样本不可分时,可以采用松弛变量法以得到近似可分的分类面。
支持向量机对于小样本和高维数据的学习有良好的推广能力,特别适合文本文类[9]。
2实验及结果分析
实验采用Python开发环境。分词系统采用的是北京理工大学张华平博士开发的NLPIR汉语分词系统(又名ICTCLAS2013),该系统支持词性标注、命名实体识别、用户词典、新词发现与关键词提取等功能。支持向量机采用的是台湾大学林智仁教授等人开发的libsvm,由于线性核函数简单快速,且有着不错的分类效果[7],所以这里也采用线性核函数,其他参数取默认值。
2.1数据集
论文试验语料库来自复旦大学中文语料库,该语料库包含20个类别的9 804篇文档,其中文档数最多的经济类达到1 601篇,最少的通信类仅27篇,属于不平衡语料库。为保证语料的平衡性,实验中选择文档数较多的艺术、航空、计算机、环境、农业、经济、政治、体育8个类别共8 588篇文档,并从中随机抽取80%作为训练集,其余20%作为测试集。
2.2性能评价
文本分类中普遍使用的性能评估指标有召回率R(recall)、准确率P(precision)及F1测试值。
(9)
(10)
(11)
综合评价分类器的性能有两种:宏平均和微平均。宏平均是指对各类别的评价指标求算术平均数。微平均是先建立一个全局列联表,然后根据这个全局列联表计算。
在文本分类中,微平均确率Micro_P能较好地反映分类的效果[10]。这里用它来比较不同组合的分类效果。
2.3实验结果
分别选取各阶段的经典方法,在特征选择阶段选取IG和CHI,在权重计算阶段选取词频权重和TFIDF权重,在分类算法阶段选取贝叶斯分类、KNN分类和SVM分类,如前所述,对于贝叶斯分类只采用词频权重,由此共有2*2*2+2*1*1=10种组合。对于每种组合,均三次随机抽取80%的训练集和20%的测试集进行实验,结果取三次实验的平均值。
图2表示特征选择和权重计算的不同组合在KNN上的微平均确率Micro_P表现,图3表示特征选择和权重计算的不同组合在SVM上的微平均确率Micro_P表现,图4表示特征选择和权重计算的不同组合在贝叶斯分类上的微平均确率Micro_P表现。
从KNN中的Micro_P曲线可以看出:CHI+TFIDF的组合表现最优,IG+次优但不稳定。从SVM中的Micro_P曲线可以看出:CHI+TFIDF组合略优。从贝叶斯中的Micro_P曲线可以看出:CHI+TF组合最优。
图2KNN中特征选择和权重计算组合的表现 图3SVM中特征选择和权重计算组合的表现
图4贝叶斯中特征选择和权重计算组合的表现 图5CHI+TFIDF+SVM及IG+TFIDF+SVM组合分类时间
将图2-4综合起来看:随着特征维数的增加,分类效果逐步提高并在2 500维左右时达到峰值,随后分类效果基本保持平稳,需要指出的是贝叶斯分类算法在维数比较低的时候就表现得很好。在特征选择阶段,KNN分类器和SVM分类器中当特征数少于150时,IG和CHI的表现都很差,当特征数超过150后,IG的性能迅速提升,而CHI的性能提升不大,随着特征数继续增加到大于500后,CHI性能迅速提升,此后一直表现略好于IG且更稳定,和文献[3]的实验结果是类似的;而在Bayes分类器中,CHI的性能一直高于IG。在权重计算阶段TFIDF表现最好。在分类算法上,SVM明显占优。在三个阶段中,可以看出,当特征数达到一定值后,分类算法对分类性能起决定性作用。就三个阶段技术的10个组合而言, 分类算法为SVM的4个组合优势明显,其中CHI+TFIDF+SVM组合及IG+TFIDF+SVM组合又略占优势。
图5显示了CHI+TFIDF+SVM组合及IG+TFIDF+SVM组合对于测试集中所有文档进行分类的总耗费时间,从图中可以看出:分类时间相对于特征数呈直线上升, CHI+TFIDF+SVM组合分类速度明显快于IG+TFIDF+SVM组合。
由此,综合文本分类效果及分类速度,CHI+TFIDF+SVM组合为最佳组合。
2.4结果分析
特征维数与分类效果的关系。KNN和SVM分类算法是通过计算向量的距离来进行分类的,特征维度太小时,一部分文本因不含有这些特征词而表示为空 ,导致分类器无法识别 ,误分几率增大,因而在特征维数很小时,分类效果都很差。随着特征维数的增加,文本向量中非零值逐渐增加,文本的区分度逐渐变好,分类效果随之提升。贝叶斯算法是概率生成模型,通过计算文本的各特征在类中出现的概率进行分类,即使是选取比较少的对分类贡献度大的特征,也能取得不错的分类效果。
不同特征选择方法对分类速度的影响。比较IG的计算公式(1)及CHI的计算公式(3)(4)可以看出,CHI的计算量比IG小,所以CHI+TFIDF+SVM组合分类速度明显快于IG+TFIDF+SVM组合。
3结束语
本文考察了中文文本分类中特征选择、权重计算及分类算法三个阶段中经典方法组合的分类性能。CHI+TFIDF+SVM组合为最佳组合,并简要分析了原因。在实验中我们采用的是平衡语料集,在下一步研究工作中,将对研究者们考虑到语料的不平衡性所提出的诸多改进方法进行组合测试与分析,以期获得最佳的文本分类性能。
参考文献:
[1]唐慧丰,谭松波,程学旗,等. 基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94,108.
[2]路永和,李焰锋. 多因素影响的特征选择方法[J]. 现代图书情报技术, 2013(05):34-39.
[3]夏火松,刘建,朱慧毅,等. 中文情感分类挖掘预处理关键技术比较研究[J].情报杂志, 2011,30(9):160-163.
[4]杨凯峰,张毅坤,李燕,等. 基于文档频率的特征选择方法[J].计算机工程, 2010,36(17):33-35,38.
[5]Yang Y, Pedersen J O. A comparative study on feature selection in text categorization[J].In: Fisher D H, (eds.). Proceedings of the 14th International Conference on Machine Learning (ICML ’97), Nashville, US: Morgan Kaufmann Publishers, San Francisco, US, 1997:412-420.
[6]代六玲,黄河燕,陈肇雄,等. 中文文本分类中特征抽取方法的比较研究[J]. 中文信息学报, 2004,18(1):26-32.
[7]刘靖阳,陆洋. 一种有指导的文本特征加权改进算法[J]. 计算机工程, 2012,38(8):128-130.
[8]王峻. 一种基于属性相关性度量的朴素贝叶斯分类模型[J]. 安庆师范学院学报(自然科学版),2007,13(02):14-16.
[9] Joachims T. Text categorization with support vector machines: learning with many relevant Features[C].In Proceedings of the 10th European Conference on Machine Learning, Chemnitz, DE, 1998:137-142 .
[10]邱云飞,王威,刘大有, 等. 一种词频与方差相结合的特征加权方法[J]. 计算机应用研究, 2012,29(6):2132-2134.
A Comparative Study on Chinese Text Categorization Techniques
HU Long-mao
(Anhui Finance and Trade Vocational College, Hefei 230601, China)
Abstract:Since there are some classic methods in feature selection, weight calculation and classification algorithms in text categorization, therefore, how to find a good combination becomes a problem worthy of study in the actual Chinese text categorization task. This paper is a comparative study of different combination of classical methods among three steps in Chinese text categorization. It is found that text classification obtained high performance, while using CHI feature selection technique, TFIDF weight calculation technique and SVM classify technique in the test, is an effective combination method.
Key words:text categorization, feature selection, weight calculation, classifier algorithms
文章编号:1007-4260(2015)02-0049-05
中图分类号:TP18
文献标识码:A
作者简介:胡龙茂,男,安徽太湖人,硕士,安徽财贸职业学院讲师,主要研究方向为数据库应用、数据挖掘等。
收稿日期:2014-09-03