周国强,崔荣一
(延边大学 计算机科学与技术学科 智能信息处理研究室,吉林 延吉 133002)
文本分类是信息处理领域中重要的研究方向之一[1]。朝鲜语在中国来说是少数民族语言,它是朝鲜族沟通意图的主要语言,在民族文化传承和发展中起着重要的作用。由于朝鲜语的词法结构和语法结构与中文有较大的差异,具有其特殊性[2],因此对朝鲜语文本的研究具有非常重要的意义。
文本分类是基于文本内容将待定文本划分到一个或多个预先定义的类中的方法,它广泛应用于信息自动检索、文本过滤和网页层次分类领域。文本分类大致可分为: 文本的向量模型表示、文本的特
征选择和分类器训练。数量巨大的训练样本和过高的向量维数是文本分类的两大难点。它们决定文本分类问题是一个时间和空间复杂度很高的学习问题。为兼顾运算时间和分类精度两个方面,不得不进行特征选择,力求在不损伤分类性能的同时来达到降维的目的。目前,许多基于统计理论和机器学习方法的技术应用于文本分类中,包括决策树、Bayes方法、神经网络、基于关联的方法、k2最近邻方法、遗传算法、粗糙集等方法[3-5]。
本文通过分析朝鲜语的特征,利用改进的基于类别分布的特征选择方法以及权重计算方法在朝鲜语文本集上进行了研究,并基于朴素贝叶斯分类器实现了对朝鲜语文本的分类。
文本分类的前提是特征向量模型的建立。本文对朝鲜语文本进行分词后,通过特征选择实现降维,通过特征加权提高分类的准确度。
特征选择是指从最初的n个特征中选取t(t 本文采用一个基于类别分布的特征选择方法。该方法的基本思想是,对于那些对分类有很大贡献的特征词应该是在该类文档中出现频率足够高而在其他类文档中出现频率足够低的特征词。那么少见词和平凡词在训练集所有文档分词后存储的情况,要么是只有一个类中的词频计数很少,要么是在大多数类别中出现的很多。基于这种情况,将分词后在各个类别中出现特征词的文档频度计数和在所有类别中出现该特征词的文档频度计数总和相比,就可以得到该特征词在各个类别中出现的分布情况。通过这个分布情况,去除那些少见词和平凡词,从而保留那些次关键词、关键词,达到特征选择的目的。 对于少见词的去除,根据定义设置一个阈值α,如果满足条件(1)式就将该特征词归为少见词,并予以去除: DFi<α,DFj=0,i=1,2,…,n, j=1,2,…,i-1,i+1,…,n (1) 在(1)式中将在某类中出现的文档频度计数小于阈值α且在其他类别中文档频度计数为0的特征词归为少见词,其中,DFi表示在i类中出现某特征词的文档频度计数,n表示训练集中出现的类别总数量。 如何给定平凡词,次关键词的区分标准是一个问题。到底一个特征词在多少个类别中大量出现,才算是平凡词?这里需要设置一个阈值D来加以确定。本文给出一个判别方法,如下: 如果某特征词满足条件(2)式,即将该特征归为平凡词,并予以删除。 (2) (2)式表示某特征词在每个类别中出现该词的文档频度计数与所有出现的类别中出现该词的文档频度计数总数的比例小于等于阈值γ的话,就将该特征词作为平凡词。在实际实验中,使用条件(2)逆反条件来进行判断,即只要该特征词在某个类别中出现该词的文档频度总数大于阈值γ的话,就可以将该词作为次关键词予以保留。 本文实验中,将训练集文本分词后,将各特征词在各个文档中出现的词频计数存入文本中,因此容易得到每个特征词在每个类别中出现该特征词的文档频度。 该方法的具体步骤描述如下: Step1: 按照特征子集S中的特征词,得到每个特征词在每个类别中出现该词的文档频度计数与所有类别中出现该词的文档频度计数总数。 Step2: 判断该特征词是否为少见词,判断条件为(1)式,如果是的话,将该特征词从特征子集S中去除,并转到步骤1,否则转至步骤3。 Step3: 如果出现该特征词的类别总数大于阈值β,那么计算在各个类别中出现该特征词的文档频度计数和在所有类别中出现该特征词的文档频度计数总和的比例di,如果存在一个di大于阈值,则将该特征词作为次关键词保留,如果没有任何di大于阈值,就将该特征词作为平凡词去除。如果特征子集S中还有特征词未进行特征选择,则转至步骤1,否则转至步骤4。 Step4: 最终得到一个去除掉少见词和平凡词的特征子集。 经过这种基于类别分布的特征选择后,过滤掉少见词和平凡词,达到了特征词维度下降的目的。 文本特征的权重全面权衡反映该特征词对标识文本内容的贡献度和区分文本的能力。不合理的特征权重估算方法会使分类的效果变差,而好的合理的特征权重估算方法却可以使特征词对分类的作用变得显著。本文从朴素的贝叶斯分类的特点出发,提出一种类TF-IDF特征估算方法[7-8]。 利用式(5)来表示特征词tk对Ci类的区分能力。 (5) 为保证分母不为零值,对分母加一个参数值L,L的值取0.1,得到公式(6): (6) 对公式(6)取对数,那么特征词tk在第Ci类中的权重估算方法公式如下: (7) 在公式(7)中,DFik表示在Ci中包含特征词tk的文档数,N为训练集中的文档总数。在公式中前半部分DFik表示特征词tk在第Ci类中的重要程度,当DFik等于0时,说明特征词tk在Ci类中没有出现,我们将权值设为0。当DFik不等于0时,公式后半部分的对数表示了特征词tk在训练集中出现的几个类别里的分布情况。 在机器学习中,通常感兴趣的是在给定数据集D时,确定假设空间H中的最佳假设。所谓最佳假设是在给定的数据集D以及H中不同假设的先验概率的有关知识的最可能假设。 BNC[9-10]提供了直接计算这种可能性的方法,其分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,选择具有最大后验概率的类作为该对象所属的类。形式化描述为: 设每个数据样本用一个n维特征向量来描述n个属性的值,即:A={a1,a2,…,an},则给定一个未知的数据样本,得到的最可能的目标值为: Vmap=arg maxP(Vj|a1,a2,…,an),其中Vj∈V。 假定有m个类,分别用V1,V2,…,Vm来表示。给定一个未知的数据样本X(即没有类标号),根据贝叶斯定理,可得: (8) 由于P(X)对于所有类为常数,最大后验概率P(Vi|X)可转化为最大化先验概率P(X|Vi)P(Vi)。由于假设各属性的取值是相互独立的,所以,先验概率p(x1|Vi),p(x2|Vi),…,p(xn|Vi)可以从训练数据集中求得。 (9) 根据此方法,对一个未知类别的样本X,可以先分别计算出X属于每一个类别Vi的概率P(X|Vi)P(Vi),然后选择其中概率最大的类别作为其类别。 文本分类流程如图1所示,具体步骤描述如下: 图1 文本分类流程 Step1: 对训练样本集的文档进行分词,利用本文基于类别分类的方法进行特征选择,计算权重; Step2: 利用step1中所得数据进行朴素贝叶斯分类器的构造; Step3: 测试分类器,其中,测试样本集是由剩余的文档集组成; Step4: 输出分类结果。 本文的语料库来自互联网韩国各网站采集的450个大小的文档集,其中包括9个类别,分别是财经、IT、健康、体育、旅游、教育、招聘、文化、军事,每个类别是由50个文档构成的文档集。基于这些素材,本文在matlab中进行了实验。 本文采用查准率和查全率作为评估方法,查准率如公式(10),查全率如公式(11)。 TPi表示测试文档集中本来属于类别Ci而且分类器分类到类别Ci的文档数,FPi表示测试文档集中本来不属于类别Ci但被分类器错误分到Ci的文档数,FNi表示本来应该属于类别Ci但被分类器分类到其他别的类别的文档数。 表1 分类器分类测试结果 由表1的实验数据上看来,采用新的特征选择方法的本文方法在分类效果上比贝叶斯文本分类要好,表明本文方法在朝鲜语文本分类上能取得较好的效果。 本文结合朴素贝叶斯分类器对朝鲜语文本分类进行了研究,提出了基于类别选择的特征选择方法对朝鲜语文档进行分类。本文方法充分考虑到朝鲜语特征词对分类结果的影响以及分类的复杂度。实验数据分析结果表明,本方法取得了较好的分类结果,为实现跨语言的朝汉文本检索提供了一定的依据。 由于本文构造的语料库的文档数量不是很多,可能存在一定的误差,增大语料库规模,考虑朝汉文本的跨语言分类是下一步的研究工作。 [1] 苏金树, 张博锋. 基于机器学习的文本分类技术研究进展[J]. 软件学报,2006,17(9):1849-1853. [2] 毕玉德. 面向语言信息处理的朝鲜语知识库研究[J]. 中文信息学报,2005, 19(3):28-30. [3] 王志玲, 王效岳. 国内文本分类研究论文的统计分析[J]. 图书情报工作,2006,50(11):136-138. [4] 何国辉, 吴礼发. 基于机器学习的文本分类技术的研究[J]. 计算机与现代化,2009,(8):3-6. [5] 吴科. 基于机器学习的文本分类研究[D]. 上海交通大学博士论文. 2008:5-12. [6] 梅君. 中文文本分类的研究与应用[D]. 南昌大学硕士论文. 2010:31-38. [7] P. Soucy, E. Mineau. Beyond TFIDF weighting for text categorization in the vector space model[C]//Proceedings of International Joint Conference on Artificial Intelligence. Edinburgh, Scotland, 2005: 1130-1135. [8] H. J. Kim, J. Chang. Integrating incremental feature weighting into na’fve bayse text classifier[C]//Proceedings of the 6thInternational Conference on Machine Learning and Cybemetcs. Hong Kong, China, 2007: 1137-1143. [9] 张璇, 左敏. 一种改进的朴素贝叶斯分类器在文本分类中的应用研究[J]. 北京工商大学学报,2009,27(4):52-55. [10] 张雯, 张化祥. 属性加权的朴素贝叶斯集成分类器[J]. 计算机工程与应用,2010, 46(29):144-146.2.2 特征权重
3 朴素贝叶斯分类器
3.1 基本原理
3.2 文本分类实现
4 实验结果及分析
5 结论及下一步工作