肖雪
(重庆电子工程职业学院,重庆 401331)
基于最大熵模型的中文文本层次分类方法
肖雪
(重庆电子工程职业学院,重庆 401331)
针对文本信息海量增加的现状,快速、准确、全面地获取有用信息的大规模信息处理应用技术越来越受到关注。本文将中文文本分类的类别体系构建为层次结构,并把最大熵模型引入中文文本的层次分类,该模型用于得到未知事件分布的最大熵。实验证明,最大熵模型方法的层次分类性能在很多时候优于平面分类,是一种有效的中文文本分类方法。
文本分类层次分类特征选择最大熵模型
在信息技术不断发展的今天,人们身边的文本量也出现了飞速增长。如何在这海量的文本信息集合中,快速、准确、全面地找到我们所需要的信息,越来越受到关注。因此,作为大规模信息处理重要的应用技术之一,文本分类成为了有效组织和管理文本数据的重要方式,显示了其不可忽视的重要性。文本分类可以看作是一个数学上的映射,将未标明类别的文本映射到已有的类别。我们通过构建分类系统来进行分类,构建的过程属于有指导的机器学习。首先给出一些已经分类的样本信息,分类系统根据这些信息掌握每类样本的特点和分类规律,建立适用于所有文本的分类规则,即“学习”的过程;在遇到新的待分类的文本时,分类系统将根据这些规则来决定把文本分到哪个类别。
目前中文文本分类流程大致按照以下步骤[1]:文本预处理、特征选择、特征加权、训练文本分类器和进行分类。要把文本这一有内在语义联系的的信息集合变为可被计算机表示的形式,G.Salton提出了向量空间模型(Vector Space Model, VSM)。在VSM中,文本被表示为可进行数学运算的向量,向量中的每一项叫做特征项,它可以是该文本里的字、词、短语等。每个特征项对于文本的重要程度都有所不同,为了区别开,将对每个特征相赋予一个权重W,这样文本可表示为,其中表示第i个特征项的权重。由于每篇文本的特征项数量相当庞大,有的特征出现的次数极少,有的特征在每篇文本里面都大量存在,因此需要在文本的原始特征中选择出对文本最具代表性的特征项。特征选择的方法很多,一般都是使用某种特征评估函数对每个特征项打分,最后根据分值取一定数量的特征项作为特征集合。常用的特征选择方法有文档频率DF、信息增益IG、互信息MI和χ2统计CHI等等[2]。
构建分类系统所采用的分类算法一般都是针对向量空间模型的数学计算,主要有:类中心向量最近距离判别法、朴素贝叶斯[3]、KNN[4]和支持向量机(SVM)[5]等。
目前中文文本分类基本都只做一次分类,分类的类别都构建在同一个层次,即处于同一个平面类空间,称为平面分类。在类别数目比较小、同时类别差别比较大的情况下,平面分类的性能较好。比如当类别只有“计算机”、“体育”和“经济”时,分类系统能比较容易地判断包含特征“算法”的文本应该属于哪个类别。
但实际情况中,文本集合往往比较复杂、类别繁多。面对成千上万的文本,很多文本既具有共性、又有细微的差别,同时这些文本包含的特征非常相近,对分类起作用的特征往往只是极少数。在这种情况下,平面分类的性能会受到很大制约,分类的精度将受到干扰而降低。因此,可以考虑在构建文本类别时形成层次结构,把具有共性的子类别组成一个集合,以树形结构的形式呈现类别体系。
层次分类是以层次结构的方式构造文本分类的类别系统,即把所有类别按照一定的内在关系组织成树状结构[6]。在这种结构下,第一层的类别数量较少而且差异很大,文本的分类比较容易且精确度较高;同一类别结点下的子类具有大类共性,文本分类时只需要在该大类下的子类别中进行区分,缩小了分类的范围。这样的分类方式使文本的定位更准确,分类时自顶向下逐层分类,提高了分类精度。
“熵”本是热力学中的概念,由shannon将信息熵引入信息论。信息熵是表征事物复杂程度的量度,用来度量随机出现的事物的不确定性,当随机变量分布越均匀时,其熵值越大。熵的计算公式如下:
最大熵原理由E.T.Jaynes提出[7],其原则是在对某个事件不了解的情况下,应选择使它的分布最均匀的模型。因为在已知条件下,熵最大时代表其分布最均匀,随机变量的状态最不确定,可能最接近它的真实状态。在这种情况下,满足最大熵的概率分布应为:
那么在文本分类问题中,假设a是某个类别,b为某个特征,则:
将此模型应用于中文文本的层次分类中,在每一层均采用最大熵模型,如下:
①在第一层忽略子类类别,以所有大类为类别集合进行第一次特征选择;使用第一层的特征集合构造出特征函数,建立该层的最大熵模型;使用最大熵模型将文本归属为所有大类中的某一大类;
②进入层次结构第二层时,以该层各大类下的子类为基础再各进行一次特征选择,并适当调节特征数量,得到新的子类特征集合。这时的特征集合与第一层的特征集合相比将有所变化。分别为各大类构造特征函数,建立各大类的最大熵模型,用于对文本的子类分类。
实验采用最大熵模型的方法,与常规的平面分类的性能做比较。实验语料库由网络收集整理,共计6352篇,其中训练语料和测试语料基本按照1:1的比例划分。语料分为电脑、教育、经济、娱乐、卫生和体育几个大类,子类构建如表1所示。实验中的特征选择采用IG方法,最大熵模型中的参数估计使用GIS算法,迭代100次后结束。分类结果采用F1测试值。实验结果如表1所示,其中Hier表示基于最大熵模型的层次分类性能,Plane表示平面分类性能。
表1 最大熵层次分类与平面分类性能比较类别
根据表1可以看到,基于最大熵模型的层次分类性能在很多类别上优于平面分类性能,比如在“硬件”、“篮球”等子类别。层次分类对大类类别的构建较少,文本在进行大类分类时的精度较高,在大类下只需要面对该大类的子类别,比直接面对所有子类别来进行分类更加容易,所以能提高整体的分类性能。由于最后的分类效果依赖于大类分类的结果,因此层次分类在在不同大类下的表现具有差异性。
现有的文本分类多是基于向量空间模型的平面分类方式。本文把中文文本分类的类别体系构建为层次结构,对文本先进行大类分类,再分类到子类别。并把最大熵模型引入中文文本的层次分类,该模型用于得到未知事件分布的最大熵。经实验验证,最大熵模型方法的层次分类性能在很多时候优于平面分类,是一种有效的中文文本分类方法。
[1]张玉芳,万斌侯,熊忠阳.文本分类中的特征降维方法研究[J].计算机应用研究,2012,29(7):2541-2543.
[2]Yiming Yang.An evaluation of statistical approaches to text categorization[J].Inf Retr Boston,1999,1(1):69-90.
[3]T.Joachims.A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization:Proc.Int.Conf.on Machine Learning,1997[C].Nashville,US:1997:143-151
[4]Makato Iwayama.A comparison of category search strategies: ACM Conference on Research and Development on Information,1995[C].Washington:ACM Press,1995:273-281. [5]J.T.Y.Kwok.Automated Text Categorization Using Support Vector Machine:Proceedings of the Int.Conf.on Neural Information Processing,1998[C].Japan:1998:347-351.
[6]SONG Shengli,BAO liang,CHEN ping.Hierarchical text classification and evaluation[J].Xi Tong Gong Cheng Yu Dian Zi Ji Shu/Systems Engineering and Electronics,2010,32(5): 1088-1093.
[7]N Kamal,L John,M Andrew.Using maximum entropy for text classification[C].In Proceedings of the IJCAI-99 Workshop on Information Filtering.Stockholm,Sweden.1999.
Hierarchical Text Categorization Methods Based on Maximum Entropy Model
XIAO Xue
(Chongqing College of Electronic Engineering,Chongqing 401331,China)
In view of the present situation of mass text information,the technology of large-scale information processing and application,with which people can obtain useful information quickly,accurately,and comprehensively,draws more and more attention. This paper organizes categories into hierarchical structure according to the certain relations.And the maximum entropy model is introduced to hierarchical text classification and used to obtain the maximum entropy of unknown event distribution.The experiment results show that the hierarchical classification performance of maximum entropy model outperforms that of plane methods,and it is an effective technique for text classification.
text classification;hierarchical text classification;feature selection;maximum entropy model
TP391
A
1008-1739(2015)09-36-3
定稿日期:2015-04-12