摘要:为了能在海量的文本中及时准确地获得有效的信息,文本分类技术受到了广泛的关注。该文概括地介绍了文本分类的一般分类过程,详细阐述文本表示、特征选取和权重的计算,并对几种典型文本分类算法的基本思想、优缺点等进行了讨论。
关键词:文本分类;文本表示;向量空间模型;特征选择;权重;分类算法
中图分类号:TP301文献标识码:A文章编号:1009-3044(2012) 04-0825-04
在当今的信息社会,各种形式的信息都得到了极大的丰富了我们的生活,尤其随着Internet的大规模普及,网络上的信息量在飞速增长当中,如各种电子文档、电子邮件和网页充满网络上,从而造成信息杂乱。为了快速、准确、全面地找到我们所需要的信息,文本分类成为了有效组织和管理文本数据重要方式,越来越受到广泛的关注。文本分类在信息检索、信息过滤、搜索引擎、文本数据库、数字化图书馆等领域得到广泛的应用。
1文本分类的一般过程
文本分类是一个有指导的学习过程,它根据一个已经被标注的训练文本集合,找到文本属性(特征)和文本类别之间的关系模型(分类器),然后利用这种学习得到的关系模型对新的文本进行类别判[1]。文本分类的过程总体可划分为训练和分类两部分。训练的目的是通过新本和类别之间的联系构造分类模型,使其用于分类。分类过程是跟据训练结果对未知文本进行分类,给定类别标识的过程。具体流程图如图1:
2文本预处理
文本预处理是从文本中提取关键词来表示文本的处理过程,它的主要任务是进行中文分词和去停用词。不同于英文中词与词之间是靠空格隔开,中文文本的自然语言中词与词间没有明显的切分标志,所以首先要对文本进行分词处理。中文分词方法主要有基于字符串匹配的方法、基于理解的方法和基于统计的方法[2]。
基于字符串匹配的分词方法是按照一定的策略将待分析的字符串与一个机器词典中的词条进行匹配,若从词典中找到某个字符串,则匹配成功。依据不同的扫描方向,可分为正向匹配和逆向匹配;依据不同长度优先匹配的情况,可分为最大匹配和最小匹配。
基于理解的分词方法是通过让计算机仿照人对句子的理解方式,从而达到识别词的效果。其基本思想就是在分词的同时进行句法和语义分析,利用句法信息和语义信息来处理歧义现象。
基于统计的分词方法是测试字与字相邻共现的频率,并把它作为成词的可信度评价标准。具体做法是先统计语料库中相邻共现的各个字的组合频度,计算它们的互信息。因为互信息体现了汉字之间结合关系的关联程度,当关联程度高于某一个阈值时,便认为这些字组可能构了一个词。
目前歧义词和新词是中文分词面临的最大困难所在。前者要解决自然语言理解的问题,根据上下文环境,在不同切分结果中选择最优解:后者要解决词典中未收录词(如人名、地名、机构名等)的识别[2]。
停用词通常指在各类文本中都频繁出现,因而被认为带有很少的有助于分类任何信息的代词、介词、连词等高频词。通过构造一个停用表,在特征提取过程中删除停用表中出现的特征词。
3文本的表示
4特征项的选择和特征权重
通常原始特征空间维数非常高,且存在大量冗余的特征,因此需要进行特征降维。特征选择是特征降维中的其中一类,它的基本思路:根据某种评价函数独立地对每个原始特征项进行评分,然后按分值的高低排序,从中选取若干个分值最高的特征项,或者预先设定一个阈值,把度量值小于阈值特征过滤掉,剩下的候选特征作为结果的特征子集。
文本分类中常用的特征选择方法有:文档频次、互信息量、信息增益、χ2统计量(CHI)等方法[6]。
4.1文档频率(DF:Document Frequency)
文档频率指训练集中包含该特征的文本总数。所谓包含特征的文本是指这个特征在该文本中是否出现,而忽略其出现次数。采用文档频率基于如下假设:文档频率值低于某个阈值的词条是低频词,可认为它们不包含有类别信息(不具有分类的能力),将这样的词条从原始特征空间中除去,能够降低特征空间的维数从而提高分类精度。
文档频率是最简单的特征选择技术,由于其具有相对于训练语集规模的线性计算复杂度,它能够容易地被用于大规模语料统计。但是在信息抽取研究中却通常认为DF值低的词条相对于DF值高的词条具有较多的信息量,将这些词条从特征空间中移除会降低分类器的准确率[5]。
4.2信息增益(IG:Information Gain)
信息增益在机器学习领域被广泛使用,它通过特征词在文本中出现和不出现前后的信息量之差来推断该特征词所带的信息量。采用如下公式:
距离越小,两篇文本的相关程度就越高,反之,相关程度越低。
在Rocchio算法中,训练过程是为了生成所有类别的中心向量,而分类阶段中,系统采用最近距离判别法把文本分配到与其最相似的类别中从而判别文本的类别。所以,如果类间距离比较大而类内距离比较小的类别分布情况,此方法能达到较好的分类效果,反之,类中心最小距离算法效果比较差。但由于其计算简单、迅速、容易实现,所以它通常用来实现衡量分类系统性能的基准系统,而很少采用这种算法解决具体的分类问题。
5.4决策树
决策树(Decision Tree)基本思路是建立一个树形结构,其中每个节点表示特征,从节点引出的每个分支为在该特征上的测试输出,而每个叶节点表示类别[8]。大致需要下面几个步骤:
1)根据信息增益法在特征集中选取信息增益最高特征项作为当前节点的测试属性;
3)按测试属性(特征权重)不同取值建立分支;
3)对各子集递归进行以上两步操作建立决策树节点的分支,直到所有子集仅包含同一类别的数据为止;
4)对决策树进行剪枝,生成更紧凑的决策树。
决策树算法的核心问题是选取测试属性和决策树的剪枝。除了常用的信息增益法,选择测试属性的依据还有熵、距离度量、G统计、卡方统计和相关度等度量方法。从决策树的根节点到每个叶节点的每一条路径形成类别归属初步规则,但其中一些规则准确率较低,需要对此决策树进行剪枝。
决策树实际上是一种基于规则的分类器,其含义明确、容易理解,因此它适合采用二值形式的文本描述方法。但当文本集较大时,规则库会变得非常大和数据敏感性增强会容易造成过分适应问题。另外,在文本分类中,与其它方法相比基于规则的分类器性能相对较弱。
5.5人工神经网络
人工神经网络(Artificial Neural Networks)是一种按照人脑的组织和活动原理而构造的一种数据驱动型非线性模型。它由神经元结构模型、网络连接模型、网络学习算法等几个要素组成,是具有某些智能功能的系统。在文本分类中,神经网络是一组连接的输入输出神经元,输入神经元代表词条,输出神经元表示文本的类别,神经元之间的连接都有相应的权值。训练阶段,通过某种算法,如正向传播算法和反向修正算法,调整权值,使得测试文本能够根据调整后的权值正确地学习。从而得到多个不同的神经网络模型,然后令一篇未知类别的文本依次经过这些神经网络模型,得到不同的输出值,通过比较这些输出值,最终确定文本的类别。
6分类性能评估
分类器性能评估通常采用评估指标来衡量,评估指标是在测试过程中所使用的一些用来评价分类准确度的量化指标,文本分类中常用的性能评估指标有查全率又称召回率(Recall)、查准率又称准确率(Precision)和F1标准。
查全率是衡量所有实际属于某个类别的文本被分类器划分到该类别中