王 斌,邵华清,刘 振
1.佳木斯大学信息电子技术学院,黑龙江佳木斯 154007
2.佳木斯大学经济管理学院,黑龙江佳木斯 154007
3.桂林理工大学,广西桂林 541004
当前,随着计算机技术的飞速发展,各类电子邮件和电子文档以前所未有速度的迅速增长,用户如何能从海量文本中快速准确的获取有效的信息,是人们普遍关注的问题。文本形式是互联网上大部分信息的载体,文本的识别的速度决定了是否能高效获取信息的速度。文本分类识别技术可以把海量但缺乏结构的文本数据组织成规范的文本数据,以达到提高检索信息和利用信息的效率的目的。文本分类已经成为组织和管理文本数据的重要形式。传统的人工分类已经不能满足如今的需要,它耗费大量的人力、物力和精力,并且分类结果一致性不高。本文针对传统类中心分类算法由于训练文档分散,不能准确的表示各类别的中心向量,提出了优化算法,从而提高分类准确度。
文本分类的训练集是已经分类好的文本,这些分类好的文本都具有各自类别的特点,我们可以通过学习这些分类好的文本,提取出代表每一类别各自的特点,这些特点能唯一的代表一个类别。在用向量空间模型表示的文本中,可以通过提取能代表该类别的特征项来表示类别。类中心分类算法是典型的应用代表类别特点的特征项来表示类别的算法。它具有容易理解、思路清晰、分类效果好等优点。类中心分类算法思路比较简单,将训练集中的每个文本应用一定的特征权重算法表示成一个特征权重的向量 :为了对不同长度的文档统一描述,每一篇文档都被规范化为统一的长度,例如:然后根据平均算法为每类文本生成代表该类的中心向量。令表示预定义的类别集合,类别Ci的中心向量定义为:
类中心分类算法是从训练集中得到类别的中心向量,它对训练集依赖性比较大,对训练集的集中程度和规模非常敏感,一般情况下训练集文本代表性越强、规模越大分类效果会越好。
在类中心文本分类算法中,类别的中心向量是由该类别文本特征向量的简单算术平均得到。在训练集中,就分类而言,文档一般比较分散,所以在空间上,有些分类与其它类就会有重叠的区域,如果直接用这些文档来计算各个类别的中心向量,就会出现模型偏差,因此不能达到理想的分类结果。研究一种优化的类中心分类算法,以修正这种模型偏差。即用当前的中心向量对训练集进行分类,然后用训练错误文档来更新中心向量,并假设文档集中的每一篇文档都只属于一个类别。它的中心思想为:在进行的每一次迭代过程中用规范化中心向量对训练文本进行分类,其目的是为了找出所有训练错误文档。并对它进行归类。但因为文档分散原因的影响,不少文档的分类弄错,可以适当增加中心向量中这些文档特征项的权重,相反,应该减少中心向量中misin-ofi的各文档特征权重大的特征项的权重。利用这些分类错误文档,更新类中心向量,并规范化,得到迭代后的规范化中心向量。
在文本自动分类系统中,用于实验的文本集一般分为两个部分:训练集和测试集。训练集是由一组文本组成,并且这些文本已经分好类,用于归纳出各个类别的特性以构造分类器。根据分类体系的设定,每一个类别都应含有一定数量的训练文本;测试集是用于测试分类效果的文档的集合。其中每个文本都通过分类器分类,然后与正确决策的分类结果相对比,从而得到对分类器效果的评价,但测试集并不参与分类器的建设。
评估分类准确程度的依据是通过专家对文本的正确分类结果的比较,与人工分类结果越相近,分类的准确程度就越高。文本分类中常用的评测指标有:准确率和查全率。本文使用如下的评估标准:
查准率:是在所有输入系统中,进行分类处理的文本中与专家分类结果完全吻合的文本所占的比率,即:被正确分到类别i的文本数与所有被分到类别i的文本数的比值。
查全率:是在分类系统中,分类正确的文本所占的比率,即:被正确分到类别i的文本数与实际属于类别i的文本数的比值。
查准率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废。因此,存在一种新的评估指标,Fl测试值,其数学公式如下:
从对比中可以看到,类中心分类算法在任何类别的分类效果都不如优化后的类中心分类算法。
[1]旺建华.中文文本分类技术研究[D].吉林大学,2007,9.
[2]王小燕.文本分类相关技术应用与研究[D].西北大学,2007,4.