改进的TFIDF中文本特征词加权算法研究

2015-04-30 13:20申剑博
软件导刊 2015年4期
关键词:文本分类

申剑博

摘要摘要:在自动文本分类中,TFIDF算法是最为常用的特征权重计算方法。该算法运用广泛,但是存在不足:只考虑了特征词的频率和包含特征词的文档数量,没有考虑到特征词在类内和类间对权重的影响。对特征词权重计算方法进行了改进。为了解决特征词在类内均匀分布以及在类间的比重问题,提出了修正函数TFDFIDFO。实验比较发现,新的特征词权重算法能够更加精确地反映出特征词的分布情况,该算法与传统的TFIDF算法相比,在召回率、查准率和宏平均值上都有较大的提升。

关键词关键词:文本分类;TFIDF算法;特征词权重;特征词分布;宏平均值

DOIDOI:10.11907/rjdk.151008

中图分类号:TP312

文献标识码:A文章编号文章编号:16727800(2015)004006703

1概述

信息时代,每天都会产生大量数据,这些数据大部分以文本形式存储。微博留言、网上购物、网络聊天、电子邮件等产生的数据已经迈向PB级别,这些数据已经远远超过了人工分析的能力,人们得到有用信息的难度也日益增加,如何快速得到我们所需要的信息,文本分类与关键词提取可以有效解决这一难题。

文本分类所面临的困难主要有3个方面:①如何选择适当的数据集结构来表示文本;②每个文本进行分词后的特征词数量庞大,必须对高维的特征空间进行降维,以提高分类效率;③不同的权重计算方法会影响文档分类结果,要选择适当的分类算法,得到较为精确的分类结果。

不同的特征词在每个类别中的重要程度不一样,对于能够表示文本特征的词语常常会按照某个方法赋予相应的权重,以区分特征词对某一类的重要程度。

常用的文本特征评估方法主要有以下几种:TFIDF算法、互信息、信息增益、K最近邻算法等等。文本特征词权重计算运用最广泛的算法是TFIDF算法。TFIDF算法最早用于信息检索领域,在实际运用中,TFIDF算法存在很多缺陷,因此很多人提出了改进算法。如台德艺[1]的TFIIDFDIC权重算法、王小林[2]提出的TFIWF算法等,这些改进算法降低了语料库中同类型文本对特征词权重的影响。本文考虑文本特征词在类内与类间的分布情况,用简单的函数来表示特征词在类内均匀分布情况以及类间的比重情况,使计算变得更加简洁,并通过实验来证明改进后算法的可行性与准确性。

2传统的TFIDF算法

2.1传统TFIDF算法简介

TFIDF(Term frequencyInverse document frequency)是一种统计方法,用来评估特征词的重要程度。根据TFIDF公式,特征词的权重与在语料库中出现的频率有关,也与在文档里出现的频率有关。传统的TFIDF公式如下:

if-iwf=ni,j∑knk,j×log|D||{j∶ti∈dj}|(1)

传统的TFIDF算法在对特征词权重进行计算时没有考虑其分布情况[3],如图1所示。

假设在一个类别中有两个特征词,系列1代表属于该类中包含该特征词的文档数目,系列2代表不属于该类但是包含该特征词的文档数目。假设两个特征词的TF值相同,那么,根据IDF计算的特征词权重相同,但是从图1很明显看出特征词2比特征词1的区别能力更强一些,而传统的TFIDF算法根本体现不出来。

2.2TFIWF算法

TFIWF算法是王小林等在《改进的TFIDF关键词提取方法》一文中提出的,主要思想是采用词语逆频率方式来计算特征词权重,具体计算公式如下:

TF-IWFi,j=ni,j∑knk,j×log∑mi=1ntinti(2)

IWF的含义是对语料库词语总数与待查文本中该词在语料库中出现的次数比求对数。这种加权方法降低了语料库中同类型文本对词语权重的影响,更加精确地表达了这个特征词对文档的重要程度。

3改进的TFIDF算法——TFDFIDFO算法

(1)TFIDF没有考虑特征词在类间的分布情况。假设某一个特征词m,在某一类别中包含m特征词的文档数目为M,而在其它类别中包含的特征词m的文档数目为N,那么所有类别中包含特征词m的文档总数为M+N。 M越大,这个类中包含特征词m的文档也就越多。对于一个特征词,如果该词在一个类别中出现的次数越多,而在其它类别中出现的次数越少,那么这个特征词就越能区别这个类与其他类的不同,对此应该赋予较大的权重。但是,M值越大,根据IDF公式计算得到的值却越小,这是因为IDF算法是对于整个文档集而言,没有考虑到特征词在类间的分布情况。

(2)TFIDF没有考虑特征词在类内的分布情况。如果某个特征词在一个类别中所出现的文档数越多,那么这个词就越能代表该类别,也就是说均匀分布在类内的文档中,它对该类所作的贡献也就越大[4]。TFIDF公式中没有体现出特征词在类内的分布情况。

因此,对于TFIDF缺陷,本文提出TFDFIDFO算法,用DFIDFO代替IDF。

根据上述分析,包含特征词t并同时属于某一类的文档越多、属于其它类的文档越少,就越说明该特征词对这个类别越重要,它对于类的区别能力也就越强。从类内分布情况考虑,如果这个特征词t能够均匀分布到这个类别的大部分文档中,而不是集中于某几个文档,那么这个特征词t越具有代表性。

DFO表示类间的分布情况,主要体现的是特征词区分其文档所在的类与其在他类的贡献能力[5],具体定义为:

dfo(fi,cj)=logXY+1(3)

其中fi表示第i个特征词,cj表示j个类别,X表示的是特征词fi在第j个类别里所包含的文档数,Y表示的是特征词i在所有类别中所包含的文档数,分母Y+1是为了避免分母为0,即其它所有文档都不包含该特征词fi。在第j个类别里包含特征词fi的文档数量越多,X值越大,在其它类别里包含fi的文档数量越少,Y值就越小,这样可以体现出特征词在类间的比较中得到较好的分类效果。

统计特征词在类内的分布情况,最好是直接统计包含特征词fi的文档在这个类里的频率,具体定义为:

dfi(fi,cj)=nimj(4)

其中ni表示在第j个类别中包含特征词fi的数目,mj表示第j个类别中所有文档的数目总和,公式体现出特征词fi是否均匀地分布在第j个类别中。

处理后的TFDFIDFO公式为:

tf-dfi-dfo=ni,j∑knk,j×logXY+1×nmj(5)

4实验

为了验证改进后的TFDFIDFO算法对特征词权重的修正是否有效,实验将原始的TFIDF算法与改进后的TFDFIDFO算法进行比较,采用准确率(Precision)、召回率(Recall)、宏平均常用测试值F1作为衡量文本分类的标准。

本实验数据来源于文本分类语料库(复旦)训练语料的一部分,选取体育、军事、旅游、计算机、环境、教育、历史7个类别,从这7个类别中随机选取500个文档作为训练样本。

首先对文档进行处理选取特征词,然后采用原始TFIDF算法与TFIWF算法和改进后的TFDFIDFO算法分别进行特征词权重计算,将样本重新归类,对最后结果进行评估。

由表1和图2、图3、图4可以看出,TFDFIDFO算法与TFIWF在宏平均值、召回率和查准率上都比传统的TFIDF算法更为精确。由于传统的TFIDF算法没有考虑特征词的分布情况,所以在样本召回的时候,出现的误差相对较大。在王小林等的TFIWF算法中,降低了同类型文本对特征词的影响,修正了偏差,但是与本文提到的TFDFIDFO算法相比较,无论是召回率、查准率还是宏平均值F1都相对较低。这是因为TFIWF算法也没有考虑到特征词在类内与类间的分布情况,只统计出特征词在语料库中所占的比重,体现不出这些特征词主要集中在哪一类。

从图5可以看出,在召回量不同时后3种方法的宏平均值F1也是不同的,在整体的宏平均值F1的比较中,本文提出的TFDFIDFO算法与王小林等的TFIWF算法与传统的TFIDF算法相比,宏平均值F1都较高。在TFDFIDFO算法与TFIWF算法比较中,虽然在召回量等

于1 000和1 800时,改进后的TFDFIDFO算法与TFIWF算法的宏平均F1相差不大,但是在不同召回量整体中比较,本文提出的TFDFIDFO算法的宏平均值都要比TFIWF的大,尤其是在召回量等于800和1 500时最为明显。

5结语

本文根据TFIDF算法没有考虑类内与类间分布情况的缺陷,提出了TFDFIDFO算法。实验结果表明,改进后的算法性能优于传统的TFIDF算法,可以反映出特征词在类内和类间的分布情况,从而使得样本召回的效果更加明显。下一步将深入研究特征词在文本中所在位置和近义特征词与特征词权重的关系,增强TFIDF算法计算权重的精确性。

参考文献参考文献:

[1]台德艺,王俊. 文本分类特征权重改进算法[J].计算机工程, 2010, 36(9):197199.

[2]王小林,杨林,王东,等. 改进的TFIDF关键词提取方法[J]. 计算机科学与应用, 2013(3):6468.

[3]张瑜,张德贤. 一种改进的特征权重算法[J]. 计算机工程, 2011, 37(5):210212.

[4]ZHANG BAOFU,SHI HUAJI,MA SUQIN. An improved text feature weighting algorithm based on TFIDF[J]. Computer Applications and Software, 2011, 28(2):1720.

[5]DENG ZHIHONG,TANG SHIWEI,YANG DONGQING,et al. A linear text classification algorithm based on category relevance factors[C].Proceedings of ICADL02,5th International Conference on Asian Digital Libraries.New York: ACM Press,2002: 8898.

责任编辑(责任编辑:杜能钢)

猜你喜欢
文本分类
基于稀疏编码器与集成学习的文本分类
基于组合分类算法的源代码注释质量评估方法
不同情境下中文文本分类模型的表现及选择
基于内容的英语录音教材标注研究与应用