徐冠华 赵景秀 杨红亚 刘爽
摘 要:特征提取是文本挖掘、信息检索、自然语言处理(NLP)、文本情感分析、网络舆情分析等领域的研究热点。特征提取作为文本挖掘系统的主要因素,文本特征提取性能是文本分类结果的重要性度量。从两方面对特征选择算法进行总结,分析国内外对常用特征提取算法的改进和创新,最后针对影响特征提取的因素,指出在实际应用中应考虑的问题。
關键词:特征提取;距离测度;信息测度
DOI:10.11907/rjdk.172617
中图分类号:TP-0
文献标识码:A 文章编号:1672-7800(2018)005-0013-06
Abstract:Feature extraction is the research focus of text mining, information retrieval, Natural Language Processing (NLP), text sentiment analysis, network public opinion analysis, etc. Feature extraction is the main factor of text mining system, and the performance of text feature extraction is the important measurement of text categorization results. This paper summarizes two kinds of feature selection algorithms, and analyzes the improvement and innovation of common feature extraction algorithms at home and abroad. Finally, it points out issues which should be taken into account in practical application influenced by feature extraction.
Key Words:feature extraction; distance measure; information measure
0 引言
随着互联网的发展,以及计算机和信息技术的不断更新换代,网络上存储的信息越来越丰富。文本作为信息的有效表现形式,数量也增长迅速。近年来,随着云计算和大数据的兴起,使得海量的文本信息得到有效的组织和管理。如何高效、准确地获取有效信息成为文本挖掘、信息检索、网络舆情分析等工作的主要目的。
网络文本信息有别于传统文本信息,具有多样性、复杂性、冗余性、不规范性等特点。因此,对文本高维度的复杂特征空间进行特征降维成为文本分类的主要关键点。特征提取[1]的目的是对初始高维特征进行有效降维,从高维特征空间中选择出一个最优特征子集。根据最优特征子集的产生过程划分归纳特征提取方法,可将特征提取方法分为两大类:Filter过滤式和Wrapper封装式[2]。
特征提取作为文本分类的关键技术,通过特征提取的特征子集优劣将直接对文本分类效果产生影响。从特征空间中选择出能够有效表示整体信息的特征,作为文本分类模型的输入源。将提取出的特征选择合适的分类器和分类方法(SVM、NB[3])进行分类,输出分类结果,完成文本分类过程。
本文分析当前主流的一些文本特征提取算法,对近年国内外特征提取方法的研究进行总结和归纳,并指出将来在面对更多海量信息时,文本特征提取研究方法应考虑的因素。
1 相关工作
文本信息在经过文本预处理和文本表示之后,仍然属于高维度和高稀疏的向量矩阵,因而给计算机的计算量和学习训练过程增加了负担,并且分类效果很差。为进一步实现降维,需要对文本特征进行特征选择。特征选择的研究最早开始于20世纪60年代[4],特征选择的关键是在包含所有特征子集的解空间里寻找最优特征子集,在时间代价最小的前提下,选出最具代表性的特征组合。文本表示是特征提取的前一步,数据集大部分维度高达几十万,不可能一步处理完成。文本表示将文本向量化,加上权重分配能够对高维特征空间进行降维。文本表示模型主要包括:布尔模型、VSM向量空间模型[5]、概率模型[6],以及一些权重计算,包括布尔权重、词频权重、TF-IDF、TFC、LTC[7]、熵权重[8]。
特征抽取与特征提取都属于文本降维技术,其中特征抽取是从高维向量投影到低维空间的过程。目前主要有潜在语义索引(LSI)、主成分分析(PCA)、线性判别分析(LDA)等,将高维特征空间进行尺度映射变换,根据主题模型和语义空间进行维度缩减,但这些降维是完全不够的。特征提取有别于特征抽取,特征提取可实现文本向量空间从高维映射到低维的有效降维,且效果明显,并将代表类别的特征项筛选出来。
特征提取的具体过程可概括为:①对原数据集进行分词、去停用词等预处理,得到一个初始特征集T;②特征集合T进行权重分配,并按权重值降序排列得到特征集T1;③根据对应评估函数,选取得到一个最能代表文本类别信息的最优特征子集T2。
按启发式搜索策略产生的特征子集,根据特征子集形成过程是否依赖于数据集内部数据本身的特点可分为两大类:Filter过滤式和Wrapper封装式。Filter过滤式根据数据集内部数据信息的特点进行特征选择。Filter过滤式特征选择方法选择出与目标类别相关度最大的特征,以聚类为工具,利用不同类间特征的差异性定义不同区分度作为特征可分的依据。将选择出来的特征进行排名,得到特征子集;Wrapper封装式是根据训练学习,训练出相应评价标准,按照选择准则进行特征选择,利用评价准则衡量特征的停止条件,得到特征子集。因此,其具有分类精度高、效率低等特点。
2 常用特征提取方法
2.1 Wrapper封装式特征选择算法
Wrapper方法在进行特征提取时依赖于具体的有监督式机器学习技术。在特征选择过程中运用选择的特征子集训练学习,根据训练出的特征集产生对应的特征子集,并利用测试集上的学习结果评判所产生特征子集的优劣,相当于一个监督学习的过程。由于要先由訓练集训练出模型,所以该方法效率低于Filter方法,在处理样本数据集较小的文档时效果较好。
Wrapper封装式方法的基本过程概括如下:①先对训练集、测试集进行预处理,得到初始特征子集T;②训练集在学习器上进行实验。训练集样本数据根据评判准则训练学习,构造出模型(如决策树、SVM、朴素贝叶斯、模拟退火算法[9]、粗糙集、人工神经网络等);③测试集在学习器上进行实验。根据训练集构造出的模型,判断性能优劣。
2.1.1 遗传算法
遗传算法于1969年提出,是一种借助于自然界生物遗传和自然选择的随机搜索方法,可模拟自然界中的繁殖、交叉和变异现象。遗传算法在每次迭代中都会保留与一组候选解,并按照一定指标从群体中选择出特征项,利用遗传算子对特征项进行组合,产生一组新的候选解。重复上述过程,直到满足收敛指标结束。
遗传算法的主要组成部分包括:①编码机制。目前主要采用二进制编码,将特征向量空间的参数表示成由字符集{0,1}组成的染色体串;②适应度函数。其中适应度比例法是最常用的,个体选择的概率与适应度成正比。选择优良个体,淘汰劣质个体;③遗传算子。包括选择、交叉和变异算子。选择算子:选择出符合阈值的特征;交叉算子:产生新的个体,扩大搜索空间;变异算子:产生新的基因,增加种群多样性;④控制参数。包括种群规模、交叉率、变异率。
文献[10]通过分析遗传算法,针对特征提取特性[10],提出新的适应度函数和交叉规则,以及基于遗传算法的特征提取方法,运用到动态获取K值的KNN算法中。
2.1.2 SVM支持向量机算法
支持向量机是一种基于结构风险最小化的分类算法,尤其对小样本数据集具有良好的适应性。在处理二维空间样本点时,寻找一个函数将平面中的不同样本点正确分割成两类。处理高维度非线性问题时,寻找一个合适的函数,利用核函数构造一个最优超平面,将原始特征空间的非线性问题映射到高维空间,转化成线性问题求解,使向量能准确分割成两组,且不同类的样本点之间间隔最大。SVM是目前文本分类效果最好的机器学习算法,广泛应用于文本分类、人脸识别、指纹识别等领域。
Chen等[11]利用SVM分类算法对文本情感进行识别和分类,将SVM运用在情感极性分析上,并对语料集在单机和Spark平台上的分类结果进行分析。
以上Wrapper方法都是直接通过分类器的分类性能判断特征有效性,但在实际应用中更多的是将Wrapper方法与随机搜索策略方法相结合。文献[12]提出一种新的特征选择算法——基于粒子群优化(PSO)的特征选择方法,使用径向函数(RBF)为分类器,其算法性能优于文档频率、TF-IDF和CHI统计。Wrapper方法在特征选择过程中,需要花费时间在分类器的训练和验证上,效率不高,因此实际应用较少。与Filter方法相比,Filter方法计算开销低,Wrapper分类性能高,但效率低。在文本分类领域,面临海量文本信息时,Filter方法使用更多。
2.2 Filter过滤式特征选择算法
Filter过滤式方法是一种高效率的特征选择算法,具有相对独立性,不依赖于训练集。根据特定的评估函数,选择出最能代表文本类别的特征集合。特征集合是初始特征空间的一个子集,根据评估函数不同,可将Filter过滤式特征选择算法分为以下4类:距离测度、信息测度、一致性测度、相关性测度。本文主要介绍距离测度和信息测度两类特征选择算法。
2.2.1 基于距离测度的特征聚类选择算法
距离测度是依据特征项间的距离度量样本之间相似度的一种方式,通过计算分布在不同区域特征项间的距离表示相似性。特征项之间距离越小则越相似,距离越大则相似性越小,可划分性越强。根据距离计算文本相似度的方法很多,包括欧氏距离、曼哈顿距离、闵可夫斯基距离、余弦相似度、S阶Minkowski测度等。
聚类分析是对各个对象的内部特征进行分析,将性质相近的划分在一组,性质差别较大划在另一组。特征聚类是文本检索领域的重要研究方向之一,它根据某种特定的相似性度量,将特征空间划分成若干簇的子集。分组之后,组内数据的相似性最大,组与组之间相似性较小,从而实现对特征的聚类。聚类算法[12]描述如下:①先计算特征词之间的相似度及权值,按顺序排列;②对特征进行聚类,在每个簇中随机选择一个特征作为簇中心;③将特征项与簇中心进行相似性比较,如果特征相似性大,则更新簇中心,否则不替换;④保留每个簇的簇中心,将其它特征项删除,直到所有特征项对比结束。
聚类方法常用的有分层聚类和K均值聚类方法。分层聚类方法是将每维度特征项合成一类,通过计算向量相似度,计算出相似度最大的两类进行合并,直到满足某个阈值条件,则聚类停止;K均值聚类方法需要事先指定K的值,确定最后的聚类个数,才能对特征进行聚类。文献[14]是基于Fisher准则和特征聚类的特征选择方法,选用分层聚类,去除冗余信息;文献[15]介绍了无监督的特征选择算法,当特征子集都满足一定的评价函数或规则时,类内离散度和类间距离常用来判断聚类的有效性准则。其中类内平均离散度Si=1|Ci|∑x∈ci‖X-Zi‖,Zi表示Ci类的类中心,|Ci|表示属于Ci类的样本数,类间距离dij=‖Zi-Zj‖表示两个类中心的类间距离;文献[16]通过对类间距离和类内距离的计算,提出一种基于邻域距离的聚类特征选择方法,从而提高效率。
在此基础上,文献[13]分析了特征选择评价函数中未考虑特征词关联性,以及特征项之间存在冗余的特点,提出一种基于聚类的特征选择算法。通过计算相似度对特征进行聚类,从中去除排名靠后且相关性不大的类别,然后结合信息增益方法选择分类能力强的特征;文献[16]分析原有聚类选择算法,提出一种新的基于聚类的特征选择方法—FSFC。
2.2.2 基于信息测度的特征选择算法
作为目前最常用的特征选择算法,信息测度是依据特征项之间所含信息量的多少衡量特征项重要性的方法。特征选择将特征的重要程度量化之后再进行筛选,如何量化特征词的重要程度将是特征选择方法之间的差别。在特征选择时,特征项所含信息越多,作为最终特征子集特征项的概率越大。将信息量的多少与概率结合是信息测度的关键思想。
以信息测度为基础的特征选择算法很多,以下对目前比较常用的特征选择算法进行分析:
(1)文档频率(Document Frequency,DF)。DF表示训练文档中含有某特征项的文档出现的数目,是最简单的评估函数。
DF方法的具体步骤可概括为:①首先设定好文档频率阈值(假设噪声词或稀有词汇特征可以忽略);②计算每个特征词的文档频率值M,与设定好的阈值作比较;③如果M大于或者小于阈值范围,则删除该特征词,否则将其保留;④若计算出的M值过大,代表该特征词类别区分度较小;若值过小,代表该特征词不具备类别性,删除该特征词。
该方法的优点是算法简单、复杂性低,在实际应用中效果较好,可适用于大规模数据集。缺点是将低于阈值的词从原始空间向量中移除,虽然能够有效降低特征空间维数,但同时也会过滤掉一些文档频率较小的特征词(如专用词),这些特征词可能含有重要的类别信息,从而影响分类判断。
Fan等[17]在原有DF文档频率基础上,结合特征词的熵权重,加权排序后得到新的特征集合,不仅考虑了特征词的词频,还考虑到了信息熵的权重。改进后的具体步骤可概括为:①计算每个特征词的文档频率P(也即词频)、信息熵值W,并对初始特征值列表设置初始值0;②遍历文本数据集C,生成初始特征列表wordlist;③二次遍历文本集和特征列表,生成矩阵并规范化,对wordlist每个特征词加入文档频率P与W值;④若特征词新的权值w与P在阈值外,则删除该特征词,否则保留;⑤依据最新排序输出特征词。
(2)文档频率-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)。TF-IDF由Salton提出,该方法充分考虑了文档的频率TF和逆频率IDF。TF-IDF在特征权重函数计算中取得了较好效果,将特征权重计算应用于特征提取,是目前较常用的特征提取方法,在文本分类领域得到广泛应用。TF-IDF的主要思想为:某个词或短语在一篇文章中出现频率高,但在其它类中很少出现,则认为该词或短语对本篇文章很重要,说明该词具有很好的分类能力[18]。TF表示某个词或短语在某篇文章中出现的频率,即词频;IDF表示包含某个词或短语文档数目的倒数,即逆文件频率。在数据集中,若包含特征词的文本数目越少,表示该特征词具有较高的IDF值。IDF值越高,文本特征词的类别区分能力越强。计算公式如下:
文献[20]针对传统TFIDF中容易忽略特征词在某一类中经常出现,而在其它类别很少出现的情况,结合特征项之间的关系,提出基于TFIDF的改进策略,结合距离向量的计算改进传统TFIDF算法,得到了很好的分类效果。
(3)信息增益(Information Gain,IG)。IG是一种基于信息熵的评估方法[21],定义了特征词在文本中出现与不出现的信息熵之差。计算公式如下:
公式(3)是信息熵公式,公式(4)是信息增益公式。IG考虑特征T出现和不出现两种情况。某个特征词的信息增益值越大,代表此信息越重要,对分类贡献越大[22-23]。p(ci)表示ci类文本在数据集中出现的比例,即ci类文本数除以总文本数的概率;P(t)表示数据集中包含特征词T的文本概率,表示含有特征词T的文本数除以总文本数目的值;P()表示数据集中不包含特征词T的文本概率;p(cit)表示特征词T在ci类文档中出现的条件概率;p(ci)表示特征词T不出现在ci类文档中的条件概率;m为文档类别数目。
IG倾向于在某一类别中经常出现而在其它类别出现频率低的特征。Wang等[24]针对信息增益方法对特征词在类中词频和类间分布不均的情况,引入衡量特征词频分布的因子;针对信息增益在面对非平衡数据时更倾向于负相关特征的问题,加入比例因子降低该特征影响;Ren等[25]提出一种基于信息增益特征关联树的特征选择算法(UDsIG),通过删除弱相关和不相关特征对类内特征进行处理,引入类内加权离散度的信息增益公式,优化特征子集。Ds=pm1-pm∑mi=1pi(tfi(t)-tf(t))2tf(t),Ds是加权离散式,tfi(t)表示特征t在第i类中出现的概率,m是类别总数,tf(t)是t在各类中出现概率的平均值,pm表示含文档数目最多的类别比重。改进后的公式为:
Guo等[26]分析传统信息增益在指定类别中很少出现,而在其它类别中却经常出现的特征,该特征常被选择出来作为特征子集,对分類结果产生很大干扰。基于该现象,通过引入特征分布差异因子、类内和类间加权因子,优化特征选择算法,在朴素贝叶斯和支持向量机两种分类方法中验证实验结果。
Shi等[27]针对传统信息增益IG对特征项频数考虑的不足,提出一种基于词频的信息增益算法,分别从特征项的类内频数、类内位置、类间分布对IG参数进行修正,以提高分类精度;文献[28]提出一种基于粗糙集的多元信息增益模型(IG-RS),先用信息增益进行排名,然后用领域粗糙集评价逼近值,并提出一种粗糙集模型实现特征提取。
(4)开方校验(Chi-squared,CHI统计)。开方校验中特征词与文本类别之间服从χ2分布。χ2统计量可以度量特征和类之间独立性。如果特征T与类之间相互独立,则特征T的χ2值为0[29]。其值越高,特征词与类别之间独立性越小。计算公式如下:
其中A表示特征T与类别ci文档同时出现的次数,B表示特征T出现而ci类文档不出现的次数,C表示ci类文档出现而特征T不出现的次数,D表示ci类文档与特征T都不出现的概率,N为文档总数。
CHI统计偏向于在本类别和其它类别文本中出现频率高的特征词,在实际应用中也具有较高可靠性,阈值不会随训练集的改变而改变。缺点在于本类中出现频率低而在其它类中出现频率高的特征,分类效果不明显。文献[30]针对χ2统计对低词频权重分配过低、在本类很少出现但在其它类经常出现的特征词给予过高权重的问题,对χ2统计进行改进,引入文档内频度概念。特征t在文本dik中出现的频度记为tfik,在类别ci内出现的频度记为α,α=∑ik=1tfik。同时,引入类内正确度,定义一个调节函数β=AA+B(0≤β≤1),表示特征词在指定类的比例。当β接近0时,表示在整个语料库出现频繁,而在指定类内出现较少;当β数值接近1时,在指定类内出现频繁。β′=M2β-1为了更好地计算β对整个χ2统计的影响值,将β映射到β′。改进后的公式表示为:
实验结果验证改进后的开方校验分类准确率更高。Li等[31]分析了文档频率(IDF)和卡方统计量的特点,将IDF加入到卡方统计量中:
其中,D表示文本總数,Dt表示含特征t的文本数,log以2为底。对卡方统计量方法进行改进,充分改善了其忽略低频词和易选高频无效词的缺点。将改进后的算法与BP神经网络相结合,表现出较好的分类效果。
Liu等[32]分析了CHI特征项频数信息的不足,分别从特征项的类内、类间分布和类内不同文本的分布角度,改进CHI(或者χ2)模型,使特征项频数得到有效利用;Yue等[33]在原有的CHI选择方法上引入3个参数,使类内特征词分布均匀,以提高文本分类效果;Liang等[34]分析CHI在特征选择时,先计算单词对每个类别的卡方值,再由类别求最大值的单词相对于整个训练集合的卡方值,而忽略了单词和类别间的相关性。因此,提出一种基于类别的卡方特征选择方法,对每个类别挑选特征词,不同类别文档可能包含相同特征词,以提高分类器的总体效果;文献[35]提出类内频率和类内方差两个指标,对传统算法进行改进。定义一个类频率的相关度量,FI(t,cj)=ctfj(t)nj,其中ctfj(t)表示特征t在cj类中的概率,nj表示cj类包含的所有文档个数,解决了数据集不平衡的特点。为更好地表示平衡和非平衡的数据分布,定义了一个指数分布函数。首先定义一个分布函数,即特征t和文档d符合特征分布F(t,d)=TFd(t)d+Vd,d表示文档d中的所有特征,Vd是d中具有分类特点的特征。公式综合考虑了文本档长度和特征词,得到类别方差V(t,cj)=1ni∑t∈cj(F(t,d)-F(t,cj))2,其中F(t,cj)=1nj∑d∈cjF(t,d),nj表示cj类包含的所有文档个数。改进后的CHI统计称为NewCHI,NewCHI(t,cj)=log(1+FI(t,cj))×χ2(t,cj)V(t,cj)+α,公式包含了类内频率和类内方差,其中α为极小正数,使分母为整数,本文α设为0.01。实验分别用朴素贝叶斯和支持向量机分类算法验证其可行性。
Zeng等[36]将CHI统计运用在中文文本人物的社会关系和分类的标注粗糙问题,标注了8类主要人物的社会关系。同时,提出一种基于动词和名词抽取与CHI统计相结合的特征选择方法,运用TF-IDF权重计算方式,选用SVM分类器对结果采用K-折交叉验证的方法,验证其有效性。
Forman等[37]对12种特征选择算法进行对比分析,并结合文本分类实例,从准确率、召回率和F值评价指标方面,主要针对特征选择度量方法的挖掘,提出一种新的特征选择算法度量标准“Bi-Normal Separation”,也称为BNS。
2.3 Filter与Wrapper组合式特征选择算法
组合式特征选择算法是将Filter过滤式和Wrapper封装式方法相结合。组合式的主要思想是:首先用Filter模型初步选择特征,去除一些不相关的冗余特征,得到初步的特征子集,从而有效降低特征空间的维度;再用Wrapper模型在初步特征子集上进一步提取特征,得到最优特征子集。
文献[38]提出一种基于经验竞争算法的两阶段特征选择算法-IGICA,第一阶段用信息增益对特征项进行排名,第二阶段将ICA加入到特征选择中。对实验数据集分析结果表明,提出的方法具有良好的分类能力,明显优于其它算法[38]。
Meng等[39]提出一个两阶段的特征选择算法,针对传统向量空间模型没有考虑到词语间语义关系的问题,首先运用潜在语义索引,然后结合新组建的词间语义空间,提高算法效率;文献[40]选用潜在语义索引(LSI)和遗传算法(GA)进行文本特征提取。在VSM(向量空间模型)中利用LSI,对特征向量进行降维,然后结合奇异值分解[40],进一步利用遗传算法将维度降到最低,以充分发挥二者优势,提高文本分类效率。
近些年基于混合改进的特征选择方法越来越多。Wang等[41]研究出一种新的文档频率和词频频率组合的特征选择方法(DTFS),以提高邮件分类性能。首先利用现有的最佳文档频率(ODFFS)特征选择方法与阈值选择最佳特征,其次利用最优词频率(OTFFS)与阈值选择最佳特征。组合ODFFS和OTFFS的功能,提出启发式搜索策略,利用模糊支持向量机(FSVM)和朴素贝叶斯(NB)分类器对语料进行分类;Li等[42]针对信息增益、文本证据权、CHI统计算法中冗余信息干扰的局部性,提出一种新的特征选择算法CWFS——竞争优胜者特征选择算法,解决了传统算法耗时长、分类性能差的问题。
3 总结与展望
本文分析了文本分类领域的主要特征选择算法及其改进方法,对每种方法的优劣进行了探讨。分别从距离测度和信息测度两方面进行归纳总结,分析得到对特征选择算法的主要改进方面,包括词频、类内特征频度、类内离散度等因子。另一种是在此基础上加入对独立特征词词间关系的影响,提取出最有效的特征,优化分类效果。特征选择未来应充分考虑特征词的词性、词间关系、词位置分布等因素,将特征提取与分类方法相结合,使其在文本挖掘中得到广泛应用。从语句语义、标点符号、数字、修饰词等方面对特征选择算法作进一步改善,也将是特征提取算法的一个改进方向。
参考文献:
[1] 刘庆和,梁正友.一种基于信息增益的特征优化选择方法[J].计算机工程与应用,2011,47(12):130-132.
[2] 蒋盛益,郑琪,张倩生.基于聚类的特征选择方法[J].电子学报,2008,36(b12):157-160.
[3] 崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302.
[4] LEWIS P I. The characteristic selection problem in recognition systems[J]. Information Theory Ire Transactions on,1962,8(2):171-178.
[5] 邱燁.文本特征选择在网络信息过滤系统中的应用研究[D].济南:山东师范大学,2010.
[6] BIGI B. Using kullback-leibler distance for text categorization[C].Advances in Information Retrieval, European Conference on Ir Research. DBLP,2016:305-319.
[7] Nigam K. Using maximum entropy for text classification[C]. IJCAI-99 Workshop on Machine Learning for Information filtering,1999:61-67.
[8] 余俊英.文本分类中特征选择方法的研究[D].南昌:江西师范大学,2007.
[9] 朱颢东,钟勇.使用优化模拟退火算法的文本特征选择[J].计算机工程与应用,2010,46(4):8-11.
[10] 刘亚南.KNN文本分类中基于遗传算法的特征提取技术研究[D].北京:中国石油大学,2011.
[11] 陈培文,傅秀芬.采用SVM方法的文本情感极性分类研究[J].广东工业大学学报,2014(3):95-101.
[12] ZAHRAN B M, KANAAN G. Text feature selection using particle swarm optimization algorithm[J]. World Applied Sciences Journal,2009.
[13] 张文良,黄亚楼,倪维健.一种基于聚类的文本特征选择方法[J].计算机应用,2007,27(1):205-206.
[14] 王飒,郑链.基于Fisher准则和特征聚类的特征选择[J].计算机应用,2007,27(11):2812-2813.
[15] LEWIS P I. The characteristic selection problem in recognition systems[J]. Information Theory Ire Transactions on,1962,8(2):171-178.
[16] 王连喜,蒋盛益.一种基于特征聚类的特征选择方法[J].计算机应用研究,2015(5):1305-1308.
[17] 樊东辉,王治和,陈建华,等.基于DF算法改进的文本聚类特征选择算法[J].兰州文理学院学报:自然科学版,2012,26(1):51-54.
[18] 张越龄.单文档关键词自动提取方法述评[J].Scientific Journal of Information Engineering,2013(3):1-7.
[19] 许阳,刘功申,孟魁.基于句中词语间关系的文本向量化算法[J].信息安全与通信保密,2014(4):84-88.
[20] QU S, WANG S, ZOU Y. Improvement of text feature selection method based on TFIDF[M].Improvement of Text Feature Selection Method based on TFIDF,2008:79-81.
[21] 周雪芹,刘建舟,邵雄凯,等.中文文本分类中特征提取的方法[J].湖北工业大学学报,2010,25(2):60-62.
[22] DONOHO D L.De-noising by soft-thresholding[J].IEEE Trans Inform Theory,1995,41(3):613-627.
[23] HU Y, LOIZOU P C.Speech enhancement based on wavelet thresh-olding the multitaper spectrum[J].IEEE Trans on Speech and Audio Processing,2004,12(1):59-67.
[24] 王勇.中文文本分类特征选择和特征加权方法研究[D].重庆:重庆大学,2012.
[25] 任永功,杨雪,杨荣杰,等.基于信息增益特征关联树的文本特征选择算法[J].计算机科学,2013,40(10):252-256.
[26] 郭颂,马飞.文本分类中信息增益特征选择算法的改进[J].计算机应用与软件,2013,30(8):139-142.
[27] 石慧,贾代平,苗培.基于词频信息的改进信息增益文本特征选择算法[J].计算机应用,2014,34(11):3279-3282.
[28] PATIL L H, ATIQUE M. A novel feature selection and attribute reduction based on hybrid IG-RS approach[M].Emerging ICT for Bridging the Future - Proceedings of the 49th Annual Convention of the Computer Society of India CSI Volume 2. Springer International Publishing,2015:543-551.
[29] CHISTOPHER D MANNING, PRABHAKER RAGHAVAN, HINRICH SCHUTZEMANNING C D, RAGHAVAN P, SCHUTZE H. An introduction to information retrieval[M]. Cambridge: Cambridge University Press,2008:272-275.
[30] 肖婷,唐雁.改进的X2统计文本特征选择方法[J].计算机工程与应用,2009,45(14):136-137.
[31] 李帅,陈笑蓉,LISHUAI,等.改进卡方统计量的BPNN短文本分类方法[J].贵州大学学报:自然版,2015,32(6):83-87.
[32] 刘海峰,苏展,刘守生.一种基于词频信息的改进CHI文本特征选择[J].计算机工程与应用,2013,49(22):110-114.
[33] 邱云飞,王威,刘大有,等.基于方差的CHI特征选择方法[J].计算机应用研究,2012,29(4):1304-1306.
[34] 梁伍七,李斌,许磊.基于类别的CHI特征选择方法[J].安徽广播电视大学学报,2015(3):124-128.
[35] ZHANG P J, GAN S C. An improved feature selection algorithm utilizing the within category variance[C]. International Conference on Electrical, Automation and Mechanical Engineering.2015.
[36] 曾辉,唐佳丽,熊李艳,等.基于动词名词和CHI特征选择的中文人物社会关系抽取[J].计算机应用研究,2017,34(6):1631-1635.
[37] FORMAN G. An extensive empirical study of feature selection metrics for text classification[J]. Journal of Machine Learning Research,2003,3(2):1289-1305.
[38] MOJAVERIYAN M, EBRAHIMPOUR-KOMLEH H, MOUSAVIRAD S J. IGICA: a hybrid feature selection approach in text categorization[J]. International Journal of Intelligent Systems Technologies & Applications,2016,8(3):42-47.
[39] MENG J, LIN H, YU Y. A two-stage feature selection method for text categorization[C].Seventh International Conference on Fuzzy Systems and Knowledge Discovery,2010:1492-1496.
[40] 郝占剛,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107.
[41] WANG Y, LIU Y, FENG L, et al. Novel feature selection method based on harmony search for email classification[J]. Knowledge-Based Systems,2014,73(1):311-323.
[42] LI C, WANG X. A feature selection method based on competition winners mechanism[C].International Power, Electronics and Materials Engineering Conference,2015.
(责任编辑:黄 健)