基于改进的TF-IDF文本特征词提取算法研究

2017-07-31 18:47冯锡炜王志峰

辽宁石油化工大学学报 2017年4期

关键词：权重

贾强，冯锡炜，王志峰，朱睿，秦航

(1.辽宁石油化工大学计算机与通信工程学院，辽宁抚顺 113001； 2.辽宁省抚顺市望花区教师进修学校，辽宁抚顺 113001)

基于改进的TF-IDF文本特征词提取算法研究

贾强1，冯锡炜1，王志峰1，朱睿1，秦航2

(1.辽宁石油化工大学计算机与通信工程学院，辽宁抚顺 113001； 2.辽宁省抚顺市望花区教师进修学校，辽宁抚顺 113001)

在特征词提取算法中，TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上，提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术，识别文本中的长词与普通词汇，对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重，按权值排序结果得到关键词。实验对比发现，新的特征词提取算法能够更加精确地反映出特征词的词长情况，该算法与传统的TF-IDF算法相比，在准确率和召回率上都有较大的提升。

TF-IDF；特征词提取；词长; 文本预处理；文本分类

随着计算机语言学、信息学、人工智能等多种学科的发展，文本特征词提取也变得更加语义化、智能化、数字化，在网络知识管理、学科知识检索等方面发挥越来越重要的作用。文本特征词提取的主要思想是利用相关的数学工具降低词语空间的维度，提取能代表文本特征的词语，从而提高文本检索和文本分类的效率[1]。

常用的文本特征词提取方法主要是基于语义分析、统计和词语网络的三种方法。基于语义分析的方法，利用语义特征提取特征词，如基于语境框架，引入同义词概念提高关键词提取的准确度[2]；基于词语网络的方法，根据特定的规则将文本映射为词语网络，如利用情感倾向词类的词语降低特征空间[3]；基于统计的方法，通过构造评估函数，提取预定数目的最优特征作为提取结果的特征子集。基于统计的方法有多种，如词频-逆文本频率(Term Frequency-Inverse Document Frequency，TF-IDF)、互信息(Mutual Information)、期望交叉熵(Expected Cross Entropy)、信息增益(Information Gain)、X2统计量等方法，其中应用最广的便是TF-IDF方法。

TF-IDF方法由Salton在1988 年提出[4]，20世纪90年代，国内学者开始关注并不断对其进行优化改进。本文在TF-IDF算法的基础上提出一种区分文本词语长度的特征词提取算法词频-逆文本频率-词语长度(Term Frequency-Inverse Document Frequency-Word Length，TF-IDF-WL)，旨在其他研究人员的研究基础上，将词长考虑到TF-IDF算法内部，从而提高特征词提取的准确度。实验结果表明，本文提出的算法从准确率和召回率考虑，均优于之前的算法。

1 传统的TF-IDF算法

TF-IDF算法是基于统计方法的文本特征词提取中常用的加权技术，主要通过统计词频对文本进行分类[5]。词频 (Term Frequency, TF)用来表示词语在文本中出现的频率，逆文本频率(Inverse Document Frequency, IDF)表示词语在文本集中的类别区分能力，IDF值越大，说明该词语具有很好的类别区分能力。TF-IDF算法的主要思想，如果某个词或短语在文章中出现的频率高，并且在其他文章中很少出现，则认为该词或短语具有很好的类别区分能力，适合用来做主题分类。通常采用的表达式：

(1)

TF-IDF算法的优点是简单快速，结果比较符合实际情况。但是，单纯以TF衡量一个词的重要性，不够全面[8]，经过传统TF-IDF算法提取出的文本关键词，往往也只是一些长度较短的表示相对抽象、上位的词语。在实际应用中发现，关键词通常是一些专业学术组合词汇[9]，长度较一般词长，而这些词却没有像短词那样拥有更高的词频。因此，在特征选择的过程中不宜仅将词频作为考量因素，面向功能、语义较泛的短词语和面向内容、语义较具体的长词语被赋予相同的权重是不正确的。

2 改进的文本预处理过程

在中文语言处理中，词的长度对于其所表达的信息和所携带的信息量有很大不同[10]。通常情况下，词的长度越短，其表达的语义越泛，携带的信息量也越少，对于同一件事物的描述，长词表达的信息会更详细，精确度也会更高[11]。例如“科学”、“计算机”两个词，仅根据该词无法获取具体的相关信息，“计算机科学”则将“科学”做了进一步限定，描述了它所属的领域，所指的范围缩小，使之不会与其他领域的科学混淆，描述的范围更小，所携带的信息量也更大[12]。一般而言，中文文本中词长较短的词往往表示相对抽象、上位的概念，而词长较长的词或短语常常表示比较具体、下位的概念[13]。短词频率较高，而且具有更多的含义，是面向功能的；长的词或短语频率较低，是面向内容的，但是含义更明确，更能反映文本主题，适合作为特征词[14]。增加长的词或短语的权重，词汇分割会变得更加有效，特征词在文本中的重要程度也会更加准确地反映出来。齐波等[15]采用机器学习的方法对长词进行识别，得到了较好的反馈，本文将借鉴该方法提取文本中的长词，并对全文长短词进行词频统计，便于对文本进行后续TF-IDF处理。

在算法执行的过程中，四元组表示文本处理后的结果集。其中，wi为词语；frei为词语wi在文本中出现的次数；leni为词语wi的长度；flag为标识位，表示词语wi是否为长词，其中flag为1表示wi为长词，flag为0表示wi为普通词。对文本的预处理具体步骤如图1所示。

图1 TF-IDF-WL算法流程

3 改进的TF-IDF算法

3.1 词长权值

考虑到长的词或短语所携带的信息要远高于短词，并且其特征与其他外部文档无关，本文将词长权重加入到TF-IDF算法内部，重新衡量关键词权重，确定候选特征词，词长权重计算公式定义为：

(2)

为了减小权重对词长的过度依赖，利用分母maxlen对leni进行归一化处理；maxlen为当前文档中最长词语的长度。

3.2 改进TF-IDF算法

对于文本中的所有候选特征词，设计一个基于词长权值的改进TF-IDF加权公式定义为：

(3)

使用公式(3)求出每个候选特征词的综合权值，并根据综合权值对所有候选特征词排序。

3.3 关键词选取

根据前面所计算得到的候选特征词排序，选取前5个候选特征词作为该文本的关键词。当前5个候选特征词中有3个以上的长词时，取前3个综合权值最高的加入候选特征词，另外2个候选特征词为普通词；当前5个候选特征词中不含有长词时，去除综合权值最低的1个候选特征词，将综合权值最高的1个长词加入候选特征词，组成文本的关键词，从而保证关键词中有1～3个长词。

4 实验及结果分析

4.1 数据来源

实验数据来源于科研共享平台——数据堂所提供的语料库中文数据集，包含教育(Education)、哲学(Philosophy)、历史(History)等20个类别，每篇文章都是纯文本格式保存，包括期刊文献、杂志、书目等类别，为验证本实验的正确性，从中选取已标引出关键词的历史(History)、空间(Space)、能量(Energy)、通信(Communication)、计算机(Computer)、环境(Enviornment)、经济(Economy)、法律(Law)、政治(Politics)、运动(Sports)等10类不相关文本各20篇，作为测试文本集。

4.2 评估指标

由于一般关键词提取算法的性能评估都是通过特定的评估函数进行比较，因此采用两个文本关键词提取效果的度量指标——准确率与召回率来测评算法性能。准确率及召回率定义为：

(4)

(5)

式中，P为准确率；R为召回率；a为提取正确的关键词数；b为提取的关键词数；c为文本中的关键词数。

4.3 结果及分析

在文本长词的识别阶段，使用文献[11]提供的长词识别方法，对于简单的文本中的长词，综合识别准确率为95.6%，与选定的文本中特征词对比显示，文本中长的特征词98%均包含在所识别的长词中，基本排除长词识别准确率对实验结果的影响；对于如述宾词“改革开放的伟大旗帜”这样复杂的文本中的长词，综合识别准确率为83.2%，但是以这种复杂长词作为特征词的实验文本几乎没有，故排除了复杂的长词组合对实验结果的影响。

使用TF、TF-IDF以及TF-IDF-WL算法进行对比实验。实验结果如表1所示，表1中的所有数据都是针对10类20篇文本进行计算后的均值。

表1 TF、TF-IDF与TF-IDF-WL算法提取文本关键词对比结果

实验结果表明，Economy文本集中TF算法的准确率高于TF-IDF算法的准确率。分析发现，是由于在计算准确率时，TF算法误用了文本中的特征词个数作为计算标准，个别文本特征词个数低于5个，导致局部TF准确率过高，后期的实验中纠正了错误，得到了较稳定的结果；在Space文本集中，在计算TF-IDF算法召回率时，由于计算时少加了1个文本的召回率，因此Space文本集TF-IDF算法的平均召回率较低，后续的计算中纠正了错误，计算所得的召回率为0.694，基本稳定。

TF、TF-IDF与TF-IDF-WL算法准确率、召回率对比结果如图2所示。

(a) 准确率(b) 召回率图2 TF、TF-IDF与TF-IDF-WL算法识别准确率、召回率对比结果

由表1和图2可以看出，本文算法提取关键词的识别准确率和召回率明显优于传统算法，得出的文本关键词更加精确。由于传统的TF、TF-IDF算法没有考虑特征词的词长，因此在文本识别准确率及召回率上出现的误差较大。在Economy类目中，由于整个类目文本中频繁出现“风险”、“企业”等比较抽象的词，使其在TF算法中排序很靠前，导致局部的TF值较高，而改进后的TF-IDF-WL算法按词长比例对这些文本进行筛选，很好地将这类词排除在5个关键词之外，产生相对平衡的准确率和召回率，进一步验证了本文算法的可取性。

5 结论

利用文献[15]的中文短语识别方法将文本中长词及普通词进行划分，在传统TF、TF-IDF算法的基础上将词语长度考虑在内，将词长比例作为文本候选特征词去除噪音的权值，有效地抑制了与测试文本同类语料库对所提取关键词权重的影响，修正了传统TF、TF-IDF算法的计算偏差。实验结果表明，TF-IDF-WL算法相较于传统TF、TF-IDF算法效果更优，得出的关键词能基本反映文本内容。

[1] 徐建民, 王金花, 马伟瑜. 利用本体关联度改进的TF-IDF特征词提取方法[J].情报科学, 2011, 29(2):279-283.

[2] 程涛,施水才,王霞,等.基于同义词词林的中文文本主题词提取[J].广西师范大学学报(自然科学版), 2007, 25(2):145-148.

[3] 王帅. 情感分析的特征提取算法与观点的聚类算法研究[D]. 昆明:昆明理工大学, 2015.

[4] Zhang Y, Li Z, Ren F, et al. Semi-automatic emotion recognition from textual input based on the constructed emotion thesaurus[C]//Natural Language Processing and Knowledge Engineering, 2005. IEEE NLP-KE'05. Proceedings of 2005 IEEE International Conference on. IEEE, 2005:571-576.

[5] 张瑜, 张德贤. 一种改进的特征权重算法[J]. 计算机工程, 2011, 37(5):210-212.

[6] 黄贤英, 陈红阳, 刘英涛,等. 一种新的微博短文本特征词选择算法[J]. 计算机工程与科学, 2015, 37(9):1761-1767.

[7] Zhang B F Shi H J,Ma S Q .An improved text feature weighting algorithm based on TFIDF[J]. Computer Applications and Software, 2011, 28(2):17-20.

[8] 程传鹏,苏安婕.一种短文本特征词提取的方法[J]. 计算机应用与软件, 2014, 31(6):162-165.

[9] 徐冬冬,吴韶波.一种基于类别描述的TF-IDF特征选择方法的改进[J].现代图书情报技术, 2015, 31(3):39-48.

[10] 孙飞. 基于改进的TF-IDF算法的中文微博话题检测与研究[D].北京:北京理工大学, 2015.

[11] 冯瑶,冯锡炜,黄越洋,等.基于一阶逻辑的个性化E-Learning本体推理研究[J] .辽宁石油化工大学学报, 2016, 36(1):65-70.

[12] 刘俊,邹东升,邢欣来,等.基于主题特征的关键词抽取[J].计算机应用研究, 2012, 29(11):4224-4227.

[13] Hong B, Zhen D.An extended keyword extraction method[J]. Physics Procedia,2012,24:1120-1127.

[14] 李原.中文文本分类中分词和特征选择方法研究[D].长春:吉林大学,2011.

[15] 齐波,王成良.现代汉语短语的机器识别[J].重庆工学院学报(自然科学),2007,21(12):144-147.

(编辑陈雷)

Research on Keyword Extraction Algorithm Based on Improved TF-IDF

Jia Qiang1, Feng Xiwei1, Wang Zhifeng1, Zhu Rui1, Qin Hang2

(1.SchoolofComputerandCommunicatingEngineering，LiaoningShihuaUniversity，FushunLiaoning113001,China;2.TeacherContinuingEducationSchoolofWanghuaDistrict，FushunCityofLiaoningProvince,FushunLiaoning113001,China)

In the text feature word extraction algorithm,TF-IDF algorithm is the most common feature weight calculation method. On the basis of the traditional TF-IDF extract algorithm, a new keyword extraction algorithm based on the text word length is proposed.Using chinese phrase word segmentation technique to identify long words and ordinary words in text,the proposed TF-IDF-WL method is used to recompute weights for different lengths of words, and the keywords are sorted by weights. Experimental results show that the new feature word extraction algorithm can more accurately reflect the lexical length of the feature words.Compared with the traditional TF-IDF algorithm, the algorithm has greatly improved accuracy and recall rate.

TF-IDF; Keyword extraction; Word length; Text preprocessing; Text classification

1672-6952(2017)04-0061-04

2017-03-08

2017-04-11

辽宁省教育科学“十三五”规划课题资助项目(JG16DB253);辽宁石油化工大学教育教学改革研究项目(20165230060003)。

贾强(1989-)，男，硕士研究生，从事语义网和Hadoop大数据处理研究；E-mail:616649172@qq.com。

冯锡炜(1970-)，男，博士，教授，从事语义网、分布式计算与计算机网络技术方面的研究；E-mail:feng.xw@163.com。

TP391

10.3969/j.issn.1672-6952.2017.04.014

投稿网址：http://journal.lnpu.edu.cn

基于改进的TF-IDF文本特征词提取算法研究

1 传统的TF-IDF算法

2 改进的文本预处理过程

3 改进的TF-IDF算法

4 实验及结果分析

5 结 论

5 结论