基于NewTF-IDF的新闻文本特征提取算法研究

2021-06-05 11:32:44闫思贤

湖北民族大学学报(自然科学版) 2021年2期

黄敏，闫思贤

(1.郑州轻工业大学软件学院，郑州 450002； 2.郑州轻工业大学计算机与通信工程学院，郑州 450002)

在互联网时代，电视或者网络平台增长速度较为迅速，在这些平台中，可以获取到的新闻文本数据量巨大[1].在国内外，每天发生的事件不计其数，每个人关注热点又各有差异，因此在平台中每天都在更新不同的新闻数据，引起新闻数据暴涨，使得新闻数据逐渐繁杂且冗余.若要对大批量的新闻文本数据逐条分类，无疑是复杂且低效的工作[2].因此，针对新闻文本的特征词提取算法，在学术界逐渐崭露头角.例如：蔡中祥等[3]提出了一种融合指针网络的自动文本摘要模型，实现新闻数据的标题的自动生成；Hakak Saqib等[4]提出一种基于有效特征提取的集成机器学习方法，实现对假新闻的分类；Patidar等[5]采用TF-IDF和相似度权重的方法实现混合新闻的推荐;Zhuo Zhuo等[6]在Spark上采用TF-IDF算法对新闻的文本主题进行聚类优化；等.综上可知，针对新闻文本分类的研究吸引较多学者关注，并且新闻文本数据存在量较大，获取时较为简便[7]，为文本分类研究提供非常大的便利.但是，在基于传统TF-IDF文本分类研究中，针对关键字的提取，只能简单地将词频和逆文档频率挂钩，忽略关键词的其他特征，进而可能会使关键词的提取不精确[8-10].此外，在分类过程中常遇到判别条件缺乏的情况，因此将导致文本分类准确率降低[11-13].基于上述分析，针对文本关键字获取不精确、判别条件缺乏等问题，本文提出一种改进的TF-IDF方法，并将该方法应用至新闻文本数据，实现新闻文本分类.

1 TF-IDF的算法原理与不足

(1)

(2)

在式(2)中，|D|为整个语料库，|{j:ti∈dj}|为语料库中出现某词的文本个数.为了避免该词不存在于语料库当中使分母为0的情况发生，所以在分母位置增加1.如果某高频词在语料库的大量文本中都出现，说明这个词语对单个文本的重要程度就越低，就不是需要被提取的关键词.此时，这个词语的IDF值就会越小，进而减少此关键词的权重.例如，某语料库中的文本都是关于某人的介绍，某人的姓名就可能出现在所有文本当中，此时，IDF值就会非常小.

综上，TF-IDF的公式为式(3)所示，它在保留高频词的基础上剔除了大量文本中存在的常见词语，提取词语的重要程度较高.TFi,j-IDFi=TFi,j×IDFi,j.

(3)

在对一篇文章进行预处理之后就可以使用TF-IDF来提取文章的关键词，再对所得关键词的TF-IDF权重值进行排序后，权重值靠前的词语基本就可以代表文章的核心内容.此算法的结果与实际相差不大，在词语降噪方面有其特殊优势，所以一直被广泛应用于各大分类问题的研究及搜索引擎的搜词中.例如，大型企业谷歌在搜索引擎方面就一直以TF-IDF为信息检索的重要手段.

TF-IDF的广泛应用无疑肯定了他的价值，但是作为一个特征提取算法还是存在一些不足.它采用的是IDF对TF进行加权，IDF虽然能在一定程度上提高提取结果的准确性，但因为它只从关键词在语料库所有文本中的分布作为权值，结构过于单一.本文总结了在应用时的几个缺陷，具体如下.

1)简单将词频与IDF权重挂钩.IDF权重主要选取了在语料库中出现次数少、频率小的词，对于大量出现在其他文本中的词语权重很低，这种方式在大部分情况下是成立的，且具有较好的分类效果.但是，降低常见词权重，在别的文本并不完全普适，特别是新闻热点、网络热词等.例如，在现今数据爆炸的时代，互联网上每过一段时间都会产生一些网络热词，这些热词会出现在大量的文本当中，如果仅以IDF作为权重因子，那么这些热词就会被当作无效词过滤掉了，显然与实际情况不符.而且，当语料库中的文本类型较少甚至类型单一时，IDF作为加权因子，就会失去其存在意义，此时，关键词的提取就只能依赖词频这一个特征，不具备科学合理性.比如，当需要处理的文本全部都是数学类文本时，几乎每一篇文本中都会出现专业的数学名词，此时IDF的值对于数学名词的提取就只能依赖词频这一个特征来决定，TF-IDF算法本身也失去了其意义.所以，特征词的提取并不仅仅依托于IDF这一个加权因子，词性、词长、词位置与词跨度都是度量关键词重要程度的主要依据，下文会根据这4种因子在特征词提取方面的重要程度，给出具体的计算数值.

2)未考虑词语在不同文档中的分布.TF-IDF算法的依据就是词频和逆文档率两个特征，当关键词的词频和逆文档频率相同时，计算出的结果是一样的.但是，这显然不够全面，因为其中一个关键词可能是分布在同一类型的多个文档中，另一个关键词可能是分布在语料库中不同类型的文档中.显然，在同一类型多个文档中分布的词对此类型更具有代表性.此时，赋予这两个词一样的权值是不合理的，基于此，本文提出了一种基于离散度的算法改进，当关键词出现的类别数越少，离散系数越大，关键词权重越大.

2 NewTF-IDF的实现过程

2.1 结合多组合特征因子的改进(CTF-TF-IDF)

关键词的词性、词语长度、词语出现位置、词语复现的跨度都会对特征词提取结果产生较大影响.这显然是传统的TF-IDF算法所不具备的，为了提高特征项提取的准确度，本文将上述多个影响因素组合起来，把组合特征CTF(Combination-Term-Feature)作为一个权重因子对原始算法进行加权，改善原始算法在语义方面的缺失，提高算法的准确度.组合特征的加权公式为式(4)所示：

CTF=[POS(W)+WL(W)+WP(W)+WS(T,S)]，

(4)

其中，POS(W)代表词性因子，WL(W)代表词长因子，WP(W)代表词位置因子，WS(T,S)代表词跨度因子.

1)词性因子.在中文文本数据集中，不同词性的词语包含的信息量不同，对文本的重要程度大不相同，词性是区分关键词的重要指标.一般动词和名词在文本集中都占有较高的比重，且都是表达具体事务的词，最能表示想要表达的事物的具体特征，一般应给予较高权重.形容词和副词的在文本中的比重低于名词和动词，且多为名词和动词的修饰语，所占比重应小于名词和动词.此外，还有一些其他词性的词语，在文中所占比重更低，重要程度更低.为了更好地为不同词性的词语分配权值，本文从语料库中随机挑选了2 000篇新闻数据，并用特征提取算法从中提取了5 000个关键词，在使用语义分析工具对上述词语进行词性分析后，得到各词语的词性占比如图1所示.

图1 关键词词性占比Fig.1 Part of speech ratio of keywords

由图1可知，动词和名词的占比最高，动词、名词和动名词总共的占比为70%，形容词、副词的占比约20%，最后约10%为其他词性，与之前的预测相符.因此，结合图中词语的占比分布，给予不同词性的词语不同的权重，具体权重分布如式(5)所示.

(5)

2)词长因子.词长(Word Length)也是衡量关键词重要程度的关键因素之一，不同长度的词语包含的信息量会存在差异.针对词长的权重研究，目前有两种主流方法.一是比例法，以关键词长度占文本中最长词语长度的比例作为权重因子进行计算.二是特值法，是对特定的词语长度施加一个权重因子，再对不同的词语长度施加不同的权重因子来计算.本文研究的是新闻文本数据，在文本中往往词语的长度越长，蕴藏的信息量就越多，所以本文选择比例法给词长因子赋值，式(6)为计算公式.

(6)

在式(6)中，len(W)代表关键词长度,max(l)表示文本中最长的关键词.

3)词位置因子.词语在文本中的位置对于文本类别的判定很重要.在新闻文本中，标题与文章内容的符合度一般在98%以上，标题一般能代表整篇文章的含义，重要程度最高，所以标题要被赋予最高权重.文章首句一般起到概括全文，总领全局的作用，末句一般起到总结上文，呼应主题的作用，这两句话一般为文章的中心句所在，表达含义丰富，重要程度仅次于标题，赋予权重值应比标题略低，比文中的其他词语高.所以，针对上述词位置(Word Location)因子的计算公式为式(7)所示.

(7)

4)词跨度因子.词跨度(Word Span)的具体含义是关键词在文本中第一次出现的位置与最后一次出现的位置之间的距离，反映了词语在文本中出现的范围大小.通常来讲，词跨度越大，说明词语在文章中分布范围越广，词语越能代表文章的类型.相反，词跨度越小，说明词语出现的范围越集中，只出现在整个文本中的一部分，不能很好地概括全文主旨.假如某词语在文中的一定范围内集中出现，会对全文的关键词提取造成较大影响，所以本文使用词跨度因子过滤局部高频词，避免这一问题的发生，计算公式如式(8)所示.

(8)

其中，las(T)为词T在文本d中最后一次出现的序列值，fir(T)为词T在文本d中首次出现的序列值，SumWords(d)为文本d中词语数之和.所以，原始的TF-IDF算法经由词性、词长、词位置、词跨度等组合特征改进后形成改进算法的计算公式如式(9)所示：

CTF-TF-IDF=TF×IDF×[POS(W)+WL(W)+WP(W)+WS(T,d)].

(9)

2.2 结合离散度的改进(TF-IDF-Dis)

离散度表示词语间的分散程度.相比于在多个类型间出现的高频词而言，在同一类型间出现的高频词分布更集中，更能代表所属类型.所以，对在同一类型间的高频词赋予较高的离散系数，对于不同类型间高频词赋予较低的离散系数.结合离散度后，改进后的算法能很好地区分词语在不同类型间的分布.

离散系数可以作为一个权重因子乘到TF-IDF的算法当中，可以很好地改进关键词在不同类型间分布不均的情况.基于上述离散程度的概念，具体的改进过程如下.

(10)

2) 使用标准差除以第1步求得的平均词频，求取各类型之间的离散度，即离散系数，如式(11)表示:

(11)

3) 使用TF-IDF乘以离散系数就得到原始算法对于离散程度的改进，如式(12)所示:

TF-IDF-Dis=TFi,j×IDFi×Dis.

(12)

当关键词只出现同种类型的文本中时，集中效果最好，能较好体现文档的重要程度，取离散系数的最大值为1，当关键词在语料库中的所有类别中都出现时，说明词语较为分散，不能体现某个类型文本的重要程度，取离散系数最小值为0.

至此，对特征项进行评估时就不在仅仅考虑关键词出现的文本个数在语料库中的整体分布情况.而是融合进了关键词与类别之间的关系，使算法的准确率更高.

2.3 NewTF-IDF的实现

上文中的两节内容分别是对原始TF-IDF算法进行的组合特征改进和离散度改进.改进后的算法更符合逻辑，更加高效.

算法公式是由式(9)得出的CTF-TF-IDF算法及由式(12)得出的TF-IDF-Dis算法融合，生成新的算法公式NewTF-IDF，NewTF-IDF的具体计算过程如式(13)所示:

(13)

NewTF-IDF实现的流程如图2所示.

图2 NewTF-IDF算法实现流程Fig.2 NewTF-IDF algorithm implementation process

3 实验方案及结果分析

本文在上一章分别介绍了TF-IDF算法的原理及优缺点，并且基于组合特征和离散度分别提出了CTF-TF-IDF算法和TF-IDF-Dis算法，都在一定程度上对原始TF-IDF算法进行了改进.最终融合二者不同的改进特点，生成NewTF-IDF算法，算法不仅在词性等多组合因素上进行了改进，还在特征项与类间关系处进行了改进.为了验证算法改进后的具体效果，本文在此设计一个对比实验来验证，并结合原始TF-IDF算法、基于组合特征改进的CTF-TF-IDF算法和基于离散度改进的TF-IDF-Dis算法共同对比分析.

3.1 实验数据

搜狗实验室是由搜狗核心团队研发，对外推出的一个交流窗口，内含丰富的数据资源，本章节所使用的新闻数据为搜狗实验室中的全网新闻数据集和搜狐新闻数据集.在搜狗实验室下载完数据之后，先进行文本预处理，即分词、去停用词，目的是避免无用数据影响实验效率，提升分类精确度.

从搜狗实验室下载的数据共包含国内、国际、体育、社会、娱乐等共18个类别，此数据来源丰富，权威性高，被各大领域频繁使用，适用于文本分类的研究.为方便实验，本文从数据集中抽取5个最具代表意义的类别，分别为教育、文化、财经、科技、体育等进行实验.由于每个类别的文本个数不一样，为使实验精度上升，避免数据不平衡干扰结果，本文分别从5个类别中选取2万条新闻数据进行研究.所以本实验的新闻文本数据集为10万条.

3.2 实验方案

① 从搜狗实验室下载全网新闻数据集与搜狐新闻数据集，进行去词和去停用词等文本预处理操作.② 用Python自带的第三方开源库sklearn库对数据进行处理.使用库中自带的train_test_split方法把新闻数据进行划分，划分的数据分为训练集和测试集，划分范围是依据此方法中test_size的默认参数0.25，表示数据中训练集占到75%，测试集占到25%.最终得到划分后训练集文本75 000条，验证集文本25 000条.③ 使用传统的TF-IDF、CTF-TF-IDF、TF-IDF-Dis方法以及最终融合的NewTF-IDF方法在训练集上进行特征项提取.④ 用朴素贝叶斯分类器对上述4种算法提取出的特征项进行分类.分类时，拉普拉斯平滑系数使用1.0，训练好数据后，使用验证集进行验证.验证效果好坏使用精确率P、召回率R、综合值F1进行衡量.效果指标越高，代表数据特征提取方法越科学.

3.3 结果与分析

根据上述实验步骤得到的4种特征提取算法的分类效果如表1所示，使用P、R、F1 3种指标来描述特征提取的效果，表中数值越高，代表效果越好.从表1可以看出，本文改进的三种算法较传统的TF-IDF算法的分类效果在各项指标上都有提升.尤其是最终融合的NewTF-IDF算法提升效果尤为显著.从各项指标的平均值来看，在精确率P上，NewTF-IDF比传统TF-IDF的值高了8.17%，比CTF-TF-IDF提升了3.72%，比TF-IDF-Dis提升了3.12%.在召回率R上，NewTF-IDF比传统TF-IDF的值高了10.03%，比CTF-TF-IDF提升了5.15%，比TF-IDF-Dis提升了4.65%.在F1上，NewTF-IDF比传统TF-IDF的值高了9.37%，比CTF-TF-IDF提升了4.44%，比TF-IDF-Dis提升了4.04%.

表1 4种特征提取算法的分类效果Tab.1 The classification effect of four feature extraction algorithms

为了更加直观清晰的展示改进的特征提取算法对分类器分类的指标提升效果，本文根据表1中的数据绘制了4种分类算法的平均P、R、F1值对比图，如图3所示.由图3可知，通过折线图的趋势可以快速直观的看出NewTF-IDF算法在3项指标上的数值均领先于其他算法，证明本文对特征项提取的改进颇具成效.各算法在不同类别下的F1值如图4所示.

图3 四种分类算法的平均P、R、F1值图4 各算法在不同类别下的F1值Fig.3 Average P,R and F1 values of the four classification algorithms Fig.4 F1 value of each algorithm under different categories

在3项评价指标中，F1值是精确率P和召回率R加权调和的平均值，最具有代表性，图4为4种算法在不同类别中的提取效果的F1值.可以看出CTF-TF-IDF和TF-IDF-Dis在各类别较于传统TF-IDF都有提升，且NewTF-IDF在各类别的F1值都高于其他类别，证明本文算法改进的科学合理性.

4 结语

随着时代的更迭、科技的进步，互联网已经成为人们日常生活中必不可少的一部分.基于中国庞大的人口体系，互联网上的数据每天都呈爆炸式的增长，大量的数据堆积下，肯定有一些数据对于人们的生产、生活、研究等存在价值.文本数据是数据传输最基础的媒介，针对文本关键字获取不精确、判别条件缺乏等问题，本文提出一种结合多组合特征因子及离散程度的特征提取算法NewTF-IDF.实验表明，NewTF-IDF在文本特征词提取方面有更高的准确率.