图关键词提取中的短语评分方法

2020-11-17 06:29张宇翔
计算机工程与设计 2020年11期
关键词:词频词组文档

苏 超,张宇翔

(中国民航大学 计算机科学与技术学院,天津 300300)

0 引 言

自动关键词提取技术可以快速地抽取目标文档的主题并给出文档的核心主旨,其成果广泛用于文档检索[1]、文本分类[2]、文本主题挖掘[3]等具体领域。如以Wang等提出的WordAttractionRank算法[4-6]为代表将词图边的相关信息融合到PageRank框架[7]的转移概率中;以Sterckx等提出的Single-TPR算法[8-10]为代表利用词节点信息修改重启概率;以Zhang等提出的MIKE方法[11]为代表同时将词图边的信息和词节点的信息融合到转移概率和重启概率中。

事实上,完成单词的评分后,据此对多元候选关键词组的评分同样会影响最终的提取性能。现有的多元词组评分方法根据组成候选短语的单词计算它的整体得分。Zhang等[12]提出在计算候选短语内含单词之和的同时为多元词组按其长度分配权重。这类评分算法的缺陷是对长度越长的词组评分越高,对通常长度较短的关键词组评分越低。为此,Florescu C等[13]对词组分配词组长度的倒数作为权重来弥补之前的缺陷,而且增加了词组在文档中的频率以增强多元词组的最终得分,但该方法对统计特征的使用单一。

本文在Florescu C等的基础上,结合候选短语的统计特征,创新性地提出一种单文档关键短语评分方法。该方法分为3步:①根据单词在文档中的相邻关系选出指定长度的候选短语;②使用TD-IDF和4种随机游走技术对文档内的单词评分;③利用候选短语的词频特征与位置特征计算候选短语的最终评分,选出排名靠前的k个候选短语作为文档的关键短语。提出方法不仅消除了短语长度的影响,而且充分利用了候选短语在单文档内的词频信息和位置信息,能够帮助提升最后的提取性能。

1 关键短语提取

1.1 候选短语生成

为了识别多元短语的重要性,从数据集中统计多元短语的含词分布情况,见表1。由表1可知,关键短语主要集中在一元、二元、三元上,3种数据集高达95%,几乎概括了全部关键短语,因此生成候选关键短语时只抽取一至三元的短语。

表1 关键短语含词分布概率/%

1.1.1 一元候选短语

对文档数据进行词性过滤和去无用词,只留下形容词和名词作为一元候选关键词集。

1.1.2 二元候选短语

定义d={w1,w2,…,wn},d是1.1.1节中的候选关键词集合,wi是每个候选单词。根据单词在window=2的滑动窗口中的共现关系构建边,如w1-w2,…,wn-1-wn。每一条边代表一组二元候选短语,加入二元候选短语集合中。

1.1.3 三元候选短语

对二元候选短语中的词组两两拼接,若第一个短语的最后一个词和第二个词组的第一个词相同,则组成三元短语。如果三元短语在原文中出现,则加入到三元候选短语集合中。

1.2 传统的短语评分方式

传统的短语评分方法有两种:一种是对组成候选短语的单词评分加和;另一种方法在评分加和的基础上按短语长度分配权重,具体计算方式如下

s(p)=∑wj∈ps(wj)

(1)

s(p)=φ∑wj∈ps(wj)

(2)

前一种方法对于长度越大的短语得分越高,不利于提取重要的一元、二元、三元短语;后一种方法虽然提高了二元、三元短语的权重,但其中φ只是经验值,在不同的数据集中,实验结果最优的φ取值不同。

1.3 关键短语评分方法

在完成单词的评分和候选短语的生成后,首先通过组成候选短语的单词评分得出候选短语的初级评分;再根据特征定义方法找出关键短语常有的特征,利用这些特征得到相应的特征权重并完成对候选短语的最终评分。

候选短语的初级评分方法计算如下

(3)

其中,s(p) 是词组的评分;s(wj) 是单词wj的评分;|p| 是词组的长度。式(3)是当式(2)φ取1/|p| 的特殊情况。在传统的词组评分方式中,针对不同的数据集,实验性能最优时φ的取值具有经验性,且对于新的数据集没有经验可循。因此,在本文的方法中取φ=1/|p| 使之具有普适性。

特征定义是定义一些尽可能较好区分关键词和非关键词的特征。基于有监督关键词提取方法的特点,本文对候选短语选取总结以下特征:

(1)频率特征是候选短语在文档中出现频率相关的特征,常用的特征有词频tf,该特征指短语在给定文档中出现的次数,通常认为词频越高,其在文档中的重要程度越高,成为关键短语的可能性越大。

(2)位置特征则常用候选短语在目标文档中出现位置的分布、跨度等指标来衡量。出现在文档中特定位置的短语,如文档的开头、段落的开头等,相对于出现在其它位置的短语,更有可能成为关键短语。位置特征具有高效性,被广泛使用。

(3)长度特征指候选关键短语本身及其所在句子的长度。关键短语的长度通常小于等于3。

(4)候选关键短语的构成(如词性等)和候选关键短语所在句子的句法需满足特定的语言特征,如专有名词或特殊格式等。

本文在数据预处理阶段,根据语言特征和长度特征,已完成对数据的词性过滤,且在生成候选短语时抽取了一至三元的短语。因此,完成单词评分后,针对候选短语的词频特征和位置特征选取一些常用度量指标可以增加候选短语成为关键短语的可能性。由于本文的设计场景是单文本关键词提取,尽量不依赖于其它文本数据,所以本文只取词在单文本中出现的频率

Wtf(p)=tf(p)

(4)

其中,Wtf(p) 指词组p的词频权重;tf(p) 是词组p在文档中出现的次数。

位置特征有多个衡量指标,本文尝试选取候选短语出现位置的分布指标,有以下考量:数据是由标题和摘要整合在一起,位置特征不具备是否出现在段落开头、是否出现在标题中等条件,故用候选短语每次出现的位置作为权重,计算方法如下

(5)

其中,Wpos(p)指词组p的位置权重;posi(p)是词组第i次出现的位置,即词组p前面的单词个数;|d| 是文本长度。

最后,整合词组p的内含单词的评分、词频权重、位置权重计算词组p最终得分,方法如下

sfinal(p)=s(p)*Wtf(p)*Wpos(p)

(6)

传统的词组评分方式对单词的评分具有很强的依赖性,不同的单词评分方法最终得出的关键短语有差异。文中用关键短语在有监督方法中常有的特征,对候选短语进行权重计算,能减少候选短语对于单词评分结果的依赖,同时区分关键短语和非关键短语。

2 实验结果和分析

2.1 数据集

实验中使用3个科学出版物数据集KDD、WWW、SIGIR 全面评估本文的模型。KDD和WWW由(Gollapalli and Caragea 2014)提供,分别包含832、1347篇文章;SIGIR 由ACM信息检索研究与发展会议的866篇文章组成。每篇文章包括题目,摘要和作者手工标注的关键词,见表2。

表2 实验中使用的数据集

由表2可知,3个数据集有以下特征:①每篇论文平均有4个关键词;②所有论文中二元关键短语占多数,三元和三元以上的关键短语较少。

2.2 5个无监督单词评分方法

单词的评分是计算多元词组评分的前提。为了说明模型的有效性,本文选取了5种著名的无监督单词评分方法,具体介绍如下:

TF-IDF:最朴素的无监督方法,尽管方法简单,但提取效果好,是直接根据候选关键词的TF-IDF值对其进行打分排序。

TextRank:该方法首先用PageRank算法对词图中的候选关键词进行打分,其中边权重是共现次数,重启概率设为1,即r(w)=1。

SingleTPR:该方法在PageRank算法的基础上,首次使用LDA模型计算文档的主题分布并将候选关键词的主题信息融合到PageRank框架的重启概率中。

WordAttractionRank:首次引入词向量来增强单词之间的语义关联,与TextRank相比,同样修改的是PageRank框架的转移概率。

PositionRank:将候选单词在文档中每次出现的位置加入至PageRank模型中,对重启概率进行了修改。

2.3 评估指标

在关键词提取的性能评估指标中,广泛采取以下4种指标:准确率P、召回率R、F值、MRR对提取结果进行测评,其定义如下

(7)

其中,C代表正确提取出关键词的数目,E代表提取出的关键词的数目,S是作者标注的关键词的个数。

MRR衡量每个文档第一个被准确提取的关键词的排名情况,具体计算如下

(8)

|D|是目标文档集合,rd为文档d第一个正确提取结果的排序。

2.4 实验设置

为了验证文本方法的合理性,取传统的词组评分方式和Florescu C等的方法作为对比实验,以便下文叙述。传统词组评分方式命为sum(式(1)),mean(式(2)),Florescu C等的方法命名为mean*tf,本文方法命名为mean*tf*pos。在mean方法中,为了使方法具有对比性,取φ为1/|p|,实验结果见表3。

2.5 实验结果

因文中所使用的3个数据集里每篇文章的平均关键词个数为4(KDD的是4.08,WWW的是4.88,SIGIR的是3.81,见表2),故实验中取topk=4评估实验性能。

由表3可知,本文提出的mean*tf*pos方法明显优于其它3种词组评分方式。例如,KDD数据集中,TF-IDF的mean*tf*pos方法的F值达到了0.173,mean方法的F值只有0.115;WWW数据集中,TextRank的mean*tf*pos 方法的F值相对于mean方法提升了5%;此外5种单词评分方法的mean*tf*pos方法的F值在SIGIR数据集中相比较mean方法都大幅度提高,TextRank甚至高出了10个百分点。

表3 5种单词评分方法提取关键短语方法对比/%(top k=4)

2.6 实验结果分析

(1)实验中的评估标准较严格,提取出的关键词与标注中给出的关键词完全匹配才算一个正例,而非取词干后匹配即可,故提升难度较大。

(2)后两种短语评分方式因短语词频因素的加入显著提升了实验效果,可知利用词频有利于准确提取关键短语;

(3)进一步分析,当数据较少,短语词频可能相同的情况时需要探讨位置因素的作用。

统计3个数据集可知,短语词频集中于1次(54%)、2次(26%)、3次(15%),故后续实验选取上述3种频率以便分析这种情况。短语对比方法用mean*tf和mean*tf*pos。为方便比较,实验中取F值评估实验性能,结果见表4。

表4 不同频次下短语位置的影响(F值/%)

观察表4可知,在频次为2时,5种单词评分方法在加入位置因素后提取效果显著提升;在频次为1和3时,位置因素的作用有利有弊。如KDD数据集中,SingleTPR和WAR在频次为1的时候加入位置因素后效果没有单词频显著;SIGIR数据集中,WAR和PositionRank在频次为3的时候因位置因素的加入提升了提取结果。结合表3可知,本文的方法适用于候选短语频次不同的情况。

(4)分析单词评分的提取结果对抽取候选短语的影响。基于上述从短语统计层次着手进行的研究,现从单词的评分结果入手,认为对比短语的sum方法可以间接地评判单词评分的影响。sum方式是直接将短语包含单词的评分相加,不同的单词评分方式得到的单词评分截然有异。比较5种单词评分方法提取候选短语结果的F值,得图1。

图1 5种单词评分方法提取结果对比

观察图1可知,在3类数据集中,TF-IDF和PositionRank在sum方法及其它3种短语评分方法中F值均最高;在KDD和SIGIR数据集中,当SingleTPR和WAR在sum方法上的F值高于TextRank时,其在mean*tf,mean*tf*pos方法中F值略低于TextRank,但总体趋势不变。

3 结束语

关键短语作为科技文献的主题,相对于关键词更能体现作者的主体思想。本文针对传统关键短语提取方法受短语长度影响的缺点,提出了一种基于图的关键短语评分方法,虽然增加了提取文本关键词的复杂度,但获得了较高的准确率,有一定的应用价值。

本文方法在数据预处理阶段将标题和摘要整合在一起并且尝试在位置特征中选取候选短语每次出现的位置,但度量位置特征的指标非常广泛,未来可进一步选用其它指标检验所提出算法的有效性。

猜你喜欢
词频词组文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
词频,一部隐秘的历史
副词和副词词组
以关键词词频法透视《大学图书馆学报》学术研究特色
汉语音节累积词频对同音字听觉词汇表征的激活作用*