王小林,朱 磊,邰伟鹏
(安徽工业大学 计算机科学与技术学院,安徽 马鞍山 243002)
基于扩充词汇链改进的关键词提取算法
王小林,朱 磊,邰伟鹏
(安徽工业大学 计算机科学与技术学院,安徽 马鞍山 243002)
的准确提取在文本分类、文本聚类、信息检索等方面起着重要作用。现有的基于词汇链的关键词提取方法在计算词语相似度时,赋予第一类独立义原系数的值最大并且通过第一类独立义原相似度约束其他三类义原相似度;通过区域特征和词频提取关键词时,词语的权重依赖词汇链的长度,不能充分利用区域特征等问题。为了提高关键词的提取准确率,计算词语相似度时,用对比的两个词语每类义原个数的和与四类义原个数总和的比值大小排序后动态的获取系数取代固定系数,并且去除每类义原受到前面所有义原类的约束;提取关键词时,用词汇链的有效权重替代词汇链的长度。实验结果表明:改进后的算法较传统的算法提高了准确率。
关键词提取;区域特征;词语相似度;有效权重;词汇链;义原
信息时代不断的发展,信息内容呈现的方式成多样化,但是以文本呈现信息内容的方式依旧不可取代。随着网络上文本数据的不断增长,如果还靠人工去获取所需文本信息,那么将会耗费太多的时间和精力,如何提高文本信息的获取效率变得尤为突出。在对海量的文本数据进行处理时,研究人员从文本分类、文本聚类、信息检索等方面进行了大量的研究,发现了一个非常关键的问题,就是如何从文本中获取能简约概括文本信息的关键词。关键词能够具体的概括出文本所要表达的信息,使读者不必查看文本就能知道该文本是不是自己所需要的。而且,通过计算文本关键词的相关性度量[1],就能很快的对文本进行分类、聚类,因此,可以提高文本分类、聚类的效率。在信息检索方面,关键词的作用显得尤为突出,用户在搜索引擎中输入关键词,搜索引擎会向用户给出那些包含关键词的文章。国外对关键词研究的比较早,已经建立了一些实用和试验系统。Witten[2]采用朴素贝叶斯技术对短语离散的特征值进行训练,获取模型的权值,以完成下一步从文档中抽取关键短语的任务。Turney[3]设计的GenEx系统将遗传算法和C4.5决策树机器学习方法用于关键短语的抽取。
由于汉语本身没有词语边界这一特点,给关键词提取增加了一些难度。文献[4]提出了最大熵模型,当前关键词候选集合中的每一项都在一定程度上反映了文章的内容,因此,要计算每一候选项反应主题内容的程度大小,最大熵模型就是计算这个程度大小以获取关键词的基础,但是由于特征选取以及特征参数的估计不够准确,因此,在关键词自动标引中并不是太理想。文献[5]的关键词提取方法中,关键词的权重依赖于插值系数,由于插值系数受训练集影响太大,因此,结果不太理想。文献[6]提出的关键词算法,通过计算语义距离,不仅计算量大而且计算复杂,最后还要自定义一个阈值去提取关键词,阈值的高与低影响着提取的准确率,因此,局限性很大。文献[7]的关键词提取算法中所用到的词语相似度算法,给予第一独立义原最大系数,并且让第一独立义原约束其他义原,但是第一独立义原对词语只是一个大概的描述,起不到区分词语的作用,且由于原有的算法过于依赖词频,造成部分词频不是很高的,却是非常关键的词语,未能被标引出来。
文中正是针对文献[7]方法中出现不足提出的基于扩充词汇链[8]改进的关键词提取方法,该方法在计算词语相似度时,用对比的两个词语每类义原个数的和与四类义原个数的总和的比值取代固定系数,去除第一类义原约束,提取关键词时,用词汇链的有效权重替代词汇链的长度。通过实验该方法在准确率和召回率上有所提高。
1.1 词语相似度算法[9]
《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。《知网》中含有丰富的词汇语义知识和世界知识。在《知网》中有两个主要的概念:“概念”与“义原”。“概念”是对词汇语义的一种描述,每一个词可以表达为几个概念。“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的词汇叫做“义原”。“义原”是用于描述一个“概念”的最小意义单位。每个义原类别都是一个树状结构。文献[7]计算词语相似度的方法:对于两个汉语词语W1和W2,如果W1有n个义项(概念)S11,S12,…,S1n,W2有m个义项(概念)S21,S22,…,S2m,规定W1和W2之间的相似度是各个义项的相似度最大值,即
其中Sim(W1,W2)表示两个词语的相似度,Sim(S1i,S2j)表示两个词语中义项的相似度,这样就把两个词语的相似度计算归结到两个词语中义项的相似度计算上。由于义项由一系列义原构成,这样就把义项的相似度计算归结到义原相似度计算上。所有的义原根据上下位关系构成了一个树状的义原层次体系,通过语义距离计算相似度的办法来计算义原的相似度,即
其中P1,和P2表示两个义原,d表示两个义原在义原树上的距离,α为一个可调节的参数。
参照《知网》对实词义原的分析及分类,可以把实词的义原分为四类:第一独立义原描述式,将两个义项的这一部分的相似度记为 Sim1(P1,P2);其他独立义原描述式,将两个义项的这一部分的相似度记为Sim2(P1,P2);关系义原描述式,将两个义项的这一部分的相似度记为Sim3(P1,P2);符号义原描述式,将两个义项的这一部分的相似度记为Sim4(P1,P2)。
于是,两个概念语义表达式的整体相似度记为
其中βi是可调节参数(1≤i≤4),且β1+β2+β3+β4=1,由于第一独立义原反映了整个义项的主特征,所以第一独立义原的系数β1一般大于等于0.5。
1.2 改进的词语相似度算法
笔者认为,第一独立义原是对义项做了基础的解释,其表述该义项[9]所属的范畴,但是并不能阐述出义项的特征。随着对义项解释的不断深入,第一独立义原对整个义项的影响越来越低,并且与义原树的根结点的距离都比较近。因此,给四类义原分配固定的系数是不合适的。例如对“教师”的描述:
DEF=human|人,#occupation|职位,*teach|教,education|教育
由上述DEF可知,首先,教师是属于“人”的范畴,并且与“职位”相关,是给其他同属于“人”这个范畴的对象实施“教”的,最后还和“教育”有关。随着解释的慢慢深入,把教师这个词语的特征慢慢的表露出来。与第一独立义原相比,后面三个义原就成为“教师”区别于其他同属“人”这个范畴的关键性因素。如果此时还是给予第一独立义原最大系数的话,那么后面“#occupation|职位,*teach|教,education|教育”这三个义原所属的义原类就不能获得较大的系数,使得这些能突显教师特征的义原类的相似度值很小,使得教师与其他“人”这个范畴的实体无法区分开来。另一方面,《知网》要求第一独立义原能够最大的体现出这个义项的含义,但是有些往往与人们的主观意识不相符,比如“钻石”的描述:
DEF=material|材料,?tool|用具,#decorate|装饰,precious|珍
钻石给人的第一印象就是一种珍贵的饰品,但是《知网》给出的第一独立义原却是“材料”,和人们平常的认知有很大的出处,反而“precious|珍”更加的符合人们平常的认知。
去除义原之间的约束,改进的义项相似度计算公式为
其中βi={0.4,0.3,0.2,0.1},每类义原系数βi的值是根据两个义项每类义原个数总和占四类义原比值,然后根据比值从高到低的排序从βi={0.4,0.3,0.2,0.1}中获取相对应的值。对于一些特殊情况做出如下规定:如果四类义原占比一样,那么默认给予第一独立义原最大系数值,其他三类义原随机获取;如果出现某一个义项某类义原没有,那么当其他类义原获取完系数后,把最后那个系数平均到其他三类义原系数上;如果只有第一类独立义原那么系数βi的值就为1。
2.1 扩充词汇链的构建
文中词汇链的构建方法是在文献[7]的基础上进行了扩充。原方法中只提取了名词作为备选关键词,笔者觉得不太合理,因为有些词语既是名词也是动词,在很多文本内容中充当着关键词的角色,所以文中采用名词和动词作为关键词的备选关键词。
词汇链构建的具体方法是:从备选关键词中,选出一个词,建立一个词汇链,然后从集合中提取出一个词与词汇链中每个词作对比,相似度大于或等于阈值就插入到词汇链中,小于阈值的就以该词语新建一条词汇链,往复循环,直到集合中的词语插入完为止。
2.2 文本关键词选择方法
文章不同的区域具有不同的功能,某些区域的词语具有特殊的价值,是选择关键词的重要区域。文献[7]提出如下关键词选择方法
其中,weighti表示第i个词语的权值;frei表示第i个词语的词频因子;loci表示第i个词语的区域因子,一般地,当词语i出现在标题中时,loci=5,否则loci=1;|chaini|表示第i个词语所在词汇链的词汇数目(词汇链长度);|headi|表示第i个词语所在词汇链中包含标题词的数目。a、b、c是frei、loci、|chaini|之间的调节因子,一般为1。
根据公式(5)计算出每个词语的权重,按照递减排序,最后从词汇链中依次选取关键词汇,直至关键词汇的数目达到要求为止。
2.3 改进的文本关键词选择方法
一篇文章中每个区域都有自己的职能,比如摘要是对文章的精炼,关键词表达文章的主题,结论是对文章的总结。文献[10]统计表明从标题和摘要中提取关键词,则可达到人工标引的74.68%,所以该文关键词提取方法中每个词语的权重更倾向于通过累加词汇链中那些存在于标题、关键词、摘要、结论中的词语的个数与自身权重的积得到。在处理词汇链长度时,只获取出现在特征区域词语的数目,忽略那些非特征区域的词语,因此,提出了有效权重,有效权重就是为了防止词汇链中没有特征区域的词语,但是通过加上词汇链的长度,增加了自身的权重,对最后的关键词提取造成偏差,所以文中的方法会对标题、摘要、关键词、结论这四处区域的词语增加它们的权重,如公式
weighti=frei+loci+0.4×(|headi|×5+(|abstracti|+|keywordi|+|conclusioni|)×3)+|effectiveChaini| (6)其中,weighti表示第i个词语的权重,frei表示词语i的频率;loci表示的是位置权重,一般地,在标题处loci=5,在摘要、关键词、结论处loci=3,其他处则为1;headi、abstracti、keywordi、conclusioni分别表示词语i所在词汇链中出现在标题、摘要、关键词和结论处的个数;0.4是构建词汇链时的阈值;|headi|×5+(|abstracti|+ |keywordi|+|conclusioni|)×3表示词语i所在的词汇链中出现在标题、摘要、关键词、结论处词语的个数与其权重积的和。|effectiveChaini|为有效权重,是该词汇链包含标题、摘要、关键词、结论处词语的个数。根据公式(6)计算出每个词语的权重,然后按照递减排序。从词汇链中选取词汇,直到达到要求的关键词个数为止。
3.1 词语相似度改进算法的结果与分析
因为文献[7]采用的就是文献[11]的词语相似度算法,为了便于对比结果,所以直接从文献[11]选取一些实验结果,第三列为文献[11]中的实验结果,第四列为公式(4)的实验结果。其对比结果见表1。
表1 文献[11]与公式(4)词语相似度对比结果
男人的描述:DEF=human|人,family|家,male|男
母亲的描述:DEF=human|人,family|家,female|女
从“男人”和“母亲”的描述可以看出,这两个词语的唯一区别来自于第二类义原中的“male|男”和“female|女”,由于它们的第一独立义原相同,根据文献[7]的算法,第一类义原具有最大系数而且还约束其他义原,这就造成了相似度值相当的高,达到了0.833,与实际不符。
深红的描述:DEF=atribute|属性,color|颜色,red|红,&physical|物质
粉红的描述:DEF=aValue|属性值,color|颜色,red|红
从第七行结果看出根据文献[7]中方法“深红”和“粉红”相似度很小。因为这两个词语的第一类独立义原完全不相同,造成第一类独立义原相似度很低,而且还让第一类义原约束其他类义原,这就是造成这两个词相似度低的原因。反观根据文中算法得到的结果0.466,因为是根据每类义原在两个词语中占得比例来分配系数的值,也不让第一类义原去约束其他义原,所以文中的词语相似度算法更符合实际。第十二行中的词语“走”和“跑”每个义项都只有第一类独立义原,因此,第一独立义原就能充分说明该义项的特征。由于没有其他类义原,那么再给予其他类义原系数就没有意义。文献[7]的方法缺少对只有第一类独立义原的考虑,结果为0.222,与实际不太相符。文中方法得到的结果0.444,相较于文献[7]方法的结果提高了一倍,因此,用对比的两个词语每类义原个数的和与四类义原个数的总和的比值替代固定系数,结果更加贴近实际。
3.2 改进的文本关键词提取方法的结果与分析
以《体育科学》中一篇名为《广东省高校高级知识分子体育参与特征研究》为例。分词工具使用的是中科院计算机研究所的ICTCLAS,该分词系统具有中文分词、词性标注等功能。
对文章分词后,动词和名词总共352个,为降低计算时的复杂度以及提高计算的速率,以1∶2的比例挑选出现频率最高的前20个词语作为候选词进一步处理。先根据文献[11]中的公式(3),阈值设置为0.3得到的词汇链,再根据公式(5)提取的关键词为:体育、知识分子、活动、高校、年龄、选择、研究、特征、消费、人口。
根据文中的词语相似度算法公式(4),阈值设置为0.4,构建词汇链,再根据公式(6)提取的关键词为:体育、知识分子、活动、年龄、高校、选择、研究、进行、特征、参与。具体结果见表2。
表2 提取的关键词的频率与权重
从文章的题目可以得出该篇文章讲的是对广东省高校的高级知识分子参与体育活动特征的研究,从文献[7]算法提取出来的关键词中,只能得到:高校、知识分子、体育活动、特征、研究。但是从文中改进的算法中可以得到:高校、知识分子、参与、体育、活动、特征、研究,明显与标题的语义关系更加贴近。再看通过文中方法提取关键词结果的最后一行,“参与”为关键词但是其词语的频率只为9,文中方法把词频低但却是关键词的词语提取出来,较原文的方法好了很多。
按照上述过程,从复旦大学语料库提取经济、教育、体育、环境、科技各20篇文献,从每类中选取10篇作为训练集,用来确定构建词汇链时的阈值s。把s设置为0.3、0.4、0.5、0.6、0.7分别统计获得的词汇链数目,再根据关键词提取的召回率,确定最佳的相似度阈值为0.4。
为了验证文中算法的有效性,将剩下的经济、教育、体育、环境、科技50篇文献按照方法2.2与方法2.3进行对比实验。利用准确率和召回率来评定自动提取关键词的结果,公式为
表3列出了文献[7]的词汇链提取关键词算法和文中改进的词汇链提取关键词算法的结果对比。
表3 关键词提取结果对比
从表3中可以看出,文中改进的算法较文献[7]中的算法在召回率上有9%提升,在准确率上有10.7%的提升。进一步,通过对文献的分析,发现基于扩充词汇链改进的关键词提取算法存在的问题有以下几个方面:分词方面受到分词系统ICTCLAS影响较大,ICTCLAS把“中美”切分成“中/b”、“美/b”,显然拆分后的词语不是关键词,但是手动标引“中美”却是关键词。这个问题在所有利用分词系统的方法中都会存在,因此,要解决此问题,必须提高分词系统的新词与未登录词的识别能力。
词语相似度的阈值设置对词汇链的构建影响较大。构建词汇链时的主要依据还是阈值,阈值大了,词汇链过多,每条词汇链中的词数会很少;阈值小了,词汇链过少,每条词汇链的词数会过多。因此,定义阈值的大小显得尤为重要,解决的办法就是自定义一个或者根据训练集获取一个。
文中提出的基于扩充词汇链改进的关键词提取方法,每类义原系数βi的值是两个义项每类义原个数总和占四类义原比值,然后根据比值从高到低的排序从系数集合中获取相对应的值。
但是在计算词语相似度时,只考虑了上下位关系,在提取关键词时,先依据词频选取词语,构建关键词备选集合,这会忽略某些频率低,但却是关键词的一些词语。在后续研究工作中笔者将研究同义关系以及反义关系,提高词语相似度计算的准确率,在构建词汇链时,使词汇链的数目以及每条链中词数达到较好的标准,再结合网络节点中心度理论,提取出那些词频低却是关键词的词语。
[1]王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4.
[2]WITTEN I H,PAYNTEER G W,FRANK E,et al.KEA:Practical automatic keyphrase extraction[C]//The 4thACM Conference on Digital Libraries California,USA:ACM Press,1999:254-256.
[3]TURNEY P D.Learning algorithms for keyphrase extraction[J].Information Retrieval,2000,2(2):303-336.
[4]李素建,王厚峰,俞士汶,等.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197.
[5]张建娥.基于TFIDF和词语关联度的中文关键词提取方法[J].情报科学,2012,30(10):1542-1545.
[6]姜芳,李国和,岳翔.基于语义的文档关键词提取方法[J].计算机应用研究,2015,32(1):142-145.
[7]索红光,刘玉树.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30.
[8]王良芳.文本挖掘关键词提取算法的研究[D].杭州:浙江工业大学,2013.
[9]杨林.基于文本的关键词提取方法研究与实现[D].马鞍山:安徽工业大学,2013.
[10]刘开瑛,薛翠芳,郑家恒,等.中文文本中抽取特征信息的区域与技术[J].中文信息学报,1998,12(2):1-7.
[11]刘群,李素建.基于《知网》的词汇语义相似度计算[C]//第三届汉语词汇语义学研讨会论文集.台北:[s.n.],2002:59-76.
An improved keyword extraction algorithm based on extended lexical chains
WANG Xiaolin,ZHU Lei,TAI Weipeng
(School of Computer Science&Technology,Anhui University of Technology,Ma’anshan 243032,China)
Keyword extraction plays an important role in the text classification,text clustering and information retrieval.In calculating word similarity,the conventional keyword extraction method based on lexical chains gave the first class independent sememe coefficient the maximum value and restrained the other three sememe similarity through the first independent sememe similarity.In extracting keywords through the regional characteristics and word frequency,it could not take advantage of regional characteristics because of the over-reliance of word weight on lexical chain length.In order to improve the accuracy of keyword extraction,in calculating word similarity,we obtained the coefficients dynamically based on the ratio sorted from the largest to the smallest of the sums of the number of each sememe category of the two words to the sums of four categories of sememes instead of fixed coefficients.And we also removed the restraint of each sememe from the primitive types.In extracting keywords,we replaced the length of lexical chains with their effective weight.Experimental results show that this algorithm has improved the accuracy.
keyword extraction;regional characteristics;word similarity;effective weight;lexical chain;sememe
责任编辑:艾淑艳
TP368.1
:A
:2096-3289(2017)02-0049-06
2015-06-27
国家自然科学基金资助项目(61402009)
王小林(1964-),男,安徽安庆人,教授,硕士生导师,研究方向:人工智能,中文信息处理。