基于词共现的关键词提取算法研究与改进

2018-03-22 01:31和志强
电子技术与软件工程 2018年1期
关键词:词频语义词汇

关键词提取是文本挖掘领域中的核心技术之一,然而在大多数关键词提取方法中尚没有一种针对政策文本关键词提取的算法。本文对比分析了两种普遍用于中文文本关键词提取的方法,并结合政策文本自身具有的成文特征提出一种基于共现词的政策文本关键词提取方法。经实验验证该方法在政策文本关键词提取方面比其他两种算法性能更好,抽取的关键词基本符合实际需求。

【关键词】关键词提取 词频统计 词共现 位置信息

1 引言

随着网络技术的发展,大数据时代来临,各种文本信息迅速增加。面對不断更新且数据量巨大的文本数据,人们需要大量时间去搜索自己关注的内容。关键词在一定程度上概括了一篇文章的主题和内容。通过关键词也可以方便的将文本信息进行分类,提高查阅文献的效率。

目前文本关键词抽取方法大致分为三类:基于统计信息的关键词提取,基于词相关性的关键词提取,基于语义的关键词提取。TF-IDF算法是目前普遍被采用的基于统计信息的关键词提取算法,但该方法需要对每个候选词进行词频统计,影响提取效率。而且该方法可能将低频词错选成关键词;词共现是基于词语相关性的关键词提取的一种。根据词共现模型,几个词语经常在同一窗口单元中出现多次,则他们在一定程度上表达了该文档的语义信息,能进一步够表达作者的主题思想。但是这种方法会导致关键词提取单一化;基于语义的关键词提取方法一般通过词语间的语义相似度来构建词语网络并结合词典进行关键词提取,但是由于一般用于关键词提取的词典都具有一般性,在针对特定的领域文本关键词提取时效率不高。

本文以词频统计及词共现为基础结合政策文本本身具有的特征提出一种适合政策文本关键词提取的方法。

2 关键词提取算法

2.1 TF-IDF

TF-IDF是经典的基于统计的关键词提取算法。通过TF-IDF计算出词t在文本D中的权重来表示其重要程度,按权重大小排列取权重较大的一些词作为关键词。权重W计算公式如下:

2.2 词共现模型

该类算法是建立在词频统计算法的基础上,将词语及其语义关系映射到词语共现图上,利用在词共现图上形成的主题信息和不同主题之间的连接特征信息,自动的提取文档中的主题词,主要目的是找出一些非高频并且对主题贡献大的词作为关键词。词共现算法是建立在词频统计算法的基础之上,自动的提取文档中的主题词,主要目的是找出一些非高频并且对主题贡献大的词作为关键词。

在自然语言文本中普遍存在词共现现象,而在特定的某一类文本中这种现象更加明显。词共现即某些相关词汇会出现在一定的文本范围内,本文将该范围规定为一篇文章内,相关词汇比单个高频词汇更具有代表性,更能代表文章的内容和思想。在文本集中,任意的两个词多次出现在多个文本范围内都可被认定为共现词,词条t1与词条t2可组成共现词对(t1, t2)。现在我们引入共现度来评价词条t1与词条t2的语义相关性。共现词对的相关性越大就越能表示该共现词对在文章中越重要。共现词对(t1, t2)的共现度计算公式如下:

3 基于共现词的政策文本关键词提取方法

通过词频统计得到的关键词有一定程度的偏差,很多高频词汇对文章的表述没有实质性意义,可以通过同现词找出一些低频却具有代表性的词汇。然而在计算共现度时,两个加权系数α和β的取值至关重要。目前一般的取值是α=β=0.5,这样并不具有针对性。

本文通过大量观察政策文本成文规律得到以下几点特征来具体调整共现度计算公式中系数的值。下面给出从待测样本集中随机抽取的一篇政策文本的截图如图1所示。

(1)在一般文本中很少有类似政策文本章节体的结构,很多政策文本的主题内容会在标题(包含二级及以下标题)内得到有效概括,因此我们规定在分别计算关键词t1,t2的条件共现度时,计算出t1,t2和标题Title的相似度sim1,sim2,相似度算法使用Jaro-Winkler Distance算法。关键词与标题相似度越高越具有代表性。

(2)根据政策文本通常会在首段或文章前部总结提出本文主要思想,所以我们把关键词t1,t2距离文章开始的字符数记录下来即d1,d2。距离计算以关键词在文章中第一次出现的位置为准。即d越大,关键词t离文章首段或前部越远越不具有代表性。

根据以上两点可取,。这样可将更具有代表性的共现词对提取出来。则公式(2)可改进为:

政策文本关键词提取具体分四大模块即文本预处理模块,通过词频统计计算权重模块,共现词对共现度计算模块,关键词提取模块。关键词提取具体步骤如下:

(1)文本预处理模块:将文本集使用分词器进行分词得到分词词库,并根据停用词库自动过滤去除掉一些常见的无意义的虚词和名次等。本文使用的分词器是IK Analyer分词器,IK Analyer是一款开源的,基于java语言开发的轻量级中文分词包,可以有效的实现简单的分词歧义排除等功能。停用词典采用“哈工大停用词库”。

(2)词频统计模块:首先对词汇进行词频统计,并记录对应的文章及相应词条的信息,如在文章中所处位置d1,d2和高频词汇与该篇文章标题的相似度sim1,sim2。本文取每篇文本中出现两次及以上的词条进行权重计算得到带选词库K,并将处理后的词汇按权重高低排列。

(3)共现词关键度计算模块:将词库K中的词汇根据公式(6)计算两两之间的共现度C(t1,t2)并根据词汇共现度大小是否超过均值进行连边构成共现图。最后根据公式(5)计算每个节点的关键度,并将关键词按关键度大小排列。

(4)关键词提取模块:在词频统计词库K中选取词频较高的一部分作为关键词库key1,在K中再次计算共现度选取关键度最高的前n个词汇作为关键词库key2。则得到关键词库。

4 实验结果与分析

本文实验基于Windows 7操作系统,采用Eclipse编译环境进行验证试验。实验使用Java语言基于JDK1.8进行编程,使用Sql Server 2008进行数据储存。

4.1 实验评估标准

通常情况下,对关键词提取算法的评估是将算法自动提取的关键词与人工定义的关键词进行匹配比较,实验中以专业读者给出的关键词为准。同时由于关键词与给出的标准答案可能不会完全相同但语义相近,所以我们采取相似度匹配的方式,将同义的词条也认为匹配成功。基于语义的评估可使评估方法更加合理。

评价标准采用信息检索中常用的查准率Precision(记为P)、查全率Recall(记为R)以及综合指标F对关键词提取算法进行评价。三者计算公式如下:

其中,x为关键词提取算法正确提取的关键词个数;y为算法提取的所有关键词的个数;z为人工赋予关键词的个数。

查准率和查全率反映了关键词提取性能的两个不同方面,两者的关系是相互制约的,可以通过降低查全率来提高查准率,反之亦可。单独的提升一个指标是不可行的。综合指标F的提出很好的综合考虑了这两项指标,其值越高代表关键词提取的性能越好。

4.2 实验数据准备

本文的实验的数据是通过网络爬虫在中国人力资源和社会保障部上政策法规模块下的创业就业,社会保障,人才队伍建设,人事制度改革,工资收入分配,劳动关系六个栏目中抓取共2410篇文章,具体信息如表1所示。

为使实验结果更具普适性,我们将实验文本数据分为两组,第一组由创业就业、社会保障、人才队伍三类文章组成,第二组由人事制度、工资收入、劳动关系三类文章组成。

4.3 实验结果分析

分别使用TF-IDF算法,基于共现词的关键提取算法,加上位置信息及与标题相似度后的共现词提取算法对实验文本进行关键词提取。对第一组文本数据进行实验的结果如表2所示。

第一组数据抽取关键词个数不同情况下三种关键词提取算法的查准率P如图3所示。

第一组数据抽取关键词个数不同情况下三种关键词提取算法的查全率R如图4所示。

对第一组数据抽取关键词个数不同情况下三种关键词提取算法的综合指标F如图5所示。

对第二组文本数据进行实验的结果如表3所示。

从表2和表3实验结果对比可知两组数据实验结果的查准率P和查全率R规律类似,对第二组数据实验三种算法综合指标F如图6所示。

由表2、图5与表3、图6对比可知,根据政策文本特征改进后的关键词提取算法提取性能普遍要高于词频统计和共现词两种关键词提取算法的提取效率。将两组实验的综合指标取均值后仍符合以上规律,且当抽取关键词小于等于10个时,三种关键词提取算法都是在提取关键词为6个左右时综合指标F达到最高,所以政策文本抽取关键词以6个较为恰当。

5 总结

本文首先分析了两种常用的关键词提取算法,TF-IDF和基于共现词的关键词提取算法。并对比分析了两种算法对于政策文本关键词提取的不足。在基于共现词关键词提取的算法基础上结合政策文本特殊的成文特征,改进了共现度计算公式。实验表明改进后的关键词提取算法在效率上有了明显提高,更适用于政策文本的关键词提取。本文在构建共现图时,规定词汇共现度超过该片文章中所有待选词的共现度的均值即可连边,如何选取恰当的共现度阈值来限制节点连边是一个值得研究的方向。本文中规定共现词出现的最小范围为一篇文章,缩小或者扩大共现词最小范围对关键词提取有何影响也是一个值得研究的方向。

参考文献

[1]王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(01):1-4.

[2]罗燕,赵书良,李晓超等.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(03):718-725.

[3]唐守忠,齐建东.一种结合关键词与共现词对的向量空间模型[J].计算机工程与科学,2014,36(05):971-976.

[4]杨林.基于文本的关键词提取方法研究与实现[D].安徽工业大学,2013.

[5]张建娥.基于TFIDF和词语关联度的中文关键词提取方法[J].情报科学,2012(10):110-112+123.

[6]蒋昌金,彭宏,陈建超等.基于组合词和同义词集的关键词提取算法[J].计算机应用研究,2010,27(08):2853-2856.

[7]袁明.基于隐性主题模型和新词发现的关键词抽取研究[D].北京邮电大学,2014.

[8] 郭建波.基于词共现的关键词抽取算法研究[D].合肥工業大学,2015.

[9] 时永宾,余青松.基于共现词卡方值的关键词提取算法[J].计算机工程,2016,42(06):191-195.

[10]方俊,郭雷,王晓东.基于语义的关键词提取算法[J].计算机科学,2008,35(06):148-151.

[11]王良芳.文本挖掘关键词提取算法的研究[D].浙江工业大学,2013.

[12]王锦波,王莲芝,高万林等.一种改进的朴素贝叶斯关键词提取算法研究[J].计算机应用与软件,2014(02):174-176.

[13]梁伟明.中文关键词提取技术[D].上海交通大学,2010.

[14]秦鹏,李恒训,张华平等.基于关键词提取的搜索结果聚类研究[C].全国信息检索学术会议.2009.

[15]赵小宝,张华平.基于迭代算法的新词识别[J].计算机工程,2014,40(07):154-158.

[16]梁伟明.中文关键词提取技术[D].上海交通大学,2010.

作者简介

和志强(1972-),男,博士学位,教授。现为河北经贸大学信息技术学院硕士生导师。主要研究方向为数据挖掘、高速数据采集。

王丽鹏(1991-),男,硕士研究生。主要研究方向为数据挖掘。

张鹏云(1982-),男,硕士学位。现为河北经贸大学信息技术学院讲师。主要研究方向为数据挖掘、高速数据采集。

作者单位

河北经贸大学信息技术学院 河北省石家庄市 050061

猜你喜欢
词频语义词汇
基于词频分析法的社区公园归属感营建要素研究
本刊可直接用缩写的常用词汇
一些常用词汇可直接用缩写
语言与语义
本刊可直接用缩写的常用词汇
“上”与“下”语义的不对称性及其认知阐释
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
认知范畴模糊与语义模糊
以关键词词频法透视《大学图书馆学报》学术研究特色