基于CiteSpace的国内外关键词提取技术研究态势分析

2021-03-11 03:35王霄汉
电子技术与软件工程 2021年21期
关键词:学者聚类领域

王霄汉

(北京工业大学 北京市 100124)

1 引言

随着人工智能的飞速发展,关键词提取技术已成为自然语言处理领域中的关键一环。早期的关键词提取依赖于专家评定和人工标注[1]。随着人工智能的不断发展,自动化关键词抽取技术有了很大进展,但目前的提取性能与人工提取结果相差甚远。文档自动标引方法是关键词抽取研究的开端,学者将此技术引入到中文关键词提取领域。在第一个自动关键词抽取系统实施后,包括中国在内的大量科研力量投入到这一领域,并逐步形成了基于统计学、语言分析、人工智能等多种现有技术体系[2]。目前,该领域的研究成果比较丰硕,但总体研究情况还没有理清。本文以关键词抽取相关文献为研究对象,结合CiteSpace 可视化分析,梳理其演变、应用热点和研究趋势。

2 数据来源与研究方法

2.1 数据来源

Web of Science 数据库收录了中外近万种学术期刊,使其成为国际上颇有影响力的文献数据库。本文在WebofScience 数据库中使用检索式TS = ("keyword extraction" OR "feature extraction algorithm" OR "information extraction algorithm" OR "keyword extraction algorithm"),以1997-2021年为跨度,选择期刊、会议、硕士、博士论文作为文献类型。共收集有效文献资料3907 份,由于CiteSpace 分析Web of Science 数据库时有特殊格式要求,因此以纯文本格式输出,并导入CiteSpace 中转换,即可分析数据。

2.2 研究方法

作为信息可视化领域最先进的文献计量分析软件之一,CiteSpace 由费城德雷塞尔大学陈超美教授开发[3]。CiteSpace 能够在特定的时空维度上揭示知识发展过程与结构之间的关系,揭示知识的演化过程,呈现宏观及微观的研究状况[4]。通过对3907 篇与关键词抽取相关的文献进行分析,本文主要分为两个部分:第一部分是关键词提取技术的时空知识图谱处理结果及分析,包括关键词抽取研究技术的时间分布、空间分布(从宏观的国家分布及合作关系到逐渐细化的机构分布及合作关系,作者分布及合作关系);第二部分是研究领域热点、前沿知识图谱分析及发展趋势预测,包括该领域的研究热点演化分析、前沿关键词分析及研究方向预测。

3 关键词提取技术时空知识图谱处理结果及分析

3.1 时间分布

通过检索Web of Science 数据库,1997年至2021年与关键词提取技术相关的文献数量如图1所示。在20世纪末,研究人员使用无监督学习的TF-IDF 算法提取关键词。随着学者在这一领域研究的不断深入,1999年引入了有监督分类学习方法,即创建具有关键字特征的分类器,利用二值分类的思想判断文本中的关键词,关键字集将是关键字提取的结果[5]。随后,在2013年左右,学者将朴素贝叶斯方法引入到分类器的构造中,在一定程度上推动了全球对关键词提取的研究。该方法主要运用决策树算法、朴素贝叶斯算法、支持向量机等[6],在网页内容分析和论文关键词识别等领域呈现出明显的增长趋势,为后续的关键词提取技术奠定了基础。2017年,学者提出了PositionRank 算法,关键词抽取研究已经进入了一个新的高峰[7]。而2018年10月由Google AI 研究院提出一种预训练模型BERT(Bidirectional EncoderRepresentations for Transformers),其在机器阅读理解顶级水平测试中表现出了优秀的成绩,对关键词提取来说有了新的突破。总体而言,2019-2020年内论文数量继续飞速增长,2008-2020年的研究成果比1997-2007年高出近20 倍。

图1:文献数量图

3.2 空间分布及合作关系

空间分布主要从国家,机构,作者三个方面从宏观到微观来分析关键词提取技术的研究分布情况。

3.2.1 国家分布及合作关系

在分析关键词提取研究的国家分布中,在CiteSpace 生成国家间合作图和统计结果。结果N=101(网络中的节点),E=305(网络中的边),density=0.0604(网络密度),国家间的合作频繁且密集,显示出多个国家在该领域进行多边合作。发文量前五位为:美国占575 篇,中国565 篇,印度223 篇,日本199 篇,英国164 篇。中国虽然不是关键词技术的创始国,但是逐渐追上美国的步伐,和美国发文量几乎齐平。然而通过突现值检测(可以体现出“突然出现”这一趋势)可得,排名前三的是:日本(22.56),美国(11.32)和英国威尔士(4.71),日本和美国仍然是该研究领域的领跑者,一直有突变性的技术(谷歌的BERT);而从中心值检测可得,排名前三的是英国(35),美国(33)和加拿大(27),三国在该研究领域网络中的中心性相对较强,是其他国家在该领域研究的参照和榜样;而sigma 值代表突现值和中心度的综合度量,排名前三的是美国(0.36),英国(0.31)和加拿大(0.17),可得三国在该领域研究的重要性和革新性。

3.2.2 机构分布

分析学术团体和机构对关键词提取技术的研究,在CiteSpace种生成机构间合作图和统计结果。结果N=636(网络中的节点),E=230(网络中的边),density=0.0011(网络密度),可得关键词抽取领域的研究人员比较分散,不同机构之间的合作较少,即使合作,机构之间的合作也表现出明显的区域特征。

而在统计教育机构发文量中,多伦多大学位于首位,发文数量为26 篇,北京邮电大学发文量为20 篇,中国科学院大学有18 篇。在教育机构合作图谱中以加拿大多伦多大学发文数量最多,加拿大教育机构对关键词提取建设研究处于领先地位,其中教育机构建立的关键词提取以学术型关键词提取为主。通过突现值检测可得,排名前三的机构为哈佛大学(5.15),北京邮电大学(5.07)和佛罗里达大学(4.68),三者仍然是该研究领域的领跑者,一直有突变性的关键词提取技术;而从中心值检测可得,排名前三的约翰霍普金斯大学(15),多伦多大学(13)和哈佛大学(9)在该研究领域网络中的中心性相对较强,是其他机构在该领域研究的标杆。因此,上述科研单位在这一领域投入了更多的科研力量,也取得了很强的影响力。

3.2.3 作者分布及作者合作关系分析

通过CiteSpace 分析关键词提取技术的代表作者,生成机构间合作图和统计结果。结果N=758(网络中的节点),E=252(网络中的边),density=0.0009(网络密度),说明关键词抽取领域的研究人员极度分散,不同学者之间的合作很少,即使合作,学者之间的合作也表现出明显的区域特征。共引数排名前十得大部分作者为国外学者。其中排在前三学者有HY LIU(7),ADITI SHARAN(6)和BASILIS GATOS(5),这些作者构成了世界相关领域的重要研究队伍。虽然发文量第一的是中国学者HYLIU,并且是唯一一个具有极高突现值(4.00)的学者,其在该领域的创新性极强,但是中国学者对国外关键词提取技术的合作极少,如图2,HYLIU 只是和另外一个中国学者HZHANG 相互合作,而发文量排名前三的学者也均与另外一个人合作(如图2中的ADITISHARAN 和SIFATULLAHSIDDIQI,BASILISGATOS 和GEORGERETSINAS),并没有完整的合作关系网。因此还未能发挥各国作者关键词提取在国际交流与合作中的作用,而加强关键词提取间的学术交流也是缩减劣势国关键词提取发展与国外关键词提取发展差距、提高关键词提取建设质量的主要途径之一。而中心值检测方面,SOPHIE GRIGORIADIS 的中心值最高(10),并且有多人以他为核心来进行合作,说明其是在该领域如此分散的学者合作关系之间少有的善于交流的学者,即使和他合作的学者也有同区域的特征。

图2:作者分布图谱(部分)

4 研究热点、前沿知识图谱分析及发展趋势预测

4.1 研究热点演化分析

在CiteSpace 中将“关键词”作为网络节点运行,可得关键词提取领域的热点词。从突现值检测排行中,剔除排名前2 的由于数据收集过程中进行文献搜索所使用的关键词“keyword extraction”和“feature extraction”,可以发现tfidf(4.44),自然语言处理(4.31),深度学习(4.25),textrank(3.26)算法的突现值很高,这也正是学者们经常所用的关键词提取的方法算法(CiteSpace 本身就用到tfidf 算法),对关键词提取技术来说十分重要。

表1是通过CiteSpace 聚类得到的13 个关键词聚类,其中轮廓越接近1 说明聚类越准确。聚类不光能更集中地验证上文所述的研究热点,还能指出一些研究热点在不同领域方面的具体应用,大多数聚类都是计算机相关的应用。此外,出现了一些轮廓值高的聚类比如出现的聚类12 是外科学的应用,聚类6 是搜索引擎的应用,以及聚类10 是作诗方面的应用,因此也不能忽视关键词在这些非计算机类的领域的应用以及推广。

表1:关键词聚类

4.2 前沿关键词分析

在CiteSpace 中输入3.2 中数据进行突现词检测分析可得,在2000年,突现词主要为“文本分类”,“特征权重”和“古诗生成”等,此时基于自然语言处理技术的自动化关键词提取技术还未发展,因此此类研究依赖专家评定打分等方式,是关键词提取技术的雏形。随后,在2005年时,突现词 “特征选择”,“聚类分析”和“TFIDF模型”等词出现,关键词提取技术正式进入自动化阶段,与人工智能领域开始结合,飞速发展。随后,2015年左右出现突现词“词向量(word2vec/doc2vec)”,“主题模型”和“语义相似度”等,说明关键词抽取技术已从传统的统计学方法发展到到基于初级语义理解的方法。其中,LDA 主题模型应用十分广泛[8],在文本相似度、微博/推特等短文本的关键词抽取、文本话题演变分析、文本分割等领域效果极佳,成为关键词提取相关技术的新思路[9]。

而2020年到2021年的最新突现词,由图3可知,在关键词提取技术的应用方面,包括“规律识别”,“聚类分析”,“信息提取”等技术的应用,可得在最新的关键词提取技术的应用中,这些难度更高的方面已经被涉及;在关键词提取技术的方法方面,包括“tfidf”,“textrank”,“自然语言处理”,“深度学习”,“word2vec”等方法,可得在2021年这些前沿性的算法在关键词提取技术中的应用效果优秀,受到学者广泛认可;而社会网络分析方面,“推特”,“情感分析”,“搜索引擎”等突现词清晰可见,可得学者已将关键词提取技术应用于推特或者新浪微博的文本挖掘方面内容,对分析突发事件的公众舆情及情感起到重要作用[9]。此外,关键词提取技术的革新也造福了搜索引擎,如在进行学者-论文匹配时,可有效提升其准确率与召回率。

图3:突现关键词

对前沿突现词检测进行分析可得,当前关键词抽取技术研究的3 个前沿方向为:

(1)提高语义理解能力并实现情感分析的突破。如tf-idf 算法中idf 的简单结构并不能使提取的关键词十分有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能。此外,此算法倾向于文本中频率小的词,这使得tf-idf 算法的精度不高。因此,后续关键词提取算法应当从语义理解能力入手,突破文本的情感趋向会成为研究热点。

(2)基于多种方法的融合,提高了关键词提取的准确率。每种提取算法基于不同的因素。一种方法很难得到最佳的提取效果。因此,关键词提取必须融合多种提取方法。目前最先进的提取方法是多种方法的加权叠加,或者将一种方法的输出作为另一种方法的输入,得到相对准确的提取结果[10]。

(3)新型模型探索,比如云计算、BERT、知识图谱的节点向量化聚类(如node2vec,Deepwalk 或者LINE 算法)等。从突现词检测中发现,这类研究相对稀缺,因此关键词提取技术在未来会在这方面进行突破。

5 结论

关键词提取领域的发展趋势如下:

(1)研究力量方面,全球关键词抽取技术的主要由各国高校及科研所推进,其发文量及其突现值可得美国大学,中国大学和加拿大大学在该领域有非常突出的贡献,未来关键词抽取的发展依然依赖于高校和科研院所的研究力量。

(2)研究热点方面。关键词提取技术中,“规律识别”,“聚类分析”,“信息提取”,“tf-idf”,“textrank”,“自然语言处理”,“深度学习”,“word2vec”,“推特”,“情感分析”,“搜索引擎”等是目前关键词抽取技术研究领域的前沿与趋势。

(3)由于单种关键词提取技术效果不佳,多种关键词提取技术的融合有利于提高关键词提取的准确率和效率。

(4)由于现阶段算法的侧重点较少涉猎于语义理解导致提取效率不佳,未来的关键词提取技术会在语义理解上有所突破。

然而,关键词提取领域的研究仍存在一些局限性:

(1)世界各国机构和学者之间的交流和合作较少,导致研究成果明显分散。建议科研机构积极开展科研交流活动,各取对方长处,有助于该领域的突破性发展。

(2)自然语言处理目前还停留在初级语义理解的阶段,语义理解尚不成熟,导致提取出的关键词准确率不高,并具有大量学术停用词。

本文存在的不足为:因一些技术(如BERT)太过革新,利用该方法的论文量不多,无法从本文所述的研究方法统计出BERT 作为高频关键词,希望后续研究能有效解决此问题。

猜你喜欢
学者聚类领域
学者介绍
学者简介
学者介绍
领域·对峙
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
学者介绍
新常态下推动多层次多领域依法治理初探
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例