陈雅茜,邢雪枫,程大雷,薛余坤,吴 非,张代玮
(西南民族大学计算机科学与工程学院,计算机系统国家民委重点实验室,四川 成都 610041)
信息时代,针对大量的文献数据,传统的科学计量方法工作量庞大,并且统计的结果不直观,不能很好地预测研究热点与方向.因此在科学计量学领域出现了知识图谱[1].它可以很好地对现实世界的事物及其相互关系进行形式化地描述[2],但在知识图谱分析与解读中仅通过图谱中节点的大小来判断与预测研究热点与方向还略显单一,说服力度较小,应从多维度衡量关键词的重要性.因此本文从citespace可视化技术和改进的中介中心性算法两个维度,对如何科学地衡量关键词的重要性进行了探索.
知识图谱的发展为科学计量学领域研究热点与方向的分析提供了非常大的便利[3],将文献数据视为知识,通过可视化技术将文献作者、发文机构、关键词等聚类形成知识图谱,这也是目前研究人员在进行研究热点分析时的常用方法.桑静[4]通过传统科学计量方法与可视化技术对发文量进行统计与对关键词等进行聚类,最终通过某一时期发文量的多少、图谱中节点的大小、相关节点之间连线的多少等分析,给出农业信息化领域的研究热点与方向.傅雪[5]也是采用图谱中节点的大小判断研究热点与方向.同样的还有杨九龙[6]、曹利红[7]、张成红[8]等人.基于图谱中节点的大小以及单纯地以发文量来判断领域的研究热点与方向显得单一,说服力不强.本文认为重要的研究热点与方向还需要在这个学科领域具有较大的影响力,这反映在网络中也就是节点的中介中心性.但是传统的中介中心性算法[9]时间复杂度较高,算法运算效率较低,因介数的计算是全局性的,需要找出共现网络中所有节点对之间的最短路径,对于庞大的共现网络,非常讲求运算效率,因此传统的中介中心性算法需要改进.本文就是基于citespace可视化技术和改进的中介中心性算法完成全国农业信息化知识图谱的构建与分析.
首先进行数据的获取及清洗,基于citespace可视化技术构建关键词聚类图谱;然后根据改进的中介中心性算法计算每个节点的中心性数值,找出中介中心性数值大于0.1(代表了学科重要的研究方向)的节点;最后通过citespace可视化技术进行关键词突变分析.
经比对多个文献数据库,最终确定文献数据较多的 CNKI数据库为数据来源.对于数据集的获取,因农业信息化领域研究生教育的导向作用以及期刊论文主题的表征作用.本文将文献类型分为两大板块,三个部分,具体为:2010~2015年我国农业信息化期刊论文、2016~2020年我国农业信息化期刊论文、2010~2020年我国农业信息化硕博论文.为了保证数据质量,需要对数据进行清洗,删除新闻报道、会议通知、缺失作者文献等无效数据,数据集的遍历和处理的核心代码如图1.最终获得2010~2015年我国农业信息化中文期刊2 340篇,2016~2020年我国农业信息化中文期刊1 730篇、2010~2020年我国农业信息化硕博论文1 118篇.
图1 数据清洗核心代码
使用citespace进行知识图谱构建主要有以下步骤:
1)软件安装:因citespace在Java环境下运行,所以要先配置Java环境,下载安装最新版的JRE.
2)数据转化:CNKI中下载的数据需转化才能被citespace识别,因此要进行数据类型转换.
3)参数功能选择:数据准备好后,进行citespace可视化分析.①首先进行时区设置(From 2010 TO 2020),时间切片(Years per slice)选择为1,可以看出农业信息化领域逐年的变化过程;②节点类型(Node types)选择,选择类型为关键词(Keyword);③阈值选择,采用Top N 选择方法(Top N per slice),即选择在每个时区中前 N 个出现频率最高的节点,这里N=50;④剪枝算法选择,选择最小生成树算法(Minimum Spanning Tree),运算简单,出结果较快;⑤可视化,citespace采用谱聚类算法进行的自动聚类,采用聚类视图(Cluster View-Static)展现不同聚类之间的关系.
4)分析解读:根据构造好的知识图谱对研究结果进行解读分析.
关键词的中介中心性[10]是指在共现网络中具有较大影响力,或是较大中介桥梁作用的关键节点,中介中心性数值越高,节点的重要性也越大,去除这些点之后对网络传输影响也越大.节点中介中心性的计算公式[11]如下:
(1)
其中:σst(v)表示经过节点v的s到t的最短路径条数,σst表示节点s到节点t的所有最短路径条数.
为了方便计算,将每对顶点的介数计算定义为:
(2)
最终,公式(1)和(2)联立得到:
(3)
通过公式(3)我们发现,要求一个节点的中介中心性,即计算:
(4)
但是要计算节点v的中介中心性,需要知道节点v是否在s到t的路径上,采用下面公式进行判断:
d(s,t)=d(s,v)+d(v,t),
(5)
其中d表示两点之间的最短路径长度.
所以有下面计算公式:
(6)
根据上面公式可得,如果节点s到节点t的最短路径上经历了v点,那么经过节点v的最短路径条数就等于σsv*σvt,反之则为0.
这个中介中心性算法的时间复杂度较高,时间复杂度为O(N3),空间复杂度为O(N2),为了优化计算复杂度,对此算法进行优化,降低算法的时间复杂度.
根据公式(6)可得节点s到节点t的经过w的最短路径条数为σst(w)=σsw*σwt,假设在共线网络中节点v是节点w的前驱节点,所以节点s到节点t之间,经过节点v,节点w的计算公式为:
σst(v,{v,w})=σsv*σwt.
(7)
通过公式(7)可知,s到t经过v,(v,w)要先到达v,然后走(v,w),最后从w到t.这里我们得到以下两种情况:
1)t≠w时:
(8)
2)t=w时,不存在σwt:
(9)
将公式(8)和公式(9)两式相加,得到经过节点v的节点s到所有节点的最短路径数占节点s到所有节点的最短路径数的比值.
(10)
其中w:v∈Ps(w)即节点v是节点s到节点w路径中节点w的前驱节点.至此,通过公式(10)就可以计算节点v的中介中心性值了.
新改进的中介中心性算法它不断地更新中介中心性值,而且执行从一个点到所有其他点的最短路径搜索(单源最短路径搜索)而不是一个所有顶点对的路径搜索.这个算法把时间复杂度优化为 O(MN),空间复杂度优化为O(M+N),大大提高了运算效率.
本文通过citespace可视化技术和改进的中介中心性算法相结合的方法对全国2010~2020年农业信息化领域5 188篇论文进行分析,重点针对研究热点、关键词中介中心性、研究热点变化等方面进行分析.
2.4.1 研究热点分析
图2、图3、图4为农业信息化领域关键词聚类图谱,其中知识图谱中每一个圆形节点都代表一个关键词,节点之间的连线代表关键词的共现次数,连线越多代表关键词之间联系越密切,连线越粗代表关键词之间关联强度越大.节点大小表示该关键词出现的频率,我们将节点大、连线多的节点视为农业信息化领域研究的热点与重点领域.例如,图2中可以看到 2010~2015年农业信息化研究中最热门的关键词为农业信息化、信息化、农业和物联网.
通过对比图2、图3,可以看到在2016~2020年农业信息化领域研究中最热关键词仍为农业信息化,但很多新关键词的节点与2010~2015年相比变得更大,例如,农业物联网、大数据、乡村振兴、智慧农业、现代农业等.在一定程度上不仅代表了当前研究的热度,还代表了农业信息化领域未来的发展方向.
图2 2010~2015年期刊关键词聚类图谱
图3 2016~2020年期刊关键词聚类图谱
图4为2010~2020年农业信息化领域硕博论文关键词聚类图谱,研究发现在农业信息化1 118篇硕博论文中,研究的重点放在农业信息化、信息化、农业、对策、物联网、智慧农业、数据库、信息系统、电子商务、现代农业等领域.文献数量较多且多和信息技术等新工科息息相关的现象表明硕博研究生是农业信息化发展的生力军.
图4 2010~2020年硕博论文关键词聚类图谱
上文分别对农业信息化领域期刊论文和硕博论文关键词聚类知识图谱进行了分析,通过选取的两类数据可以表征我国农业信息化研究的重点以及研究的趋势具有一致性.对两类数据源中都出现的关键词求交集,得到以下关键词,分别为:农业信息化、信息化、农业、物联网、智慧农业、乡村振兴、对策、发展、互联网+、大数据、电子商务等等.毫无疑问,这些共同的高频关键词,代表了我国农业信息化重点研究领域的一致性.
2.4.2 关键词中介中心性分析
为了更好地表现知识图谱中节点的全局重要性,本文采用中介中心性来衡量知识图谱中每一个节点的重要程度,选择中介中心性数值大于0.1的节点,这些节点代表了学科重要的研究方向.
表1为2010~2020年间农业信息化领域中心性大于0.1的关键词排名情况.其中“农业物联网”位居榜首,与2.4.1节中研究热点分析的实验结果一致.
表1 2010~2020年期刊论文主题词共现频次统计表
2.4.3 研究热点变化分析
本文通过citespace可视化技术进行了关键词突变分析.与传统的高频关键词分析相比,新兴关键词更适合于探测学科发展趋势[12].通过表2可见,多数主题词突现时间跨度较短,多数都为1年,不利于研究成果的产生.突变时间持续最长的为“乡村振兴战略”,突现度高达26.428 9,且仍处于突现状态.可以预见,今后“乡村振兴”仍将会持续很长一段时间是农业信息化领域研究生的热点主题.
表2 期刊论文关键词突现表
本文通过citespace可视化技术和改进的中介中心性算法相结合的方法进行全国农业信息化知识图谱的构建与分析,通过对研究热点、关键词中介中心性等方面的分析对全国农业信息化领域近十年研究热点与方向进行了梳理与预测.实验结果表明,本文提出的改进的中介中心性算法与citespace聚类构建出的图谱分析的实验结果一致,从另一个维度衡量了关键词的重要性与影响力,避免了单一维度给出实验结果说服力小的问题,同时改进的算法的运算效率也得到了大大提升.
目前大多数针对农业信息化领域的研究构建的多是静态知识图谱,虽然可以对研究热点、作者聚类、机构聚类等进行分析,但是如若数据集较大,构建出的知识图谱的规模会非常大,将存在可读性差、交互性低等问题,非常不利于信息的动态浏览和筛选.未来应利用基于protégé本体建模[13]和Neo4j[14]图数据库相结合的方法,以增加知识图谱的动态交互性[15]为前提,完成我国农业信息化动态知识图谱的构建.