知识图谱工具应用及反思性研究

2019-08-27 03:27梁晓婷
科技创新与应用 2019年22期
关键词:研究热点知识图谱可视化

梁晓婷

摘  要:分析知识图谱工具相关文献,发现其研究主要集中在以下四个方面:(1)知识图谱工具介绍性研究;(2)知识图谱工具比较研究;(3)知识图谱工具应用性研究;(4)知识图谱工具反思性研究。通过探讨知识图谱工具研究现状,为日后研究人员提供参考,以提高知识图谱工具应用水平。

关键词:知识图谱;可视化;工具;研究热点

中图分类号:G350 文献标志码:A 文章编号:2095-2945(2019)22-0156-03

Abstract: By analyzing the literatures related to knowledge mapping tools, we found that the research mainly focused on the following four aspects: (1) introductory research of knowledge mapping tools; (2) comparative study of knowledge mapping tools; (3) applied research of knowledge mapping tools; (4) reflective research of knowledge mapping tools. By discussing the current research status of knowledge mapping tools, this paper provides reference for future research to improve the application level of knowledge mapping tools.

Keywords: knowledge map; visualization; tools; research hotspots

1 统计分析

目前已有的关于知识图谱的研究主要围绕其应用方面的研究,而关于知识图谱工具本身的研究并不多,笔者于2019年3月30日以“知识图谱”为检索词,在CNKI全文数据库进行题名检索,得到2005-2019相关文献3058篇。添加“工具”、“软件”之后,得到2011-2019文献共37篇。本文针对知识图谱构建工具研究,在详细分析这些文献之前,借助CNKI自带可视化分析工具对这37篇文献做一个宏观分析。

从图1可知,论文年度数量分布呈现明显的递增趋势和阶段性特征,可将国内知识图谱工具研究简单分为两个阶段:(1)初始阶段(2011-2016年):此阶段知识图谱工具研究初漏端倪,相关研究不多;(2)快速增长阶段(2016-至今):此阶段论文数量快速增加,从2016年开始陡增,2019年文献不全仅供参考。目前2019年文献已经明显超过2018年,可预测文献将持续增长,研究将继续保持高研究热度,并进入研究热点时期。

2 知识图谱工具主题分析

通过详细阅读文献内容,发现研究主要集中在以下几个方面:(1)知识图谱工具介绍性研究;(2)知识图谱工具比较研究;(3)知识图谱工具应用性研究;(4)知识图谱工具反思性研究。

2.1 知识图谱工具介绍性研究

早期关于知识图谱工具的研究主要介绍各种工具的背景、功能,其中介绍国外工具较多,杨思洛[1]等从知识图谱绘制流程阐述了Bibexcel、CiteSpace、ColPalRed、IN-SPIRE、Leydesdorff、Network workbench Tool、Science of Science、VantagePoint、VOSviewer 9种工具;邱小花[2]等对Sci2软件介绍与评价。

2.2 知识图谱工具比较研究

知识图谱工具比较研究目前较多,其中有国内外对比,还有就几种工具本身的比较,VOSviewer和Citespace进行比较研究[3],SPSS和TDA进行比较研究[4],对Pajek、CiteSpaceII、UCIENT、Bibexcel、Gehphi、VOSviewer、VantagePoint、NetworkWorkbenchTool、Sci2 Tool、 In-SPIRE、SciMAT、 Histcite 12种工具从数据格式、数据预处理、构建关系矩阵、数据标准化处理以及所支持的知识图谱分析方法5方面对比软件优劣势[5]。通过实例对Bibexcel、CiteSpace、SPSS、TDA和Ucient在共词分析、作者合作和文献共被引方面比较研究[6]。对VOSViewer和NWB Tool这两种工具从基本特征、知识图谱绘制各阶段存在的差异以及所绘制图谱的特点三个方面比较研究[7]。对HistCite、NWB、ROST CM、Sci2、SATI、SciMAT、Bibexcel、BICOMB、UCIENT、gCLUTO、VOSvi

ewer11种工具进行对比分析[8]。

2.3 知识图谱工具应用性研究

目前知识图谱工具应用研究已经应用到各个领域、学科、主题,有徐浩利用CiteSpace的学科领域扩散特征研究[9];肖婉[10-11]、杨丽娟[12]、张苗[13]、钟名扬[14]利用CiteSpace进行实证应用研究;李文鹏研究了面向开源软件项目的软件知识图谱构建方法[15];李素梅利用CiteSpace和VOSviewer对国内图书馆大数据进行研究[16];其中应用研究占了主要部分,除了应用于各个领域外,还从不同功能从引文分析、共现分析、多维尺度、社会网络、可视化的角度出发对常用的软件工具进行理论与应用研究。

2.4 知识图谱工具反思性研究

知識图谱研究通常要对大量数据进行处理,选择合适的数据处理工具非常重要。这些研究工具的功能有所不同,如Wordsmith、Bibexcel、Bicomb主要用于前期的数据处理,将数据转换为其他软件可处理的格式;CiteSpace、SPSS、Pajek、Ucinet、Netdraw可对特定格式的数据做深层次处理,这两类工具通常结合使用。从相关文献看,研究工具的选择与研究方法、数据源有较强的关联性。在采用共词、聚类和因子分析时,多选择SPSS;在采用社会网络分析时,选择Ucinet和Pajek;在对WOS的引文数据分析时多用CiteSpace。由于绘制知识图谱的方法有多种,因而相关的工具也有多种。工具的功能虽有侧重性,但多有交叉。

3 知识图谱工具应用中存在的问题

笔者对知识图谱工具应用中存在的问题进行总结概括,整体上表现在:虽然涌现出很多先进的知识图谱构建方法和优秀的软件,在学术界得到了广泛应用;但存在少数使用者盲目使用、应用层次低等问题;具体表现在以下几个方面:

3.1 缺乏全面、系统的理论基础知识

知识图谱研究最早出现于国外,近几年才被国内研究者引入国内。引入者多利用知识图谱构建方法进行实证研究,忽略了基础理论知识的深入研究与创新,导致实证研究中存在“水土不服”等问题。主要表现在:

3.1.1 数据处理噪声较大

在数据处理上主要表现在:第一,关键词选择问题。(1)关键词个数选择问题,大量文献表明可参考齐普夫定律和个人经验确定合适的个数,选择不同个数的关键词分析结果也会有所差异。(2)关键词的舍弃问题,一些宏观、没有具体意义的关键词大量存在会影响分析结果,例如趋势、网络、研究等含义宽泛的关键词。(3)关键词的规范和补充问题,由于关键词不是规范化的,所以要进行补充、修订。第二,关键词合并问题,这个问题出现在大量文献中。对于相似、相近关键词的合并,不同知识图谱构建方法合并顺序有所不同,如多元统计分析、社会网络分析在导入可视化软件之前对源数据进行合并,进而进行深层次分析。而利用CiteSpace进行可视化时,由于源数据的特殊格式只能直接导入,但软件对可视化后的图谱可以进行相应的合并操作。但在研究中发现利用CiteSpace等工具进行图谱分析的很多文献都没有进行关键词合并,例如聚类和聚类分析,图书馆和library,这种情况大量出现在同一个图谱中。如果噪声过大,将导致最终的分析结果偏离真实情况。

3.1.2 图谱构建缺乏参考标准

在对源数据进行预处理之后,紧接着进行知识图谱构建。实验前,必须确定合理的参数,对于不同的知识图谱构建方法参数设置方法不同,譬如利用Spss进行多元统计分析时,对于因子分析、聚类、多维尺度分析都存在多种可选择的方法,从已有的文献中可看出并没有统一的标准,争议较大。而应用CiteSpace进行分析时,参数设置包括时间切片的选择、相似度的选择、阈值的设置都会影响最终结果。试验中,节点个数的选择、阈值的调整都会影响后期结果的解释。国内文献的发表不需要提交后台数据以及相关证明,论文结果的真实性很难进行回溯性检验。

3.1.3 结果解释问题

得到大量知识图谱之后,接下来的工作就是图谱解释,这是知识图谱分析非常关键的环节。在解释图谱时,不仅仅要熟悉各个图谱,还要熟悉所研究领域的背景知识。从已有的文献来看,不少文献得出的结论往往趋于表面、宏观,有些结论并不需要图谱分析就能得到。不恰当的知识图谱解析导致:(1)结论不可靠;由于目前人文学科发表的论文通常不提交实验数据,所以无法实际验证,这完全依靠学者的学术道德。(2)结论信息量过少;揭示的结论过于表面化,只是操作工具的演示。(3)深层次的信息被忽略;利用知识图谱分析的目的是使结论直观化、形象化,并且能够通过图谱分析挖掘隐藏于深处的、隐性的、潜在有价值的信息。

3.2 实证研究过于盲目

对已有的文献进行阅读分析发现,虽然相对以往来说,开始侧重实证研究,但实证研究中仍存在不少问题,主要表现在:(1)国内学者对大多数主题进行了知识图谱分析,事实上,并不是每个主题都适用于图谱分析,有的是由于主题性质问题;有的新主题文献量并不大,用以知识图谱分析数据并不充分。所以选题的时候要慎重,不能为了使用工具而盲目进行图谱分析。(2)实证研究层次较低,结论浅显。在国外研究的基础上,国内研究者纷纷转向实证研究。但查阅已有的知识图谱相关研究文献发现,国内一些知识图谱的研究过于初级,只是将文字形式转化为图表、图谱形式,而缺少深层次信息的挖掘、揭示。(3)研究形式、结论趋于模块化,缺乏创新。国内研究者热衷于国外已有的知识图谱构建方法流程,几乎全部参考国外的研究模式,而没有自身的创新之处。

参考文献:

[1]杨思洛,韩瑞珍.国外知识图谱绘制的方法与工具分析[J].图书情报知识,2012(06):101-109.

[2]邱小花,李国俊,肖明.Sci2——一款新的知识图谱分析软件介绍与评价[J].图书馆杂志,2013,32(09):79-87.

[3]廖胜姣.科学知识图谱绘制工具VOSviewer与Citespace的比较研究[J].科技情报开发与经济,2011,21(07):137-139.

[4]廖胜姣.科学知识图谱绘制工具:SPSS和TDA的比较研究[J].图书馆学研究,2011(05):46-49.

[5]肖明,邱小花,黄界,等.知识图谱工具比较研究[J].图书馆杂志,2013,32(03):61-69.

[6]岳晓旭,袁军鹏,高继平,等.常用科学知识图谱工具实例对比[J].数字图书馆论坛,2014(05):66-72.

[7]左丽华,肖仙桃.知识图谱可视化工具VOSViewer和NWB Tool的比较研究[J].情报科学,2015,33(02):95-99.

[8]钟秀梅,崔雷.科学映射工具在医学知识图谱构建中的比较[J].医学信息学杂志,2015,36(04):48-53.

[9]徐浩,钱爱兵,朱学芳,等.科学知识图谱绘制工具CiteSpace的学科领域扩散特征研究[J].情报杂志,2017,36(05):69-74+68.

[10]肖婉,张舒予.国外网络欺凌研究热点与实践对策——基于Citespace知识图谱软件的量化分析[J].比较教育研究,2016,38(04):66-72.

[11]肖婉,张舒予.混合学习研究领域的前沿、热点与趋势——基于Citespace知识图谱软件的量化研究[J].电化教育研究,2016,37(07):27-33+57.

[12]杨丽娟,张璇.知识图谱视野下的中国旅游人类学研究现状的可视化分析——基于CITESPACE软件和CNKI数据库[J].旅游研究,2016,8(03):20-27.

[13]张苗,兰梦婷,陈银蓉,等.國外土地利用与碳排放知识图谱分析——基于CiteSpace软件的计量分析[J].中国土地科学,2017,31(03):51-60.

[14]钟名扬,伦艳华.基于知识图谱软件分析近十年我国高等教育研究现状——以CNKI期刊(2005~2014年)数据为例[J].河北科技大学学报(社会科学版),2015,15(02):94-99.

[15]李文鹏,王建彬,林泽琦,等.面向开源软件项目的软件知识图谱构建方法[J].计算机科学与探索,2017,11(06):851-862.

[16]李素梅.国内图书馆大数据研究的知识图谱分析——基于CiteSpace和VOSviewer软件的计量分析[J].河南图书馆学刊,2017,37(05):124-126.

猜你喜欢
研究热点知识图谱可视化
数据可视化设计在美妆类APP中的应用
思维可视化
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学
复变函数共形映射的可视化实验教学
复变函数共形映射的可视化实验教学
近五年我国职业教育研究热点综析及未来展望
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析