知识图谱的原理及应用

2019-09-10 07:22黄桂平陈巧莹何斯娜余舒红叶江彬陈金萍
大东方 2019年2期

黄桂平 陈巧莹 何斯娜 余舒红 叶江彬 陈金萍

1.产生背景

知识图谱的起源最早可追溯到文献计量学和科学计量学的诞生时期。1938年Bernal制作了早期学科图谱;1948年Ellingham手工绘制了图表,形象地展示自然科学和技术分支学科间的关系。同年,Price用简单的曲线可视化科学知识指数增长规律。到20世纪50年代,Garfield创制《科学引文索引》。并以编年体形式手工绘制引文网络图谱;随后“文献耦合”(两篇文献同引一篇或多篇相同的文献)、“科学引文网络”、“同被引”(与本文同时被作为参考文献引用的文献,与本文共同作为进一步研究的基础)、“共词”(指一定频率共现于同一语篇中的词)、“引文可视化”等相继被提出,科学知识可视化成为专门领域。近年来,因为网络信息技术的飞速发展使得网络信息呈爆炸式增长,造成大量信息冗余,资源重复率高,人们对知识与信息选择更加困难,查找精确性和效率都有了很大的影响。为了解决上述问题并能可视化的展示知识及信息,科学知识图谱应运而生[1]。

2.含义

知识图谱(Mapping Knowledge Domain)也被称为科学知识图谱、知识域可视化或知识域映射地图,旨在描述真实世界中存在的各种实体或概念,是可视化地描述人类随时间拥有的知识资源及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系,在组织内创造知识共享的环境以促进科学技术知识的合作和深入[2]。具体分为传统科学计量图谱、三维构型图谱、多维尺度图谱、社会网络分析图谱、自组织映射图谱、寻径网络分析图谱等几个种类。

3.原理

知识图谱的基本原理是科学文献、科学家、关键词等分析单位的相似性分析及测度。根据不同的方法和技术可以绘制不同类型的科学知识图谱。该方法首先,通过计算机和互联网搜索引擎强大的自动查询功能,在极短的时间里面完成对海量信息的准确查询。其次,通过计算机对已查询到的海量零散信息进行文献计量统计分析,不仅可以通过量化模型将其以科学的、可视化的形式直观地呈现出来,而且还可以发现它们之间的深层次关系和趋势,为今后在该领域的研究提供更有力的客观数据和科学支持。

4.特征

知识图谱具备动态性、空间性、知识依赖性、关联性四方面的特征[3]:

第一,动态性。这是知识图谱区别于传统知识地图的本质特征,它以静态的图谱中点与点以及连线的关系形式,揭示知识间隐含的动态结构变化信息。

第二,空间性。知识图谱以二维或者三维图形展示知识之间的空间结构,通过坐落空间位置和所占据领域大小来标示知识所处战略位置的重要程度。

第三,知识依赖性。知识图谱与一般图像的区别在于,一般图像是对原材料进行直接加工所生成,而知识图谱是建立在对知识进行数据统计或者文本分析后,所构建的客观知识综合体的基础上的再次加工处理。知识图谱一般无法直接从原始知识材料中加工产生,它依赖于对原材料的再次加工。

第四,关联性。知识图谱可以揭示各知识点之间的相互关系,点与点在图谱中所处的距离远近表示它们间关系的亲疏,点与点之间连线的粗细表示它们关系连接的力度大小。

5.绘制流程

知识图谱绘制的基本绘制流程主要有数据的收集、处理与绘制以及图谱解读三个阶段过程。

5.1数据的收集

确定并选取合适的数据源,对数据源进行采集。(在进行论文研究时主要可对CNKI、CSSCI、CSCD和万方等文献数据库中抽取数据进行分析研究。)

5.2处理与绘制

选取绘图工具绘制知识图谱,揭示选取数据之间的深层次关系,常见的知识图谱应用的软件有Bibexcel、Pajek、CiteSpace、BICOMB和SPSS、HistCite等。

5.3图谱解读

对于绘制的结果的图表进行专业的解读。

6.基本方法

知识图谱的基本方法主要包括五种,分别是引文分析法、共被引分析法、多元统计分析法、词频分析法、社会网络分析法。

6.1引文分析法

引文分析法(Citation Analysis)就是利用各种数学、统计学的方法,以及比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用和被引用现象进行分析,以便揭示其数量特征和内在规律,达到评价、预测科学发展趋势的一种信息计量研究方法[4]。常见的引文分析技术主要包括文献合配分析法、影响因子分析法和共被引用分析法。

6.2共被引分析法

共被引分析法的含义是一种定量的情报研究方法,它以具有一定学科代表性的一批文章(著者或期刊)为分析对象,利用聚类分析、多维标度等多元统计分析方法,借助电子计算机,把众多的分析对象之间错综复杂的共引网状关系简化为数目相对较少的若干类群之间的关系,并直观地表示出来,使分析對象之间相互关系的格局清晰可辨,在此基础上分析研究分析对象所代表的学科及文献的结构和特点[5]。主要分为共词分析法、共作者分析法、共期刊分析法、共文献分析法五种类型。

6.3多元统计分析方法

多元统计分析方法包括:聚类分析、主成分分析、因子分析和多维尺度分析。

6.3.1聚类分析法

聚类分析指在没有先验知识的条件下,采用定量方法,根据事物本身所固有的特性的亲疏程度从数据分析的角度自动进行归类,对数据给出一个更准确、细致的分类结果,是研究“物以类聚”的一种科学有效的方法。

6.3.2主成分析法

主成分分析也称主分量分析,指把多个变量(指标)化为少数几个综合变量(综合指标)的一种统计方法。它是一种降维方法,通过找出几个综合变量来代表原来众多的变量,尽可能地反映原来所有变量的信息量,而且彼此之间互不相关,从而达到简化的目的[6]。

6.3.3因子分析法

因子分析是主成分分析的推广,是采用降维方法,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多元统计分析方法[7]。

6.3.4多维尺度分析法

多维尺度分析又称多维量表分析,它是将一组个体间的相异数据经过MDS转换成空间构图,且保留原始数据的相对关系。多维尺度分析依据需要分析对象的变量,把对象映射到一个特定的空间位置上,通过分析对象位置间的距离,可以揭示对象间的亲疏关系。

6.4词频分析法

词频分析法是文献计量方法中的定性分析法,通过分析某一研究领域文献中的词出现的频次高低,可以确定该领域发展动向和研究热点发展动向[8]。根据对象的不同分为:关键词词频分析法、主题词词频分析法、篇名词频分析法。

6.5社会网络分析法

社会网络分析又称社会网或网络分析,是对社会网络中行为者之间的关系进行量化研究的一种具体工具。也就是说,社会网络分析是测量与调查社会系统中各部分(点)的特征与相互间的关系(连接),将其用网络的形式加以表示,进而分析其关系的模式与特征的理论、方法和技术。社会网络分析可以分为两类:一是自我中心社会网分析,探讨个体在网络中的联结与位置;二是整体社会网分析,探讨的是网络整体的构成与形态[9]。

7.应用

科学知识图谱应用范围广泛,在应用上主要分为通用知识图谱和行业知识图谱。通用知识图谱面向通用领域,以常识性知识为主,首先考虑结构化的百科知识,强调知识的广度,使用者是普通用户。而行业知识图谱是面向某一特定领域,对基于行业的数据进行建构,优先考虑的是基于语义技术的一些行业的知识库,强调的是知识的深度,它的潜在使用者是行业的人员。知识图谱主要是基于数据及业务的关系分析,因为是多学科的交叉融合,科学知识图谱能在诸多研究领域中得到应用,在行业上其广泛用于金融、医疗、教育、证券投资等领域。对于研究方面,乐飞红等在2002对知识图谱的有效作用作了部分总结:搜索导航,利用提供知识检索,提高知识的复用和防止知识的冗余,从而增强检索和获取效率;隐型知识的转化,发现知识孤岛并建立联系,促进知识共享;为知识评估提供基础;帮助学习者快速获取所学知识;提供学习知识的机会;创造、评价知识资产;建立对知识进行组织和管理的基础设施等。

参考文献

[1]朱游娟,《初中数学问题的全知识图谱设计与实现》硕士论文

[2]刘则渊、陈悦、侯海燕等著:《科学知识图谱:方法与应用》人民出版社2008年版,第5页。

[3]陈祖香:《面向科学计量分析的知识图谱构建与应用研究》,2010年南京理工大学硕士学位论文,第26页

[4]邱均平:《信息计量学》,武汉大学出版社2007年版,第315页

[5]赵党志:《共引分析——研究学科及其文献结构和特点的一种有效方法》,《情报杂志》1993年第2期,第36—42页

[6]唐启义、冯明光:《實用统计分析及其DPS数据处理系统》,科学出版社2002年版,第333—372页

[7]李健生:《“引文分析法”质疑》,《图书情报工作》1992年第5期,第41—45、57页

[8]马费成、张勤:《国内外知识管理研究热点——基于词频的统计分析》,《情报学报》2006年第2期,第163—171

[9]李新蕊.主成分分析、因子分析、聚类分析的比较与应用[J].山东教育学院学报,2007(6):23—26

(作者单位:福建师范大学福清分校应用心理学研究所)