我国知识元研究进展*
——基于CiteSpace的可视化分

2019-05-31 09:13卢章平
图书情报研究 2019年2期
关键词:图书馆学论文领域

梁 爽 卢章平

(江苏大学科技信息研究所 镇江 212013)

1 引言

20世纪70年代末,美国情报学家弗拉基米尔·斯拉麦卡提出知识的控制单位将从文献深化到文献中的数据、公式、事实、结论等最小的独立的“知识元”[1]。自此,情报学专家着力通过知识元链接的方法提高知识获取的效率和精确度,解决制约知识资源有效利用问题。我国学者对知识元的研究已有20多年,本文利用CiteSpace知识图谱工具对中国知网(CNKI)数据库中有关“知识元”的期刊论文进行可视化分析,总结我国知识元研究进展,以期推动今后我国知识元更加深入的研究。

2 数据来源与研究方法

本文数据来自于CNKI期刊论文数据库,检索式为主题=“知识元”或“知识单元”,文献发表时间限定为2007年1月1日~2016年12月31日,检索时间为2017年6月26日,共获得检索结果1 094条,对检出记录进行清洗筛选共有1 088条有效记录,其中有296条记录属于图书情报学科。本研究主要采用能够展示一个学科或知识领域在一定时期发展的趋势和动态的代表性知识图谱可视化分析工具CiteSpace(Version4.0R5SE)软件。CiteSpace的主要分析字段有国家共现、机构共现、作者共现、关键词共现等。

3 主要计量指标统计分析

3.1 发文量年度分布

对检索到的文献进行年度发文量统计,如图1所示。由图1可以看出,我国知识元研究大致可分为三个阶段。

探索阶段(2007~2010年),该阶段发文量数量除2007年数量较少以外,其余几年的数量波动不大,每年发文量均为将近120篇。这一时期的知识元研究的重点聚焦在数字图书馆以及知识管理,以图书情报领域的相关研究为主,例如利用知识元进行知识组织及其系统服务功能研究等。

减速阶段(2011~2014年),这四年间的论文呈现逐年减少的状态,但降幅并不大,自高峰到低谷减少了21篇,一直持续到2014年。这一时期的知识元研究开始拓宽至图书情报领域以外的其他领域,包括利用知识元探讨性效关联规律、应急管理的知识元模型构建等。

回暖阶段(2015~2016年),2005年与2014年相比,增加了约20篇论文,2016年有所下降,研究多在知识元库构建、知识元模型构建研究等,没有开拓新的领域和方向,说明近几年的知识元研究突破性不大。

图1 我国知识元研究文献发文量年度分布

3.2 学科分布及其与图书馆学的关系

(1)学科分布

以CNKI期刊论文数据库的学科分类为分类标准,1 088篇论文的学科分布在40个学科领域中,图2所表示的为知识元研究论文的主要学科,即发文数量较多的学科。由图2可以看出,“图书情报与档案管理”以296篇排在首位,约占整个研究的27%。计算机软件及计算机应用以194篇排在第二位,由于知网中一篇文献可能归类到某一学科,也可能同时归类到两个或两个以上的学科,因此文献数量最多的“图书情报与档案管理”这个学科分类的论文,也可能会同时属于“计算机软件及计算机应用”领域。计算机硬件技术、高等教育、外国语言学是知识元研究的次要领域,随后是教育理论与教育管理、科学研究管理、自动化技术,在职业教育、企业经济等领域也有知识元相关的研究成果。由此可见,知识元研究的学科范围非常广泛,凸显出较强的学科交叉性。

传统的以文本为载体的知识交流方式已经难以适应科学家们大规模、跨学科、系统科学研究的要求,更难以适应在科学研究活动的全过程中及时提供特定知识的要求,于是在科研的合作过程中,新知识的发现成为最严峻的挑战。知识元是构成知识的最小单位,是知识系统的最小元素[3],当代图书情报学研究的深入和现代信息加工技术的进步推动从知识元角度研究文本挖掘技术、知识管理和知识服务,也是知识元研究发展的直接动力,使其成为计算机与图书情报科学的交叉研究领域。

图2 知识元研究论文主要学科分布图

(2)知识元研究与图书馆学的关系

知识服务是国内图书馆学研究的一个重要方向,而知识元研究也来源于知识检索和知识服务,因此两者的共同点都是为了更好的进行知识检索,更好的提供知识服务。知识元的研究离不开与图书馆密切相关的知识构建、知识链接、知识标引,甚至一些图书馆知识服务的开展就被视为知识元项目。图书馆和知识元都关注文献、信息、知识的记载和应用。知识元研究致力于在人文社科领域融入XML、语义挖掘等计算机技术,使得传统的知识元分离、知识元隐含关系的揭示变得更加高效简便,使得研究成果更加多元化。知识元研究成果的应用,可以完善图书馆文本知识单元检索系统,参与知识元模型的构建及实验,从而更好的提供服务,促进图书馆和读者的交流,促进两者的共同发展。图书馆领域的数字图书馆建设与知识构建推动了知识元研究的发展,知识元在其发展过程中不断借鉴图书馆学的理论与方法。

3.3 机构分布

知识元研究机构的分布如图3和图4,图3是知识元研究论文高产机构时序图,图4显示了发文量在10篇及以上的机构。

经过统计,国内知识元研究的1 088篇论文共有401个发文机构,大部分机构都是研究所以及高等院校的相关学院,这些机构开展了116次合作,只有2个机构的论文数量达到了15篇以上;有75个机构论文数量在5~15篇之间;小部分的机构论文数量在2~4篇,绝大多是机构都是1篇。从图3、图4中可以较为明显的看出目前我国进行知识元研究的主要机构为高等院校,占文献数量在10篇以上的研究机构的88.65%,其中大连理工大学的发文总数量远高于其他高校,说明其是国内知识元研究领域的核心机构。

图3 知识元研究论文高产机构时序图

从图3可以看出,中国科学技术信息研究所在2007对知识元进行了较为深入的研究,随后中国人民大学、武汉大学都对知识元开展了研究,并产生了一定数量的学术成果。2010~2011年和2015~2016年两个时间研究知识元的个体机构文献产出量不大,但是文献总量呈现上升趋势,说明该时间段的知识元研究处于一个探索的阶段。在2012年,大连理工大学开辟了一个较为新的知识元研究领域——非常规突发事件应急处理,这也成为了大连理工大学知识元研究的重点和优势,也是2012年该校发文数量增加的原因。

图4 发文量在10篇及以上的机构

3.4 作者分布

利用CiteSpace绘制的知识元研究论文作者共现图如图5所示,1 088篇文献共有440位作者,图5中显示的是论文数量在5篇以上的作者,由图中可以较为清晰的看到三个较为明显的核心作者群,一个是由王宁、王延章、仲雁秋三人构成的作者群,第二个是由文庭孝、刘晓英构成的作者群,第三个是由化柏林构成的作者群。

图5 CiteSpace作者共现图

对知识元研究领域发文的第一作者进行分析研究发现,发文最多的学者为湘潭大学的文庭孝,有7篇论文为第一作者论文。该作者发文年度分布比较平均,在2008~2011年四年间都有文章产出,研究内容为基于知识元的知识管理、知识网络理论及测度研究,研究从理论到测度,从浅层次到深层次,一步步深入知识元的研究。最高的一篇文章下载量达到1461次,是所有检出论文下载量排名第一的文章。其与罗贤春等合著的文章《知识单元研究述评》被引量达到了40次,在所有检出文献中排名第三。

排名第二的是哈尔滨商业大学的姜永常,其发文数量年度分布也比较平均,在2007~2013年7年间除2008年外每年都有发文,主要研究基于知识元的知识网络和知识构建。

第三、四、五位高产作者王宁、陈雪龙、高继平都来自大连理工大学,这也是图4大连理工大学在发文机构中占首要位置的原因,大连理工大学的研究人员创新性的将知识元引入非常规突发事件的研究中,发文多围绕这个主题展开。另外有两名作者来自中国科学技术信息研究所。其他的作者来自不同的机构,发文多局限在某个时间段内,研究的持续性不足,深入程度不够。

表1 知识元领域高产作者

4 基于关键词共现的相关分析

4.1 词频统计与聚类共现

关键词是表述论文中心内容的实质词汇。通过对关键词词频与中心性的统计,能够掌握某研究领域的主题分布,发现隐藏在真实关系背后的关系网络,探究研究主题的成熟度、知识结构等状况[2]。通过对知识元研究论文的关键词数量与词频进行统计,共获取关键词293个,其中词频高于10的关键词如图6,图6中去除了检索词“知识元”和“知识单元”这两个关键词。知识元研究论文中涉及的关键词数量较多,但是词频高于10的关键词仅有22个,说明该领域涉及的研究主题非常广泛,并不集中,也是知识元跨学科特性的显著体现。

图6 知识元研究高频关键词(词频>10)

在知识元研究高频关键词中,图书馆、计算机基础、教学改革揭示了近10年研究知识元的主要学科,而知识链接、知识网络为知识元研究提供理论与方法。知识库、关联数据反映出知识元的研究基础与分析对象。为了进一步探究图书馆学领域知识元研究的主题,对图书馆学中知识元研究论文的关键词进行词频统计,其中词频大于5的关键词如图7所示。

图书馆学领域出现了具有鲜明专业性的关键词“高校图书馆”、“数字图书馆”,缩小并深化了知识元研究的学科零余额。知识集合、情报分析等关键词说明图书馆学领域知识元研究使用的技术与方法更加注重资源的组织与集合。

将图书馆学领域高频关键词与总体的关键词进行比较分析,有10个关键词是重复的,包括知识组织、知识链接、知识构建的知识元方法,也包括知识管理、知识服务的知识元应用方式,还有图书馆、数字图书馆的知识元应用领域。

图7 图书馆学领域知识元研究高频关键词(词频>5)

图8为利用CiteSpace软件制作的关键词共现时区图谱,从共现频次看,除去检索词“知识元”和“知识单元”,知识组织以53次排在首位,有20个关键词的共现频次在10~50之间,主要包括两方面的内容,一是与知识组织、知识认知相关,如元认知(84次)、知识管理(36次)等,二是与教学管理有关,如教学改革(36次)、教学方法(25次)。共现频次在9次以下的关键词多达345个。从凸显程度上来看,凸显度最高的是知识管理(2.49),可见现阶段知识元研究的重点和热点聚焦在知识管理方面。

图8 知识元研究论文高频关键词共现时区图

4.2 知识元研究主题变迁与演化过程

通过高频关键词共现时区图(图8、图9),可以了解知识元研究的主题变迁与演化过程。总体来看,随着计算机与网络技术的发展与应用,知识元研究不断拓展其研究广度与深度,从讨论数字图书馆、知识组织、知识管理、知识库构建、指导图书馆知识服务的辅助功能,到不断尝试使用网络与知识计量手段融入到知识管理系统,出现了围绕知识关联、知识发现研究的知识链接、知识网络、领域本体等关键词,以及借助本体的手段,进行知识地图的构建。2014年起将知识元应用于应急管理以及非常规突发事件的处理已成为主流应用。到2015 ~2016年,又出现了信息单元、解题策略、情景表示等新的关键词,知识元在不同领域的发展不断拓展。在图书馆领域,知识元研究是图书馆学和计算机科学交叉融合的产物,从最基本、最基层的教学模式、教学方法开始研究,到利用计算机技术、运用知识构建理论进行知识集合、知识链接、知识关联,将关联数据引入到知识元研究,构建知识元库,进行语义分析,并将成果运用到知识标引上。突发事件应急管理同样也是知识元在图书馆学领域的一个重要研究方向。在2016年,出现了将知识元同信息素养相结合的探索性研究,这也是知识元研究与时俱进的一个体现。

图9 图书馆学领域知识元研究论文高频关键词共现时区图

结合图1和图8的时间分布曲线,可以绘制出知识元研究的10年演化路径(如图10所示),选择每一年最为突出的一个关键词作为重点词。

图10 知识元10年研究演化路径

5 知识元研究热点

关键词共现网络可以展现一段时间内研究文献集中反映出的热点词汇,能够体现某一研究领域的热点问题[4]。利用CiteSpace绘制知识元关键词共现图谱,并选择聚类功能,产生了广义领域的71个关键词共现聚类(见图11),和图书情报领域的60个关键词聚类(见图12)。采用关键词作为聚类标识,以具体化的名词短语标识各聚类,以便客观归纳知识元的研究热点,结合每个聚类内的具体文献内容分析,确定研究热点问题[5]。由于篇幅所限,本文仅选取前四大聚类的研究热点进行具体分析,各聚类情况如表2所示。

图11 知识元研究论文关键词共现聚类图谱

图12 图书馆学领域知识元研究论文关键词共现聚类图谱

表2 知识元研究四大热点领域

5.1 知识元的基本理论问题

到目前为止学术界对知识元的概念还没有公认的统一界定。不同概念之间的差别主要是在对知识元的粒度的认知上,多数专家认为是构成知识的最小单位,是知识系统的最小元素[3],是在知识管理中可以对知识进行独立、自由、有效地识别、处理与组合的基本知识单位[6];少数学者则认为知识元是基本知识单位,能够再划分。对于知识元特征的研究,国内学者基本达成了一致,都强调了知识元的独立性、可存储性以及其可链接性。现有对知识元的分类虽然不尽相同,但每种观点都有重叠的部分,基本都是都从概念、事实、方法策略等几个维度来对知识元进行分类,温有奎[3]把知识元类型分成描述型知识元和过程型知识元两大类。

5.2 知识管理研究

基于知识元的知识管理研究包括知识元表示、知识元标引以及知识元抽取三个大方面,这三个方面不是独立的,而是相辅相成、环环紧扣的,只有在较为完全的表示知识元的基础上,才可以对知识元进行标引,只有在对知识元标引分析后,才可以对其进行抽取。目前还没有一种被普遍接受的知识元表示方法,现有的组织与表示方法几乎来源于知识的经典表示方法[3]。

知识元研究在根本上是由知识组织和知识管理驱动的,而知识元标引是实现知识组织与检索的核心与具体化。有的学者选取了知识元描述模型中具有代表性的几个元素作为具体的研究对象,在标引分析的基础上,发现知识元描述的句法特征,建立了知识元的提取规则,提出了一种基于规则的知识元标引方法,并以实验证明其有效性[7]。从数字资源中抽取知识元是知识元应用的基础。通过对现有相关文献的分析发现,国内学者所提出的方法大致可分为基于文本结构的抽取方法与基于规则的抽取方法两种类型,其中基于创新点的知识元挖掘被认为是文本知识挖掘的一种有效方法[8]。针对给定的文本,其他学者也提出了利用一种基于XML平台的知识元表示与抽取模型,解析出相应的基本知识元的抽取方法[9]。冷伏海等综合运用语义标注、规则抽取以及正则表达技术,提出了一种混合语义信息抽取方法,既不破坏科技文献原有语义内容,又能以较为简单的展示创新内容的知识元抽取方法[10]。

现阶段的知识元技术研究基本都是大粒度资源的信息组织方法,已开展知识标引的方法是在传统信息资源组织模型指导下的元数据标引,缺乏深层次的语义内容信息和主题关系标识。大多学者的研究侧重在主题词、关键词或摘要的自动提取研究,缺乏知识元标引具体过程和方法的研究成果。在知识元抽取上,如何抽取以及抽取的知识元如何存储和如何组织并没有进行具体说明。

5.3 突发事件应急处理研究

在知识的视角下,知识元与特定领域知识无关,使得利用知识元描述不同类型突发事件系统要素的共性属性特征,进而构建突发事件系统共性结构模型成为可能。突发事件应急处理过程很复杂,在处理中需要决策者充分利用多学科、跨领域的综合知识来进行即时决策。虽然本体的方法在一定程度上可以解决多学科、跨领域的知识综合问题,但描述概念的工作量巨大,容易产生知识推理不完备的问题。将知识元模型应用于应急管理领域中,使得多学科、跨领域之间的知识融合成为可能,而且通过知识元属性间关系的隐性描述方法,可以解决知识推理不完备的问题,能够为突发事件应急管理提供综合知识支持。仲秋雁等对非常规突发事件情景中的要素及其关系进行抽取,提出了基于知识元的领域情景概念模型,并以此为基础,结合承灾体知识元结构,建立了非常规突发事件情景生成中承灾体实体化约束模型[11]。陈雪龙[12]等从非常规突发事件应急管理客观系统本原角度出发构建知识元模型,给出了知识元属性间关系的隐性描述方法,为非常规突发事件的应急管理提供综合的知识支持。知识元应用到突发事件的研究中,能够弱化事件的概念,强化知识元实体对象属性状态集中元素变化对其它知识元实体对象的影响,为形式化描述各类不同突发事件提供了依据[13]。

5.4 知识服务研究

知识服务是在知识构建的基础上开展的,知识构建是基于信息构建的更高层次的资源构建形式,其核心内容是由知识组织、知识标识、知识检索和知识导航四个系统组成的,它能使知识更易于理解和吸收,为用户提供比信息空间更高层次的知识空间[14]。在对某个既定主题开展研究进行知识服务时,需要对各种技术进行集成构建相关主题库,通常采用构建主题本体源数据库、构建主题知识元库和知识仓库最后规划统一界面的流程,最后进行知识服务。知识元库是通过对文献信息资源的知识元素加工,提取出具有独立性的知识元而构成的数据库。也有学者按照特定的规则和需求将知识元联系起来,排列组合形成有序的结构化知识集合,并且进一步构成知识网络[15],进行知识构建以实现知识服务。

6 存在问题与建议

本文从整体学科领域和图书馆学领域两个角度对知识元研究现状进行了分析,在对知识元进行计量分析与可视化分析的基础上,总结了现阶段知识元研究热点。知识元并不是一个新产物,而是计算机学科和图书馆学学科交融的产物,知识元研究涉及的主题较为广泛,呈现学科交融的特点,图书馆学领域的研究与知识元总体研究的演进过程相对应,研究热点也相对应变化,呈现出从理论到实践,从概念到技术的过程,同时知识元研究也做到了与时俱进,与现阶段的研究热点相结合进行更加深入的融合研究。现阶段知识元研究已经取得了一些成就,但是仍有一些不足的地方。

(1)从研究内容看,现有论文基本是从理论开展的基础性和普及性介绍,很少有贴近生活的知识元示例,读者在理解上有不同程度的难度。在知识元定义上,专家学者并未达成一致共识。在知识元表示上,大多只考虑了知识元本体,忽略了与各种领域知识相关的领域本体。现阶段图书馆学领域知识元研究基本都是在技术驱动下进行,并未真正与图书馆的知识服务相结合,以实现服务不同类型、不同层次的读者的需求目的。

(2)从研究深度看,现有对知识元的研究与图书馆的本质联系不够紧密,重点在技术而不是在服务,研究停留在理论层面上,没有与图书馆实践相联系,图书馆自身的纸质馆藏、电子资源并没有得到重视,而图书馆的读者也没有参与其中。

(3)从研究领域看,现阶段知识元研究多在图书情报、教育学、科学计量学、计算机学、管理学领域展开,其他学科的相关研究较少,与其他领域的融合研究很少,研究基本都是围绕文本信息的挖掘与处理进行。在图书情报领域缺少知识元同图书馆学目前热点问题相结合的研究。

当前我们能预见的知识元未来的发展方向,是知识元的研究粒度将越来越小,内涵将不断深化,结合时代发展和各学科热点问题的研究将变成主流。图书情报领域应从以下几个方面加强对知识元的研究。

第一,从融合视角探讨图书馆与知识元研究。信息技术驱动的知识元研究仅仅是研究的初级阶段,图书馆与知识元研究应当对领域知识的细粒度进行组织并且基于此提供知识检索与知识服务,不应该局限于简单的服务与支持层面,尝试融合数学、物理学中的理论来指导知识元研究,构建知识元模型的理论框架。

第二,营造良好的知识元研究环境。图书馆的服务本质、强大的纸本资源和购买的跨学科、多领域的数据库系统,以及读者的先天优势,能够在知识服务、知识标引、知识链接、知识构建等方面提供强有力的支持。同时,通过知识元研究成果的应用,图书馆可以完善文本知识单元检索系统,参与知识元模型的构建及实验,从而更好的提供服务,促进图书馆和读者的交流,促进两者的共同发展。

第三,拓宽知识元研究领域。在进行知识元研究时,可以融合信号处理的反变关系来研究知识元变换问题;也可以大胆引入范畴论,把知识元看成是特定的结构和态射。可以尝试进行与阅读推广服务、图书馆资源深度整合与揭示、基于文本挖掘的科技文献知识发现相结合,更好的进行研究。

猜你喜欢
图书馆学论文领域
电子战领域的争锋
将现代科技应用于Hi-Fi领域 Perlisten S7tse
2020 IT领域大事记
领域·对峙
本期论文英文摘要
本期论文英文摘要
本期论文英文摘要
中国比较图书馆学发展探究
2013年5—12月最佳论文
广西图书馆学会2013年年会暨第31次科学讨论会在贵港举行