马勇
探究学科领域知识网络当中知识主题及其演变过程,有助于快速掌握领域知识网络研究现状及其变迁行为。
21世纪以来,随着科技技术的进步,各种科技文献数量与日俱增。对于科研工作者们而言,从早先对相关研究领域文献获取的困难转变为当前文献资源选取的困难。如何有效地在海量科技文献当中,识别出科学研究主题以及其变化行为成为研究重点。近年来,学术界对于领域知识网络的探测开始注重从知识之间的结构关系出发。如在图书情报界,学者们在知识网络当中基于宏观结构发现了“小世界”网络以及“无標度”网络的特征,基于微观结构则发现了网络当中的“模体”特征。而知识群落则是介于宏观与微观结构之间的网络结构特征。知识群落基于时间序列的演化变迁,为揭示领域知识网络科研主题的演化过程、规律以及对于新兴主题的探测具有至关重要的意义。
本研究以复杂网络分析方法融入关键词网络,基于关键词之间的结构关系进行关键词网络层次提取,结合时间序列因素,在层次提取的基础上,采取兼顾节点以及节点之间的关联频次改变的Louvain(鲁汶)算法对知识群里演化进行分析研究。
研究数据与流程
在图书情报领域,对于某一领域的研究主题识别和发现,传统的计量学方法存在着种种缺陷,而且研究发现,即便通过知识群落算法将网络分成了不同的知识群落,但是在知识网络演化生长过程中充斥着大量频次为1的关系结构,网络当中许多知识之间的联系存在偶然性或随机性。知识关联频次的强弱不同,代表知识群落当中紧密的知识团体的区分。为了排除这种随机性,需要基于关联频次进行层次提取,将不生长的知识体系剔除,使网络当中更加紧密、显著的知识结构凸显出来,从而了解网络中成长的核心知识体系。
本文以中国知网的数据库为数据获取来源,以主题词“Folksonomy”或“社会化标注”或“社会标注”或“大众分类”为检索公式进行高级检索。期刊级别锁定为CSSCI,检索时间跨度从2002—2018年,累计获取相关文献194篇,关键词数量369个,关键词关联关系对数1019对。具体数据如表1所示。
文中构建的关键词知识网络,节点代表关键词,不同的关键词出现在同一篇文献当中,所形成关联关系构成网络当中的边;以关键词之间的关联频次作为权重,所构建的关键词知识网络为无向加权网络。随着时间序列的推移,网络当中比较活跃的关键词知识节点将与其他活跃的关键词知识节点建立关联关系,从而形成关键词网络当中更加密集、显著的知识群体。
四项研究结论
通过基于复杂网络的理论方法融合时间序列因素,对中国知网中的特定领域的相关文献以及文献当中的关键词、关键词关联关系进行抓取,分别对原网络、层次网络展开分析,以及通过层次知识网络与原网络的对比,初步可以得出以下结论:
第一,采取关联频次提取使得原始关键词知识网络一些规模较小的动态知识群落得以突出呈现。原网络当中2018年时间窗口下,知识群落KC2—5最大仅有5个节点。在经过频次提取后仍然保留两个节点“网络信息检索工具”“因特网大众分类法”,并且形成唯一的知识群。提取包含该关键词的两篇相关文献发现,文献《因特网大众分类法的本质属性》被引频次达到25次,另一篇《因特网大众分类法若干问题的探讨》则达到7次。这也间接说明,即便是小规模的知识群里也同样有较大的学术价值。采取关联频次提取,则使得这些动态生长的小规模的知识群落当中的核心知识得以凸显。
第二,经过层次提取后的知识网络所形成的知识群落更加规则。在原关键词知识网络当中,度值较大的关键词知识节点经常出现在规模小的知识群落当中,高Hub(多端口转发器)节点往往没有良好的成团优势,这不利于对网络当中的Hub知识群里进行追踪。而在经过层次提取的关键词网络所形成的知识群演化过程中,规模越大的知识群里其当中拥有的Hub节点的度值更大。知识群落更加有序化,这有助于捕捉Hub节点以及知识群落的演化路径。
第三,经过层次提取后的知识网络仍然保留了原网络当中的重要属性,并没有破坏原有知识网络的演化变迁特征。在原网络当中,2013年时间窗口下知识群里发生裂变行为,这一特征在经过层次提取后关键词知识网络所形成的知识群落演化过程中仍然保留。另外,经过层次提取后,剩下的知识节点覆盖了原网络中几乎所有动态生长的知识群,这一现象在网络中后期越发突出,并且包含了原网络当中大部分高度的节点。原关键词知识网络当中显著知识节点,以及动态生长知识群落等重要的属性特征都得以保留。
第四,经过关联频次提取后的知识节点更加紧密。以关联频次为层次提取标准,保证了每一个节点都具有生长性,同时保全高Hub节点与低度值节点的可能紧密结构关系。对比核心知识体系的组成,依托知识间共同生长的紧密关系,而非完全来源于Hub节点构成,使得一些潜力或者重要的知识节点得以保留。同时也反映了真实知识网络核心知识团体的重要特征,并非度值越高的知识节点关联关系就越紧密。
采取层次提取后的知识网络,极大地简化了原有的网络规模,凸显了原网络当中所有生长型知识群里和显著性知识节点。这些将有助于在当前海量的文献资源当中,快速精准定位某一领域中所有热门,以及具有潜力的知识群里以及当中的核心知识。但同时这种方法也存在局限性,需要下一步的研究当中,采取动态阈值的提取方来保障提升基于知识之间关系结构层次的有效性。
(作者单位:宁波大学科学技术学院)