贾芳弟,刘 继
(新疆财经大学统计与数据科学学院,新疆 乌鲁木齐 830012)
自2019年12月以来,新型冠状病毒肺炎对人类社会的诸多方面产生了不良影响。面对这一特殊的传染性疾病,学术界开展了大量与新型冠状病毒肺炎(COVID-19)相关的科研工作[1-3]。随着科研人员对COVID-19研究的深入,其引文网络逐渐形成了一个超大规模的复杂网络系统,汇聚了大量信息。当前,学者对COVID-19相关文献的研究主要从研究进展[3-4]、上下文[5]以及研究热点[6-8]方面进行计量[7]、主题挖掘[9]及可视化分析[10-11]。在不断扩张的引文网络数据中,相似文献大量聚集形成了社团结构[12],而综述类文献凝聚了众多高质量的研究成果,为知识的创新与发展提供了重要的决策价值。对综述类文献的引文网络进行分析,能高效地提取COVID-19研究的结构分布,快速定位到各个领域中重要的理论知识和主要的研究方法。分析引文网络社团之间的重叠节点有助于厘清新型冠状病毒肺炎研究群体之间的关系,找到研究的交叉领域及“跨界”文献。
社团结构(Community Structure)[13-14]是网络最普遍的拓扑特性之一,表现为社团内部各节点之间连接紧密,而社团之间连接稀松,通常和复杂系统的功能模块与组成单元相对应。由于真实网络的社团之间普遍具有重叠节点,即一个节点同时存在于多个社团的现象,探测网络的重叠社团结构(Overlapping Community Detection)对理解网络结构及功能特性具有重要意义。
Palla等人[15]最先对社团间的重叠现象提出探测算法——团渗流(Clique Percorlation Method, CPM)算法,该算法基于连通性划分社团,通过相邻的完全子图挖掘社团之间的重叠节点。王旻霞等人[16]对科学知识网络做了分类,将作者共被引网络与文献共被引网络分为知识载体网络,把合作网络看作知识主体网络,将共词网络和标题共现网络视为知识本体网络。分析知识载体中文献共被引网络的重叠节点,能够挖掘到COVID-19研究中的一些关键文献和重要研究领域。
本文尝试从网络社团结构视角分析文献共被引网络,利用节点的结构与属性特征找到COVID-19研究中具有影响力的核心文献,并探索网络结构中关键节点的作用及新型冠状病毒肺炎研究中的交叉领域,同时,为其他领域的研究提供一种分析思路。
在Web of Science数据库核心数据集中(检索时间为2021年8月28日)进行关键字检索,查找标题中含有COVID、novel coronavirus pneumonia、coronavirus disease 2019、COVID-19的文献,得到129350条结果,导出文献类型为review的11403条全记录与引用的参考文献文本数据,经CiteSpace去重后得到8519条唯一记录。如图1所示。
(a)数据信息 (b) 各年份发文量分布
运用CiteSpace对施引文献中的相关内容进行计算,施引文献是指原文献,包含文献标题、摘要、机构、国家、关键词等要素。图1(a)统计了数据的信息,11403条数据中摘要(AB)的覆盖率为98.562%,数字对象唯一标识符DOI的比例为96.571%,PMID显示生命科学和医学等领域的文献有85.434%,含有关键词(DE)的数据占总数据的88.766%,补充关键词(ID)的占比为78.471%;图1(b)给出了各年份的文献分布情况,可以看出大部分综述发表在2020年,还有2篇将在2022年发表。整体来看,有关COVID-19的综述类文献的发文量随时间下降:一方面,说明相关领域的研究已进入深水区;另一方面,反映出学者对COVID-19的研究热情逐渐降低,注意力逐渐转移。
介数中心性(Between Centrality, BC)是全局性指标,指网络中2点之间必须经过某点的最短路径数目占这2点之间的最短路径总数之比,可以衡量节点对网络信息流动的影响,找到在网络结构中起着桥梁作用的节点[17]。其公式为:
(1)
模块度(Modularity)Q是一种常用的衡量社团划分质量的指标,其基本思路是把划分成若干社团结构的网络与具有相同边数的ER随机图进行比较。Q值越大,说明社团划分的质量越好[18]。具体公式为:
(2)
其中,m表示网络的连边数量,aij表示实际网络中节点i与节点j的连边情况,pij为零模型中节点i与节点j之间连线的期望值。Ci、Cj分别代表节点i与节点j在网络中所属的社团,若节点i、j属于同一个社团,那么δ=1,否则δ=0。
聚类轮廓值S(Silhouette)是衡量某个聚类内部成员同质性的指标,取值范围为[-1,1]。S值越接近1,说明聚类成员间相似性越高,S值越接近-1,聚类效果越差。一般认为,S>0.5的聚类就是合理的,S>0.7意味着聚类是令人信服的[19]。
(3)
其中,dist(i,j)表示节点i与节点j的距离。ai主要衡量节点i与同簇中节点j的平均距离,ai越小越合群Ci;bi描述了节点i可能适合的最佳替代集群Ck。如果集群配置合理,那么ai将小于等于bi,否则,表明节点i被聚到了一个“错误”的集群中,此时ai大于bi。为了说明聚类效果,因此专门设计了2种情况以示区分,即S(i)的范围在[-1,1]之间:当S(i)为正时说明聚类效果是好的,当S(i)为负时表示糟糕的聚类效果。
CiteSpace是一个整合了视觉思维、数学思维和哲学思维设计的信息可视化软件,是基于科学发展模式理论、结构洞理论、信息觅食理论和知识单元离散与重组理论,结合引文分析方法设计的科技情报分析工具[20]。通过创建矩阵、降维和聚类等步骤,以及标签提取算法,可以建立带有标签信息的聚类图谱。
若2篇(或多篇论文)同时被后来一篇或多篇论文引证,则称这2篇论文构成共被引关系。这种关系会随时间的变化而变化,可以用来刻画文献的影响力与重要性。使用CiteSpace文献共被引分析功能可以凸显研究主题,揭示文献间的内在联系与规律。因此以被引文献为节点,其共被引关系为纽带,由cosine计算连接强度,得到1960个节点、7117条边的文献共被引网络。图2是共被引网络中节点的统计信息,图2(a)展示了该网络的度分布情况,图2(b)是对文献的特征分析。
(a) 度分布 (b) 文献被引特征
由图2(a)可知,双对数坐标下度分布近似线性,说明该文献共被引网络中节点的度分布服从幂律分布。被引频次是节点的属性特征,度值是节点的拓扑结构特征。大部分文献的被引频次较低,只有极少数文献的被引频次较高。进一步分析文献被引频次与其度值的相对关系。先做归一化处理,再将二者相减,得到一个相对差值,具体分布如图2(b)所示,其中文献ID越小表示共被引频次越高。高被引文献与其他文献的共现机会更多,故节点的度值更大,被引频次小的文献度值相对较小。说明引文网络中节点的度值能在一定程度上反映节点的属性特征,即文献的质量。
文献共被引聚类图谱,可以帮助人们对当前的研究有一个整体的认识。当一些参考文献比其他参考文献更频繁地被共同引用时,就会出现参考文献分组或群集。图3中每个聚类都被算法分配了一个自动生成的聚类标签,能够反映出被引用文献的共同主题,根据这些相似文献的共同主题,可以清楚地了解COVID-19综述文献主要关注的研究方向。由簇的大小,可以看出COVID-19研究中知识的分布情况。聚类标签词反映了共同主题,用对数似然算法从标题中提取聚类标签,具体结果如图3所示。
在图3中,模块度Q值(0.8612)和聚类轮廓S值(0.955)都比较高,意味着共被引聚类能够界定出COVID-19的各个子领域(聚类图谱过滤掉了聚类规模小于10的子领域)。标有#的字体为聚类标签,带有年份的字体是各个聚类主题下被引次数最高的典型文献,即每组主题中最核心的知识。同一个聚类中的节点数字相同,且同一个聚类的节点颜色相同,节点的面积表征了相应文献在数据集中被引用的次数。在该图谱中,聚类编码越小,聚类规模越大。限于篇幅,表1仅展示了22个主题中17个聚类主题的具体信息。
表1中CID为聚类编码,Size为聚类规模,S为聚类轮廓值,Label为聚类主题标签。
由图3和表1可知,最大的聚类模块为#0 COVID-19 treatment,由聚类标签词可以看到,在22个研究主题中,有6个聚类标签含有COVID-19;这些主题除了与COVID-19有关外,还和临床医学相关,例如#20 cutaneous maniestation(皮肤病)、#15 diabetes mellitus(糖尿病)、#3 neurological manifestation(神经系统表现)、#9 liver injury(肝损伤)、#12 pedatric patient(儿科患者)等,这些主题均是新型冠状病毒肺炎肆虐以来临床实践中比较关注的问题。值得注意的聚类主题是:#1 systematic review(系统性综述),该聚类主题是宏观的方法论概括,且聚类模块位于网络中心位置,和其他聚类之间联系紧密。
表1 聚类主题信息
CiteSpace基于结构洞理论,设置介数中心性指标以识别知识网络中的关键桥节点[20]。根据这一指标,如图4所示,找到了其中介数中心性最高的节点:Huang C Z, 2020, LIMIT ANALYSIS THEORY OF THE SOIL MASS AND ITS APPLICATION。该节点与多个聚类中的节点存在连边关系,其拓扑结构有分析价值,说明聚类主题中含有控制网络连通性的重要节点。
图4 聚类#1中高被引文献的共现关系
需要说明的是,由于CiteSpace在生成聚类标签时每次得到的结果稍微会有变动,但整体上来说没有特别的变化,所以图4中仅仅为了突出高被引文献的共现关系,对聚类编码与聚类主题标签不相符的未作调整。
CiteSpace软件开发者陈超美教授认为,如果一个作者的研究连接了原来并不关联的多个聚类,那么该作者具有很大的变革性潜力[21]。由图4该节点所在的聚类标签可知,该节点所在的社团是与系统性综述相关的主题,在不同子领域中都存在,故该节点的邻居节点之间分布较为松散。预测Huang C Z等人的这项工作还会持续性影响更多领域及工作,对多学科交叉会起到很大的帮助。由聚类图谱图4可知,部分聚类之间分布较为紧密,社团间可能存在重叠节点。
为进一步分析聚类之间的关系,将网络转化成无权无向网络,此时网络有节点1947个,连边6958条。CPM算法能够识别出结构紧密的社团结构,能探测到共被引网络中的重叠节点,且输出结果稳定。为保证一定的连通性以及较好的社区结构,完全子图K(最小子图)通常取在3到6之间[15]。这里设最小子图K为4,即过滤掉节点数目小于4的社团,得到45个联系紧密的社团结构,共发现78个重叠节点,其中有7个同时跨3个社团的节点,71个同时归属于2个社团的节点。表2列出了至少跨3个社团的节点信息。其中:ID为节点编码;label为节点标签;K为节点的度;Freq为被引频次,可看作节点的属性特征;BC为介数中心性,为了更明显地比较BC值的大小,此处的计算未作归一化处理。
表2 重叠节点
如表2所示,ID中除了数字外另有4类符号,包括“^”、“*”、下划线、着重点,具有相同符号的节点属于同一个社团。由节点ID的符号可知,重叠节点之间关系紧密,推断ID652与ID1154是该网络中的核心节点。根据ID信息找到“跨界”文献“Hoffmann M, 2020, CELL”与“Wrapp D, 2020, SCIENCE”。
由表2可知,这些重叠节点的度值均大于10,位于度分布的前25%,因此可以看作该网络中的大度节点,说明这7篇参考文献比其他参考文献被共同引用得更频繁。结构洞为介数中心性较大的节点,表2中介数中心性值最小的节点也排在网络的前19%,说明这些文献所处的位置十分关键,故7个节点均为该网络中传输能力较强的节点。
2020年王伟等人[22]用重叠社团发现算法提取学科主题,并揭示引文网络中重叠节点的角色。他们根据重叠节点的位置将重叠节点分为2类,具有大度和高介数中心性的核心节点掌握着重要信息,因此主题间的研究内容高度相关;度小且介数中心性低的边缘节点则起着引入分析方法的作用,边缘节点使得主题间的分析方法较为相似。这2类节点在网络中分别承担核心和桥梁的角色。由此可知,这7个重叠节点都起着核心的作用。
综合ID符号、度、介数中心性,确认ID652所代表的节点是该网络的核心节点,可用表2中的被引频次进行验证。文献“Hoffmann M, 2020, CELL”在7个重叠节点中具有最高的被引频次,该文在此数据集中的被引频次为1226次。该文证实了新型冠状病毒感染者的血清能够阻断S蛋白介导的病毒侵入,从而证实了人类能够产生中和抗体来抵抗新型冠状病毒[23]。这一信息对疫苗的研发及COVID-19的治疗很重要,在COVID-19的研究中起到突破性的奠基作用。这篇文献对COVID-19的研究确实有重要意义,它极大地吸引了学者的关注,这说明由CPM算法挖掘到的核心文献十分合理,表明了通过重叠节点可以找到有跨界意义的核心文献。
文献共被引网络是对知识载体的分析,通过节点的属性既能挖掘到领域内经典的工作,也可以识别出在知识生产、运用及传播过程中有影响力的研究人员,还能挖掘到标志性期刊。只要一篇论文不断地被引用,那它就称得上是经典文献。被引用次数急剧增加的文献,表明它们特别值得注意。
为深入分析文献共被引网络的节点信息,用被引频次衡量文献质量,挖掘高质量文献。表3列出了前15篇高被引文献,以找到COVID-19研究的知识基础与方法论。
由表3可知,15篇高被引文献均属于大度节点,说明这些文献有一定的影响力。发表年份均为2020年,其中有1篇NATURE,2篇JAMA-J AM MED ASSOC,3篇NEW ENGL J MED,4篇LANCET。文献之间具有一定的相似性,且分布比较聚集,主要来自聚类#1和聚类#0,其聚类标签分别是“systematic review”和“COVID-19 treatment”。由表1可知,这2个聚类都是规模较大的主题。规模越大代表研究主题相似的文献越多,即这2个主题是学者们重点研究的内容。根据文献的引用频次,得到了质量较高、相对重要的被引文献和被引作者。该数据集中被引频次最高为3057次,是Huang[24]2020年编写的一本关于土体极限分析理论的书,书名为“LIMIT ANALYSIS THEORY OF THE SOIL MASS AND ITS APPLICATION”。
表3 前15篇高频文献
文献共被引网络的平均度为7.114,网络直径为19,平均路径长度为5.702,平均集聚系数为0.527。该网络的平均集聚系数较高,平均路径较短,为5.702,即最多通过6篇文献便可以到达任意一个研究领域,这与地球村、命运共同体的理念不谋而合,异曲同工,最终都可归于网络结构中存在的小世界现象。根据介数中心性找到知识网络信息流通中不可替代的桥节点,即具有变革性的文献[25]。追踪位于结构洞的文献能够快速找到各个领域的研究热点与基本原理,吸收关键信息,从而为与COVID-19相关的科技创新提供重要帮助。表4列出了前15个桥节点。
表4 前15个桥节点
通过介数中介性指标在523个聚类中筛选出来自8个聚类的15个关键桥节点,说明各个研究主题紧密联系。这与2021年贺天伟[26]基于发表论文期刊所属的学科分析全球新型冠状病毒肺炎研究的产出情况得到的结论一致,各个学科领域相对集中。
表4与表3相比,找到的文献分布更加分散,聚类主题更丰富;与高频文献的聚类分布相似,大部分文献在聚类主题#0和#1中,其中有6篇同在聚类主题#1中,3篇文献属于聚类主题#0;这30篇高频和高介数中心性文献共有7篇重合,其中2篇来自#0,5篇位于#1,重合文献用“**”对Author进行了标注。这说明COVID-19综述文献中对#1 systematic review和#0 COVID-19 treatment这2个主题的研究更多,学者们主要从宏观角度系统性分析肆虐全球的COVID-19。
重叠节点和介数中心性是从网络结构角度分析节点的影响力,而被引频次是对文献信息重要性的衡量,是节点的属性信息。7个重叠节点中含2篇高被引频次文献,分别是“Hoffmann M, 2020, CELL”与“Xu Z, 2020, LANCET RESP MED”,说明这2篇文献处于核心位置且影响力大。15个高介数中心性节点中包括7篇高被引文献与1个重叠节点。在表2~表4中,部分文献重复出现,本文用重合度进行衡量。由于重叠节点选出了7篇文献,而高频文献与高介数中心性文献各选出15篇,在比较时,规模相同的直接进行比较,规模不同时则以少的为准。如重叠节点与高频文献之间,只需对比前7篇高频文献之间的重合情况,而分析高介数中心性文献与高频文献时,则要比较所有的文献。通过两两对比,找到更为完备的组合。重合度分析混淆矩阵如表5所示。
表5 重合度分析混淆矩阵
由表5可知,重叠节点与介数中心性的重合度最小。主要的原因是选出的重叠节点具有一定的核心特征,而介数中心性找到的是关键的“桥”。“桥”的作用是连通,而核心的作用是集聚,故将二者进行组合既能够挖掘到经典文献,又能获取到关键的桥信息。这样能快速找到更为丰富的科研成果,有助于成功打通各个学科与领域之间的知识壁垒。
综上所述,在没有先验信息的情况下,可以用CPM算法探测文献共被引网络中的重叠社团结构,挖掘研究领域中的核心文献,快速找到要点信息。在需要打通领域间的壁垒、找到共同要素、实现跨学科交叉时,则选择介数中心性指标定位到关键的桥,借助“桥”进行知识的贯穿与融合。
通过挖掘文献共被引网络的重要节点,快速捕获COVID-19综述研究中的核心文献和主要研究者。根据重叠节点ID找到2篇“跨界”文献“Hoffmann M, 2020, CELL”与“Wrapp D, 2020, SCIENCE”。文献“Hoffmann M, 2020”揭示了SARS-CoV-2和SARS-CoV感染之间的重要共同点,确定了抗病毒干预的潜在靶点[23]。“Wrapp D, 2020, SCIENCE”这篇论文发表于国际一流学术期刊《科学》,研究者用冷冻电镜技术分析了2019-nCoV表面S蛋白的近原子结构[27]。由此可知,这2篇文献都是探索COVID-19研究中跨越式的工作。根据被引频次与介数中心性找到方法论文献“Huang C Z, 2020, LIMIT ANALYSIS THEORY OF THE SOIL MASS AND ITS APPLICATION”[24],该文的被引频次与介数中心性值都是该网络中最高的。高介数中心性节点有利于不同领域间知识的结合与创新,说明这篇高质量文献对COVID-19的研究起到了承上启下和联通的作用。综合表2中重叠节点的ID符号、被引频次、度和介数中心性值找到重要的核心文献“Hoffmann M, 2020, CELL”,这篇文献不仅在网络的拓扑结构中比较重要,而且在节点属性上也很突出,它是COVID-19相关研究中关键的知识基础。这说明文献共被引网络的重叠节点与桥节点具有一定的研究价值。
1)经上述实验发现,文献共被引网络的结构与属性反应的信息不同。拓扑结构方面,主要关注网络中有一定功能的关键节点,在不同的功能上,找到的关键节点有所不同。重叠节点更关注“跨界”功能,高介数中心性节点更能凸显“桥”功能。节点属性方面,为反映文献质量,以文献的被引频次对文献质量进行量化。高被引文献全部来源于规模较大的聚类主题#0 COVID-19 treatment与主题#1 systematic review,分别代表了新型冠状病毒肺炎研究的基础理论和方法论。
2)网络重叠社团视角能够找到不同领域之间的共同点,这有利于挖掘领域间的理论共识。说明重叠社团探测为找到本质、联通领域间的知识与资源、促进不同学科的理论发展,提供了一定的分析方法。在新型冠状病毒肺炎综述文献的共被引网络中,由团渗流算法探测到78个重叠节点,其中,超过91%的重叠节点跨2个社团,少部分的重叠节点跨3个社团。研究发现高重叠节点往往处于社团的核心位置,它们对不同主题的创新和发展起到了关键作用。基于本文的分析,推测跨社团越多的重叠节点越具有核心价值。
3)重叠节点与桥节点的组合,可以有效挖掘文献共被引网络中的关键文献。由本文的研究可知,少部分重叠节点位于网络核心,大部分处于社团间的边缘地带。本文并没有对同时跨2个社团的重叠节点进行细致的分析,边缘重叠节点可能与BC值较大的桥节点有一定的相似性,边缘重叠节点的功能值得未来继续挖掘。
本文以Web of Science核心数据集中的8519篇COVID-19综述文献为分析对象,采用CiteSpace知识图谱分析工具构建文献共被引网络,分别从节点的结构和属性2个维度进行分析。基于重叠社团得到新型冠状病毒肺炎研究中的交叉领域为涵盖各种方法的系统性综述;基于介数中心性挖掘到位于结构洞的研究领域,不仅有新型冠状病毒肺炎、神经系统表现、静脉血栓栓塞症等临床医学疾病的治疗,还有系统性的方法论综述。通过节点属性信息的验证,发现CPM算法可以用来搜索重要的核心文献,表明了网络拓扑结构中包含一定的背景知识。经重合度对比分析,得到根据重叠节点和介数中心性指标找到的文献相似度最低的结论,故二者的组合能够有效筛选出重要的核心文献。
由于本文的研究是对网络拓扑结构和节点属性分别进行分析,下一步的工作将是结合二者的信息同时进行文献共被引网络的社团探测,提升文献共被引网络的交叉主题分析效率。