基于CiteSpace的结缔组织病相关肺动脉高压的文献分析

2022-01-09 09:40杨晓倩张艺文秦莉汪汉
心血管病学进展 2021年12期
关键词:发文图谱聚类

杨晓倩 张艺文 秦莉 汪汉

(成都市第三人民医院心内科 西南交通大学附属医院,四川 成都610031)

结缔组织病(connective tissue disease,CTD)是一类与自身抗体循环相关的慢性炎症性自身免疫性疾病,具有多病因和异质性系统特征,可累及多器官[1-2]。动脉型肺动脉高压(pulmonary arterial hypertension,PAH)是一种平均肺动脉压升高超过25 mm Hg(1 mm Hg=0.133 3 kPa)的血流动力学状态,其特征是具有进展性和破坏性,最终导致右心衰竭和过早死亡,是肺动脉高压(pulmonary hypertension,PH)的一种类型[1,3]。PAH是CTD的一种严重并发症,是CTD死亡的重要原因之一,其主要继发于系统性红斑狼疮(systemic lupus erythematosus,SLE)、系统性硬化病(systemic sclerosis,SSc)、混合性结缔组织病(mixed connective tissue disease,MTCD)、类风湿关节炎(rheumatoid arthritis,RA)、原发性干燥综合征 (primary Sjögren syndrome,pSS)和多发性肌炎/皮肌炎 (polymyositis/dermatomyositis,PM/DM)等CTD[4]。结缔组织病相关肺动脉高压(CTD-PAH)的预后较差,右心衰竭是其死亡的主要原因[1]。为了解CTD-PAH的研究现状及发展趋势,利用引文可视化软件CiteSpace,对检索到的近十年的相关文献进行可视化分析,获取该领域的发展动态及规律,掌握研究热点和前沿方向,将分析结果以科学知识图谱方式呈现,旨在为相关研究提供参考[5]。

1 资料与方法

1.1 文献来源与检索策略

Web of science(WOS)数据库是获取学术信息的重要数据库,其收录的学术期刊都是具有权威性和高影响力的,其严格的筛选机制,使得收录的期刊质量高、信息可靠,受国际广泛认可。本研究以WOS核心合集为文献来源,以主题“connective tissue disease”OR“systemic lupus erythematosus”OR“systemic sclerosis”OR“mixed connective tissue disease”OR“rheumatoid arthritis”OR“primary Sjögren syndrome”OR“polymyositis”OR“dermatomyositis” AND主题“pulmonary arterial hypertension”为检索词,文献类型选择“Article”,语种选择“English”,时间跨度选择2010—2019年。将检索到的全部文献以全记录与引用的参考文献的纯文本格式导出。

1.2 方法

将下载下来的文献信息导入文献分析软件CiteSpace 5.6.R5,先除重,再将除重结果按年份绘制发文量年度趋势图。操作界面相关参数设置:时间设置为2010—2019年,时间分区设置为1年,主题词来源部分默认全选,然后在节点类型部分依次选择要分析的节点,如作者、机构、国家、关键词和被引文献等,选择标准部分设置Top为50,其余参数均为默认设置。对分析结果绘制可视化知识图谱。

2 结果

2.1 年发文量分析

共获得有关CTD-PAH研究的文献1 096篇,年均发文量约110篇。从图1可以看出,2010—2015年,发文量缓步上升,研究成果逐渐增多;2015—2016年,发文量小幅度下降;2016—2017年,发文量增幅较大,2017年发文量最多,为139篇;2017—2019年,发文量有所下降,可能是研究突破较小。总体来说,近十年来CTD-PAH的研究成果呈上升趋势。

图1 2010—2019年CTD-PAH研究的发文量趋势图

2.2 作者与引用作者分布情况

对2010—2019年的发文作者进行合作共现分析,了解这一领域具有影响力的学者。在CiteSpace的操作界面中,节点类型选择“Author”,运行软件后得到节点数524,连线数1 559的作者合作网络的知识图谱,见图2。图中一个节点代表一个作者,节点大小代表发文量的多少,节点越大表示发文越多,节点之间的连线表示作者之间的合作关系,连线越粗表示合作越频繁。其中发文量前五的作者依次为Humbert等(49篇)、Denton等(37篇)、Hassoun等(33篇)、Distler等(31篇)和Allanore等(29篇),同时也是该领域的核心作者。从图中可以看出该研究领域已形成稳定的合作网络,不同的作者有其各自固定的合作网络,但尚未形成核心作者群,且研究团队数量不多。作者被引分析得到节点数为151、连线数为697的作者共被引图谱,见图3,被引频次居前五的作者依次是Galiè(504次)、Humbert(339次)、Steen (302次)、Hachulla(272次)和Simonneau(268次)。综合分析结果显示Galiè、Humbert和Steen等是该领域最具影响力的学者。

图2 作者合作共现图谱

图3 作者共被引关系图谱

2.3 国家/地区及机构发文分析

将CiteSpace中节点类型设置为“Country”,对各国家/地区的文献数量进行统计。分析得到该研究领域共涉及40个国家/地区,不同国家/地区的研究水平和研究力度不同,发文量最多的是美国(337篇),第二为法国(138篇),第三为意大利(123篇),具体结果详见表1。美国的发文量远高于其他国家/地区,中心度却远低于其他国家/地区,表明其在该领域的研究成果较多,但与全球其他国家/地区的研究机构的合作交流较少。

表1 发文数量前十的国家/地区

此外,在CiteSpace的节点类型中选择“Institution”,运行后就得到各研究机构之间的合作共现图谱,见图4。该图谱有315个节点,1 262条连线,每个节点代表一个研究机构,节点年轮的大小和颜色表示发文的数量和时间,节点之间的连线表示机构之间的合作交流,连线粗细表示合作交流的强度。从图中可看出,发文量最多的机构是约翰·霍普金斯大学,为54篇,其在该领域的研究时间较早、较深入,成果较多,其余发文量较多的有巴黎大学、斯坦福大学、密歇根大学以及中国医学科学院,发文量依次有39、36、36和33篇。中心度第一的机构是圣文森特医院(0.15),虽然其发文不多,但与其他研究机构合作交流频繁,在该领域具有重要影响力。其余中心度较高的有拉德堡德大学、芝加哥大学、密歇根大学以及南京医科大学,中心度依次为0.14、0.12、0.11和0.10,表明这些研究机构都是在该领域有较大影响力的。从图中还可以看出,中国医学科学院游离在合作网络之外,与中心研究机构并无直接合作关系,其发文量主要集中在近两年,表明其在该领域的研究在近两年有较大的突破。机构之间的合作关系紧密,合作次数最多的是拉德堡德大学,其次比亚韦斯托克医科大学、密歇根大学等都与其他机构合作交流频繁。

图4 研究机构合作共现图谱

2.4 期刊与被引期刊

通过Bibexcel软件对发文期刊进行统计,发文量最多的期刊是JRheumatol(45篇),其次是ClinExpRheumatol(39篇)和ArthritisResTher(36篇),具体见表2。发文量前十的期刊的平均影响因子为5.907 6,有7本影响因子超过3.0,其中AnnRheumDis影响因子(14.299)最高,具体见表 2。从数据上看,CTD-PAH相关研究的总的研究成果不多,但大多质量高。

表2 发文量前十的期刊

在CiteSpace中分析被引期刊,得到节点数为89,连线数为358的期刊共被引图谱,见图5。共被引频次排名前五的期刊分别是ArthritisRheum(757次)、AnnRheumDis(703次)、JRheumatol(694次)、Chest(692次)和AmJRespCritCare(668次)。中心度居前五的为JClinInvest(0.25)、AmJRespCritCare(0.20)、JAmCollCardiol(0.17)、ArthritisResTher(0.13)和ArthritisRheum(0.12)。综合分析结果显示,ArthritisRheum和AmJRespCritCare可反映近十年的CTD-PAH研究基础。

图5 期刊共被引图谱

2.5 文献共被引分析

通过分析共被引文献,探究某一研究领域的发展和演进动态,其中高被引文献、高中心度文献和奠基文献构成了该研究领域的知识基础,知识基础可以进一步指明研究前沿。在CiteSpace的操作界面上选择“Reference”,分析得到节点数252,连线数1 108的文献共被引知识图谱,见图6。图中每个圆形节点代表一篇文献,节点大小和颜色分别代表被引频次和被引时间,节点之间的连线代表文献之间具有共被引的关系,节点的紫色外圈表明该文献的中心度较高,为关键节点,具有重要的学术价值,在该研究领域具有转折意义和承上启下的作用。被引频次前五的文献和中心度前五的文献见表3、表4,其中Condliffe(2009)[6]、Coghlan(2014)[7]以及Steen(2007)[8]的被引频次和中心度都高,影响力较高。

图6 文献共被引图谱

2.6 关键词共现及聚类分析

关键词是作者对文章的高度概括和总结,可体现文章的中心论点,通过关键词的共现分析,可以了解该研究领域的研究热点和发展趋势。在CiteSpace的节点类型中选择“Keyword”,剪切方式选择“Minimum Spanning Tree”,分析获得该研究领域的关键词共现网络图谱,见图7。该图包含158个节点,454条连线,每个节点代表一个关键词,节点大小和颜色表示关键词出现的频次和时间,节点之间的连线表示关键词之间的紧密程度。关键词频次排前十的是系统性硬化病(systemic sclerosis,512次)、动脉型肺动脉高压(pulmonary arterial hypertension,413次)、硬皮病(scleroderma,271次)、生存(survival,270次)、高血压(arterial hypertension,237次)、肺动脉高压(pulmonary hypertension,217次)、疾病(disease,193次)、诊断(diagnosis,164次)、结缔组织病(connective tissue disease,163次)和分类(classification,135次)。中心度排前十的是硬皮病(scleroderma,0.17)、生存(survival,0.15)、结缔组织病(connective tissue disease,0.14)、双盲(double blind,0.14)、SSc(systemic sclerosis,0.12)、风险因素(risk factor,0.12)、系统性红斑狼疮(systemic lupus erythematosus,0.12)、间质性肺疾病(interstitial lung disease,0.11)、肺动脉高压(pulmonary hypertension,0.11)和患病率(prevalence,0.10)。综合热点关键词为硬皮病、生存、CTD、SSc、SLE和PH等。通过分析这些热点关键词可以了解到该研究领域的研究热点,其中硬皮病和SLE相关的PAH及CTD-PAH患者的生存等都备受关注。

图7 关键词共现图谱

采用对数似然比算法对关键词进行聚类,形成8个聚类标签:#0 endothelial cells(内皮细胞)、#1 lung(肺)、#2 bosentan(波生坦)、#3 pulmonary hypertension(肺动脉高压)、#4 irf5(干扰素调节因子5)、#5 heart(心脏)、#6 skin involvement(皮肤受累)和#7 safety(安全),见图8。采用Modularity指标和Silhouette指标来衡量聚类结果,该聚类的Modularity=0.424(>0.3),说明聚类结果合理,Mean Silhouette=0.614 6(>0.4),说明聚类内部的同质性好,聚类结果可信。关键词的聚类可显示出近十年的CTD-PAH研究的热点主题,并且通过分析这些聚类主题可得出此研究领域的发展规律及方向。

图8 关键词聚类

2.7 动态前沿演化图谱

将关键词以时间序列图谱的形式展开,显示该领域的研究前沿随时间的演变趋势和相互影响,见图9。该图中,按关键词第一次出现的时间先后排列,从左至右,其节点大小和字体大小表示关键词出现的频次。从图中可看出不同的时间段有不同的研究前沿,近两年的研究前沿有pSS、特发性肺纤维化、中国SLE治疗、风险分层、右心导管检查和巨噬细胞等。

图9 关键词的时区图

对关键词进行突现分析,共得到42个突现词,见图10。突现词表示在短时间内对其的研究兴趣和强度突然增加,突现词的突变度越高,越有可能成为该研究领域的研究热点和发展方向。从图中可看出,突变度前五的依次是bosentan(波生坦,8.294 9)、endothelin receptor antagonist(内皮素受体拮抗剂,6.576 1)、criteria(标准,6.384 4)、meta-analysis(荟萃分析,6.198)和vascular disease(血管疾病,6.108 9),是当时最受关注的研究主题,近几年备受关注的热点有right heart catheterization(右心导管检查,4.828 3)、mortality(死亡数目,3.037 2)、heart(心脏,3.151 4)、criteria(标准,6.384 4)、manifestation(表现,2.599 9)和meta-analysis(荟萃分析,6.198)等。

图10 前42位关键词突现分析

3 讨论

本文利用可视化软件CiteSpace对WOS上近十年的有关CTD-PAH的文献进行共引分析,通过科学知识图谱直观地展现该研究领域的国家、机构、作者与被引作者、被引文献、关键词和突现词等,从而探究该领域的发展现状及发展趋势,为进一步的研究提供参考。

从文献数量上看,发文量整体呈上升趋势,表明该领域受到的关注度逐渐增强,年均发文量约110篇,表明该领域的研究前景较好,2016—2017年增幅较大,表明研究可能有较大突破。高产作者是法国巴黎十一大学的Humbert教授,其对PH有很深入的研究,发现CTD-PAH患者对一种可溶性鸟苷酸环化酶刺激剂riociguat的耐受性良好[13]。Galiè、Humbert等是该领域被广泛引用的作者,Galiè主要研究PAH及其相关并发症,包括CTD-PAH[14]。总体来看该领域仍旧缺乏核心作者群,并且各研究团队之间的合作并不多。

从国家/地区来看美国在该领域的发文量最高,为337篇,法国和意大利的发文量也相对较高,表明中国与其他国家/地区之间的合作并不密切,应加强与其他国家/地区的合作交流,共同推进该领域的发展。由机构分析可知,研究该领域的机构主要集中在高校,其中发文量最多的是美国的约翰·霍普金斯大学(54篇),其对CTD-PAH的研究比较深入,在该领域颇具影响力,发文量前五的还有法国的巴黎大学、美国的斯坦福大学和密歇根大学以及中国的中国医学科学院,由此可见,美国、法国和中国都比较关注CTD-PAH这个领域。另外,国内的南京医科大学的中心度居第五,表明其与其他研究机构合作交流频繁。总之,在这一领域,中国应鼓励国内相关研究机构多合作交流,同时增强与国外研究机构的科研合作,有利于在该领域的进一步发展。

该领域的研究成果目前多发于风湿病学类期刊和呼吸系统类期刊,收录文献最多的期刊是JRheumatol,它反映了CTD-PAH研究领域的研究基础,有助于学者了解该领域的最新动态。发表文献多的还有AnnRheumDis、EurRespirJ和Chest等较高影响力期刊,可见该领域的研究成果质量颇高。被引用最多的期刊是ArthritisRheum,其次有AnnRheumDis、JRheumatol、Chest和AmJRespCritCare等,JClinInvest、AmJRespCritCare、JAmCollCardiol、ArthritisResTher和ArthritisRheum等为中心度高的期刊,高被引频次期刊和高中心度期刊可反映该领域的研究水平和学术权威,ArthritisRheum和AmJRespCritCare既是高被引频次期刊又是高中心度期刊,说明这些期刊对该研究领域有重要影响力。

在被引文献分析中,高被引频次文献和高中心度文献反映该领域的知识基础,研究知识基础是分析前沿演变的重要步骤。被引频次前五的文献和中心度前五的文献主要涉及的研究主题有:CTD-PAH患者的预后和生存率[6];尽早发现PAH是SSc的主要死亡原因,有助于早期治疗[8];CTD-PAH患者的诊断和治疗[10];分析CTD-PAH患者的临床特征[11];评估系统性硬化病相关肺动脉高压(SSc-PAH)患者在诊断时的临床特征及其长期预后[8]。

关键词的共现和聚类分析,可以反映该领域的研究热点和未来的研究方向。本研究结果显示,CTD-PAH相关的热点关键词有硬皮病、生存、CTD、SSc、PH、诊断、分类、双盲、风险因素、SLE和患病率等,这些关键词主要涉及的研究热点是CTD-PAH的诊断、分类,类别中关于硬皮病、SSc和SLE的研究最多;CTD-PAH研究相关的双盲试验、风险因素;CTD-PAH的患病率;CTD-PAH患者的生存质量等。关键词聚类分析共形成8个聚类标签,这些聚类主题可反映该领域的研究现状和发展情况。结合聚类标签分析发现该领域主要研究主题有CTD-PAH的发病诱因及机制[15-17],PH的筛查工具[18],CTD-PAH患者的生存率[19],CTD-PAH的治疗药物[19-20],SSc患者的PH患病率[20],SSc-PAH患者的预测、筛查、诊断、治疗、生存率及预后价值的评估[21-24]。

将关键词以Timezone的形式展开后,可以看出每个时间段的热点关键词,现时期的研究关键词包括pSS、特发性肺纤维化、中国SLE治疗、风险分层、右心导管检查和巨噬细胞等,预测未来将围绕这些关键词继续探究。此外,从该关键词时区分布情况看,该领域的研究内容逐渐丰富,涉及的领域逐渐增多。突现词可以探测某领域未来的研究前沿和热点,在一定程度上揭示该领域的研究发展趋势。对近十年CTD-PAH研究领域的突现词进行分析可知,bosentan、endothelin receptor antagonist、criteria、meta-analysis和vascular disease等关键词的突变度较高,其中bosentan的突变度为8.294 9,说明该药物在该领域的研究热度较大。目前新兴的研究热点有right heart catheterization、mortality、heart、criteria、manifestation和meta-analysis等,一定程度上表明了该领域未来的研究方向。

4 小结

本文通过对来源于WOS数据库的CTD-PAH相关文献进行文献计量可视化分析,结果直观地显示了该领域的发展动态及不足之处,总结并归纳了该领域目前的研究热点及未来的发展趋势,为该领域的进一步研究提供了参考方向。本文的局限性在于仅收集了WOS数据库的英文文献,未收集中文和其他语言的文献,所以在数据收录上存在一定局限性,需考虑其对研究结果的潜在影响。

猜你喜欢
发文图谱聚类
七部门联合发文 进一步完善和落实积极生育支持措施
一种傅里叶域海量数据高速谱聚类方法
基于图对比注意力网络的知识图谱补全
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
图表
校园拾趣
爷孙趣事
以牙还牙
主动对接你思维的知识图谱