基于CNKI 的中药治疗乳腺癌知识图谱可视化分析∗

2022-04-06 03:58李文杰赵田田李国徽郭新荣
西部中医药 2022年3期
关键词:图谱聚类乳腺癌

李文杰,赵田田,蒋 啸,罗 原,李国徽,郭新荣△

1 陕西中医药大学,陕西 咸阳 712046;2 宁夏医科大学附属银川中医医院

乳腺癌是指乳腺导管上皮细胞在各种内、外致癌因素的作用下,细胞失去正常特性而异常增生,以致超过自我修复的限度而发生癌变的疾病[1],是目前世界上女性最常见的癌症,影响着数百万患者及其家人[2]。据相关调查显示,我国乳腺癌的发病率及死亡率均呈上升趋势,位居我国女性癌症发病谱之首,严重危害了我国女性患者的身心健康[3]。中医药防治乳腺癌历史悠久,许多现代研究表明中医药在治疗乳腺癌方面发挥了重要作用,通过提高综合疗效,改善了患者生活质量,最终延长了患者生存期[4]。但随着科技的发展和对中药治疗乳腺癌研究的不断深入,手工检索方式已无法及时有效对文献信息进行全面挖掘、整理和总结。因此,本研究采用文献计量分析法,并借助可视化软件CiteSpace,从整体上把握中药治疗乳腺癌的研究动态,绘制知识图谱,清晰呈现该领域的研究状况,并在此基础上厘定前沿热点,以期为广大研究者提供参考和方向。

1 资料与方法

1.1 数据来源本研究以中国知网(CNKI)中国期刊全文数据库为数据源,检索类型选择高级检索,输入检索条件设定为“主题=中药and 乳腺癌”(精确),时间限定为2003—2018 年。共检索出文献575 篇,通过人工筛选去重和剔除会议通知、报道、新闻、征稿等不相关文献168 篇后,最终纳入文献407篇。

1.2 数据转换将检索出的407 篇文献以Refworks 格式导出并保存,保存的文件名称格式为download-***.txt,每条文献题录数据中主要包含AU(发文作者)、C1(发文机构)、TI(题目)、SO(所发期刊)、AB(摘要)、DE(关键词)等信息。通过CiteSpace 软件自带的格式转换器将CNKI 数据转化为软件可识别的数据格式。

1.3 研究方法美国Dexrel 大学陈超美教授研发的基于Java 平台的CiteSpace 是在科学计量学、数据和信息可视化背景下逐渐发展起来的一款多元、分时、动态的引文可视化分析软件[5]。它可以帮助科研工作者更加直观准确地对所研究科学领域的相关问题进行定性和定量研究,从而发现潜在趋势[6-7],已广泛应用于如医学、情报学、教育学、信息科学、环境科学等领域中[8-11]。本研究通过搜索中国知网收载中药治疗乳腺癌相关文献,应用CiteSpace(版本:5.5.R1)软件对其关键词等进行知识图谱的可视化分析。

2 结果

2.1 研究热点分析关键词是文章主题的高度凝练,通过关键词共现可以直观观察中药治疗乳腺癌主题之间的亲疏关系,并通过词频、中心性排序分析出研究重点及热点[12]。

在CiteSpace 软件中设定时间跨度为2003—2018 年,时间切片(Years Per Slice)为4 年,节点类型(Node Types)选择关键词(Keyword),节点阈值选择(Top N% per slice)=50,剪切方式(Pruning):寻径网络算法(Pathfinder)、裁剪合并后网络(Pruning the merged network)。形成后的图谱共有137 个关键词被纳入,其中有13 个关键词出现频次≥10 次,其中乳腺癌出现频次最多,为239 次,考虑到该关键词与其他关键词有紧密联系,为了方便图形结构观察,故将该关键词隐藏后最终得出以下高频关键词,见图1。

图1 中药治疗乳腺癌关键词共现图

图1 中有紫色圆形外环的节点是图谱中中心性较高(中心性≥0.1)的节点,其值在0~1 之间,是用来衡量一个节点在网络中重要性的指标[13]。该指标表明中药治疗乳腺癌领域相关的研究热点,关键词的中心性越高,它的引用率越高,围绕这个关键词的研究也越多。中药治疗乳腺癌研究关键词共现图谱中共得出该领域中心性关键词90个,其中中心性≥0.1 的高中心性关键词44 个,排名前10的高中心性关键词见表1。

表1 中药治疗乳腺癌高中心性关键词(排名前10)

表1 中所显示的高中心性关键词不仅表明中药治疗乳腺癌领域的研究者们对此关注度较高,而且这些关键词对该领域的研究影响力也较大。相应的关键词的中心性越高,此关键词在中药治疗乳腺癌研究领域中的地位越重要。

聚类分析是一种探索性数据挖掘技术,用于识别和分析特定研究领域中的显著术语和背景分类,利用一系列算法将收集到的数据转换成几个结构化的集群,从而发现知识领域的主题分布和组织结构[14]。聚类模块值(Modularity Q,简称Q值)与聚类平均轮廓值(Mean Silhouette,简称S值)则是反映网络聚类整体结构性能的两个重要指标。故本研究应用CiteSpace 对407 篇文献的关键词经过LLR(Log-Likelihood Ratio)算法进行聚类后,生成含有11 个关键词聚类标签的图谱(见图2)。通过图2 发现,其Q 值为0.7945,表明该聚类结果显著;而S 值为0.938,表明该聚类成员间的一致性较高。因此,该图谱中的关键词聚类标签能够较好反映中药治疗乳腺癌领域中的热门研究主题,且可通过对这些聚类研究探讨该领域的发展规律及新方向。11 个关键词聚类标签的一些具体信息包括每个聚类的节点数、剪切值等,其中节点数越多表明聚类研究热度越高,剪切值越大表明聚类在该领域关键程度越强[15]。见表2。

图2 中药治疗乳腺癌关键词聚类分析

表2 中药治疗乳腺癌关键词聚类

对表2进一步分析发现,其中聚类ID为#0、#1和#3 的标签都为“中医药治疗、中医、中药”等相近词汇,但是#0 聚类中的研究领域主要集中在对症状治疗学的研究,聚类中关键词多为淋巴水肿、乳腺癌术后、胃肠道反应、淋巴疾病等,#1 聚类中主要为治疗方法的研究,关键词多为去甲长春花碱、调肝养血剂、顺铂、化疗、足浴等,而#3 聚类中主要为治疗作用的研究,关键词多为中医中药、淫羊藿、综述、骨转移、机制、研究进展等,所以3 个聚类标签虽用词相近,但是研究方向却不同。通过对聚类标签的归纳,可以看出中药治疗乳腺癌多为不同治疗方法的临床疗效观察及评价以及对其恶化阶段或晚期的疗效测评。

2.2 研究前沿分析为了进一步探索该领域的研究热点与前沿,在研究结果图1 的基础上,通过CiteSpace 的Layout 界面选择Timezone View 指令构建中药治疗乳腺癌的研究前沿时区图谱,见图3。

图3 中药治疗乳腺癌研究前沿时区视图

图3中显示了2003—2018年间分时间段出现3 次以上的关键词,关键词所处的时间段代表了其首次出现的时间,圆圈中的关键词按出现频次由高到低依次排列,越靠前的关键词代表该时间段研究的核心主题。

图3 所示关键词可代表不同时期中药治疗乳腺癌的前沿。2003—2006 年,研究前沿主要为乳腺癌的治疗方法及预后,中药、化疗、内分泌、中西医结合等是常用的治疗方法,而乳腺肿瘤的转移与复发、乳腺癌术后、生活质量、多药耐药等是医生与患者主要关注的预后情况。2007—2010 年,开始中药治疗乳腺癌相关作用机制和综合疗效的实验与临床研究,以期找到治疗效果更优的新治疗方法。2011—2014 年,主要对中西医结合治疗乳腺癌中预后极差、死亡率极高的三阴性乳腺癌和乳腺癌治疗后的常见并发症与药物不良反应展开深入研究,在治疗上更重视中医药治疗的作用和对治疗后生活状况的关注。2015—2018 年,着重于探寻副作用更小、更佳的疗法,治疗效果、生存率及生存质量等引起了研究者的高度重视。

突现关键词是通过考察词频,将某段时间内频次变化率高的词从大量关键词中探测出来,从而发现不同时期该领域的研究热点。

利用CiteSpace 的Burstness 指令对中药治疗乳腺癌的关键词进行突发性检测分析,得出突现关键词图表,见图4。

图4 中药治疗乳腺癌突现关键词

图4中显示了2003—2018年关于中药治疗乳腺癌的突现强度排在前15 的主要突现关键词。经过分析发现,2003 年突现了乳腺肿瘤关键词,且一直持续到了2008 年,是突现持续时间最长的关键词;2008—2012 年突现出中医药疗法、细胞凋亡、中医中药、植物雌激素、淫羊藿、疗效、胃肠道反应和细胞周期等关键词;2014—2018 年突现出影响、晚期乳腺癌、上肢淋巴水肿、抗肿瘤联合化疗方案、三阴性乳腺癌、生存质量等关键词。上述突现关键词反映了中药治疗乳腺癌研究领域不同时期的研究热点及演进趋势。其中乳腺肿瘤的突现强度最高,对中药治疗乳腺癌的影响尤为突出。此外,2016 年开始突然爆发的三阴性乳腺癌和生存质量这2 个关键词均连续突现至目前,反映了这些关键词领域仍有可能在未来的一段时间内继续成为中药治疗乳腺癌研究的前沿热点问题。同时,结合图3—4 可以进一步相互印证并得出2003—2018 年间每个时间段该领域的研究热点与前沿,可为该领域后续研究提供参考和方向。

3 讨论

乳腺癌作为最常见且应引起足够重视与警惕的乳房疾病之一,其主要临床表现是以乳房肿块为主。中医学认为发生乳腺癌的病因病机主要是气郁、瘀血、痰浊等体内邪气旺盛,以致正气亏虚、脏腑阴阳失调[16]。近年来,中药治疗乳腺癌主要针对其病理分型分期采用适当的内服外敷予以配合治疗,并发挥了一定的疗效和优势。因此,应用文献计量可视化分析软件对其进一步分析,可以较清晰、全面地掌握我国中药治疗乳腺癌的相关情况,从而为其预防和治疗提供科学、合理的参考与方向。

本研究结果表明,该领域文献中出现频次≥10次的关键词有13 个,排在前3 的依次为乳腺癌(239次)、中药(95次)和化疗(53次),而生成的11个聚类标签在一定程度上反映了该领域中热门研究主题的分布情况,其研究的主题多为中医药治疗或中药联合其他疗法综合治疗乳腺癌的有效性研究。在此基础上,本研究发现该领域的研究热点主要集中在中西医结合治疗乳腺癌等治疗学领域,而近些年的研究前沿则主要包括对HER-2 阳性乳腺癌、三阴性乳腺癌等病情凶险型乳腺癌的治疗和新疗法、综合疗效等方面的研究。

4 不足与展望

本研究所使用的CiteSpace 软件存在一定局限性:首先,该软件仅限于对单个数据库的数据进行统计分析,且由于数据格式转化问题,文章内容无法分析,导致分析结果不够全面。其次,对数据统计只限于被数据库收录的相关文献,其他如纸质资料等未被收录的相关重要文献可能被遗漏。

但是总体来说,本文应用科学知识图谱法的原理及软件不仅对国内中药治疗乳腺癌领域的研究现状作了较为客观的概括和总结,而且还找出了该领域的研究热点与前沿,更加直观地呈现于研究者使其得到新的思路与方向,并且也为中医药其他研究领域的归纳总结提供了新的梳理方法及思路。

猜你喜欢
图谱聚类乳腺癌
一种傅里叶域海量数据高速谱聚类方法
基于图对比注意力网络的知识图谱补全
绝经了,是否就离乳腺癌越来越远呢?
中医治疗乳腺癌的研究进展
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
图表
别逗了,乳腺癌可不分男女老少!
主动对接你思维的知识图谱
基于Spark平台的K-means聚类算法改进及并行化实现