肖邦福,李彦超,陈敏(通信作者*),靳蓉,王頔,徐慧,孙永烽,张昌,邵晓珊
(1.贵阳市妇幼保健院,贵州 贵阳 550003;2.毕节市第一人民医院,贵州 毕节 551700)
囊性纤维化(Cystic fibrosis,CF)是一种常见的致死性常染色体隐性遗传性疾病,是由于囊性纤维化跨膜传导调节蛋白(Cystic fibrosis transmembrane conductance regulator,CFTR)的 基因发生突变引起CFTR蛋白的编码功能缺陷,从而导致外分泌腺功能紊乱,常常累及全身多个器官,如肺脏、肝脏、汗腺、肠道及胰腺,以呼吸系统损害最为突出,其临床症状主要表现为慢性咳嗽、肺部反复感染、腹泻、生长发育迟缓、男性不育等[5,7]。CFTR蛋白是由环磷酸腺苷 (cyclic adenosine monophosphate, cAMP) 激活的氯离子 (Cl-) 通道,从而在外分泌腺导管上皮细胞的顶膜上介导Cl-及HCO3-的跨膜转运,引起外分泌腺体功能异常,导致汗液中Na+、Cl-浓度异常增高[20]。CF治疗的主要目标是防止感染,减少肺部分泌物的量和黏稠程度,改善呼吸,维持足够的营养等[16]。
Citespace是一款由陈超美教授研究、开发的软件,通过对数据库相关文献的收集,借助Cites pace软件对其机构、关键词、作者等内容的进行可视化分析,探求某一领域的研究热点及前沿动态[12]。现已熟练并广泛地应用于医学,并不断研究该领域的研究热点、演变过程、前沿动态等。再者,通过R软件对GSE40445数据集进行差异性基因的分析,了解CF中相关基因的表达情况。本文利用CiteSpace、R软件的相关功能,对我国囊性纤维化进行分析,以期为了解其发展、变化情况。
本研究中,中文数据来源于中国知网(China Knowledge Network,CNKI)数据库,以“囊性纤维化”为主题进行数据收集,获取相关文献577篇;英文数据来源于Web of Science核心数据库(WoS),以“cystic fibrosis”为主题,并选择来源于中国的文章,得到相关文献1427篇。时间:2002年1月到2021年12月。
在GEO数据库(gene expression omnibus,GEO)中,以“cystic fibrosis”为关键词进行检索,数据的研究类型为“Expression profiling by array”,种属为“Homo sapiens”,下载编号为 GSE40445的CF(肺部)相关基因表达。数据集基于GPL10097平台(Custom Affymetrix HsAirway array),包含5个CF和5个非CF,CF组男性2例,女性3例,平均年龄14岁;非CF组男性3例,女性2例,平均年龄14.8岁。使用GEOquery软件包获取这些表达数据集的微阵列信息。
将导出的数据以“download_***.txt”的格式存入Citespace指定的文件下,时间跨度设置为2001-2021年,每1年为1个时间切片,条件设置为 Pathfinder、Pruning sliced networks,其余设置均为默认设置,分别选取作者、机构、关键词等生成各自的可视化图谱。生成的图谱中节点连线的粗细与共现程度成正相关,节点大小与出现频次成正相关,颜色越鲜艳则代表近年研究的成果,节点圆圈层代表年轮[3,4,8]。聚类模块值(Modularity Q)>0.3的聚类认为是显著的,聚类平均轮廓值(Mean Silhouette)>0.5的聚类通常认为是合理的,而其值(S)>0.7聚类则认为令人信服的[8]。
使用R软件 (R 4.1.0版,https: //www.r-project.org/)中的GEOquery软件包对GSE40445中的两组数据进行标准化处理。同一基因有多个探针时计算其均值,根据注释信息将探针转换成相应的基因,去除没有对应基因的探针。使用R 4.1.0中的limma软件包,对数据进行整理、规范化及注释转换[11]。并通过用R软件中“pheatmap”软件包和“ggplot2”软件包对差异基因进行热图和火山图的绘制。
近20年相关文献的发表虽有波动,总体上呈现出稳定增长趋势,在2005、2006年英文文献发表量低于中文文献,其余年份均等于或超过后者,甚至在2018年达到高峰(约158篇);近三年来,中文文献在该领域呈现出下滑的趋势。见图1。
图1 2022年-2021年囊性纤维化的发文量
对“作者”进行分析,进一步探知该领域主要研究者人员、团队协助关系等特点。该图谱包含496个节点、868条线,网络密度0.0071,共纳入作者489位,作者间合作尚可,其中发文量前5的作者为于波、侯婷婷、任闪闪、杨红及刘俊(并列)、刘燕,发表文献数量分别为25篇、19篇、16篇、14篇、13篇,共101篇;其中发表文献数量≥5篇20位,共202篇。见图2。
图2 囊性纤维化主要作者合作关系网(中文文献)
对纳入机构进行分析,研究机构主要分布在国内各大学及其附属医院、军区医院,通过对比各机构文献发表量可间接反映出其对该领域内的学术研究程度。在该领域中,发文量排前4的机构为中南大学及其附属医院(79篇)、中国人民解放军联勤保障部队第九一〇医院呼吸科(19篇)、国家儿童医学中心/首都医科大学附属北京儿童医院呼吸二科(15篇)、株洲市中心医院/中南大学湘雅医学院附属株洲医院产科(13篇)、河南中医药大学中医药科学研究院河南省中医方证信号传导重点实验室(11篇)。该图谱包含373个节点、104条线,网络密度0.0015,密度偏低,表示机构间的合作与联系关系欠佳。见图3。
图3 囊性纤维化主要机构合作关系网站(中文文献)
关键词共现分析是利用可视化知识图谱,对关键词的进一步分析,明确该领域的研究热点、发展趋势。关键词聚类图谱包含513个节点、976条线,网络密度 0.0074,Modularity Q为 0.74,Mean Silhouette为0.52。主要聚类为囊性纤维化跨膜传导调节因子、肺囊性纤维化、支气管扩张、CRTF等。见图4。在时间线视图中,在同一水平线上显示相同聚类的文献,其线条越粗表示其文献越多,更能体现在该领域的地位。通过时间线视图可进一步体现了囊性纤维化跨膜传导调节因子、肺囊性纤维化、支气管扩张之间的联系;在进展时长方面,三者研究主题持续时间最长,长20达年之久,见图5。近年来该领域突现次有5个,为支气管扩张(5.65)、儿童(5.59)、哮喘(3.70)、非囊性纤维化支气管扩张症(3.48)、激活剂(3.23)。对于支气管扩张、哮喘等肺部疾病方面的研究越来越多,在儿科疾病的诊断、治疗等过程的研究不断深入,以提高患儿的生存质量。见图6。
图4 囊性纤维化关键词主要聚类分析(中文文献)
图5 囊性纤维化时间线图谱(中文文献)
图6 囊性纤维化关键词突现(中文文献)
对“作者”进行分析,进一步探知本领域主要研究者人员、团队协助关系等特点。该图谱包含715个节点、1567条线,网络密度0.0061,共纳入作者715位,作者间合作尚可,其中发文量前5位 的 作 者 ChanHsiao Chang、Yang Hong、GuanWeijie、Ma Tonghui、Chen Rongchang 及 Zhong Nanshan(并列),发文量分别为 53、25、22、20、19,共139篇。其中发表量≥5篇10位,共588篇。见图7。
图7 囊性纤维化主要作者合作网络(英文文献)
对纳入机构进行分析,研究机构主要分布在国内外各大学及其研究机构,通过对比各机构文献发表量可间接反映出其对该领域内的学术研究程度。在该领域中,发文量前5机构分别为中国香港大学、中国科学技术研究院、四川大学、中山大学、上海交通大学,该图谱包含493个节点、1375条线,网络密度0.0113,密度尚可,表示机构间的合作与联系关系可进一步提升。见图8。
图8 囊性纤维化主要机构合作网络(英文文献)
关键词聚类图谱包含673个节点、2419条线,网络密度0.0107,Modularity Q为0.52,Mean Silhouette为0.66。主要为铜绿假单胞菌、囊性纤维化跨膜调节因子、小分子核糖核酸、基因传递及表达等。见图9。在时间线视图中,在同一水平线上显示相同聚类的文献,其线条越粗表示其文献越多,更能体现在该领域的地位。在进展时长方面,铜绿假单胞菌、囊性纤维化跨膜调节因子、小分子核糖核酸等研究主题持续时间最长,有20达年之久,体现了铜绿假单胞菌在该领域的影响之大;随着生物信息学的发展,基因的传递及表达将进一步解释相关疾病的发展。见图10。排名前5的突现词为阴离子分泌(7.32)、氯化物通道(6.63)、定 位(4.89)、激 活 剂(3.53)、离 子 运输(3.24)。见图11。
图9 囊性纤维化关键词主要聚类分析(英文文献)
图10 囊性纤维化时间线图谱(英文文献)
图11 囊性纤维化关键词突现(英文文献)
从GSE40445数据集中共获得到10个样本的芯片检测数据。依据标本不同,分为CF组和非CF组。筛选标准为:|log FC|≥1且调整后P<0.05的基因作为差异基因(DEGs),分别对其进行火山图及热图的绘制。在火山图中,获得298个DEGs,包括122个上调基因和176个下调基因。在热图中,按照调整后P值大小进行排序,前20个基因 为、EPHX1、FRMD4B、PLD3、BANF1、TJP1、TP53AP1、TETRAN、AES、C2orf17、CUEDC2、NUCB2、GSDMDC1、RPS6KB1、RAB22A、IFNGR2、IFI16、IFRD1、FLNC、MRPL40、INSIG1。见图12。
图12 囊性纤维化组与非囊性纤维化差异性表达基因火山图和热图
相关文献发表量呈现出增长趋势,而在2014年以后中外文文献年发表量均超过100篇,在2018年达高峰;在作者网络分析中,网络密度尚可,团队内部合作较为紧密,但各团队间联系相对缺乏,部分优秀学者,如杨红,在国内外期刊均有文章发表;在机构网络分析中,其合作模式相对单一,主要体现在各高校内部及附属医院,不同高校间合作相对偏少,在中文文献中更为突出;在关键词分析中,中文文献以支气管扩张、儿童、哮喘及肺囊性纤维化等为主聚类或突现,体现了中文文献以儿童、疾病为主要研究方向,而外文文献则以阴离子分泌、氯化物通道、激活剂、通路假单胞菌、基因的传递与表达等为主聚类或突现,体现其对病原菌、疾病的研究更为深入,如细胞水平的研究;利用R语言对CF进行生物信息学分析,得到298个DEGs,包括122个上调基因和176个下调基因,RAB22A、INSIG1、IFRD1、IFI16等基因可能是加重CF病情进展的基因,NUCB2、TETRAN、CUEDC2等基因可能是减缓CF病情进展的基因。而近年来对囊性纤维化的病因、机制及基因学的研究进一步深入。
CF累及呼吸系统引起肺囊性纤维化,呼吸衰竭则是其最主要的并发症,也是患儿死亡的主要原因,早期诊断有利于患儿获得科学的营养指导,促进生长发育,延缓肺功能恶化[2]。
目前肺囊性纤维化的发病机制虽尚未完全清楚,但被普遍认为是多种因素相互作用的结果,如遗传和环境因素,以反复发生的局部肺泡上皮微损伤为关键环节,而颗粒、粉尘则加剧病程的进展[9-10]。遗传因素:CFTR在上皮细胞内是一种氯离子介导的通道蛋白。正常气道上皮均表达出钠通道、CFTR相关氯离子通道、钙离子激活的氯离子通道等,共同作用促进钠离子吸收和氯离子分泌,并使得呼吸道表面液体(ASL)达到一定的厚度(约7μm),浸润在ASL中纤毛,有规律摆动,从而可清除ASL表面的黏液。CF患者位于气道上皮细胞的CFTR蛋白发生突变,使得离子分泌减少、钠离子吸收增加,从而导致ASL厚度减少,纤毛摆动受到一定程度的影响,黏稠的分泌物不能及时被排出,容易引起细菌滋生,继发各种感染[15,19]。
有学者认为:肺囊性纤维化以反复的肺部细菌感染、气道壁增厚以及分泌物异常增多为特征[1]。国内学者发现,反复下呼吸道感染、治疗效果欠佳,可考虑特殊病原菌的感染,如铜绿假单胞菌,肺囊性纤维化在儿童易感性,确诊主要依赖于基因检测、汗液试验[16-17]。甚至有学者认为:肺囊性纤维化与自噬有一定的关系,小鼠模型在肺部感染铜绿假单胞菌后,自噬相关mRNA的表达水平在短时间内(1周)可明显升高,后恢复正常,说明自噬活动在PCF早期增强,但随着病情进展机体自噬活动被抑制[6]。此外,CFTR与多种疾病的细胞凋亡关系密切[14,18]、CFTR可调节与氧化应激相关的细胞凋亡[13]。
本研究通过文献计量的可视化分析,展示了近20年囊性纤维化领域发展情况,掌握该领域的前沿动态、热点问题及发展方向;利用GEO数据库,了解囊性纤维化相关基因表达情况,研究引起该病的关键基因及靶点;加强疾病认知、研究水平,对疾病进行早期识别、诊断,减缓疾病的进展,延缓患儿的中位生存时间,提高患儿的生存质量等等,可能是该领域未来发展的趋势,应进一步深入。
本文局限:本研究仅仅收集我国学者在中国知网数据库、Web of Science核心数据库发表的相关研究文献,研究具有一定的局限性。