姚婷婷,沈晓旭,李慧,翁洁琼,赵静,曾圆圆,张晶芳,原梦飞,许珂
血脂异常多指血清中胆固醇(TC)和/(或)甘油三酯(TG)水平升高,高密度脂蛋白胆固醇(HDL-C)降低等,临床可分为高胆固醇血症、高甘油三酯血症、混合型高脂血症(TC、TG均增高)以及低HDL-C血症[1]。血脂是血清中的TC、TG和类脂(如磷脂)等的总称,血脂不溶于水,必须与特殊的蛋白质即载脂蛋白(Apo)结合形成脂蛋白才能溶于血液,被运输至组织进行代谢。而血脂异常是动脉粥样硬化性心血管疾病(ASCVD)重要的危险因素[2]。国内外越来越多的研究表明血脂异常不单是一种与饮食、生活习惯相关的疾病,更多的与基因相关[3],如易感基因携带、基因突变等,随着基因组学的发展和应用,识别有害突变,推进靶向治疗更具有临床意义[4]。本研究采用CiteSpace软件,对2004~2021年Web of Seienee核心数据库发表的关于血脂异常基因组学的相关文献进行可视化分析,了解目前的研究进展及热点,为后续更深入的研究提供参考。
1.1 对象选取Web of Science核心数据库中符合血脂异常基因组学的文献。检索策略:TI=(“Hyperlipemia” OR “Hyperlipidemia”OR “Lipidemia” OR “Lipemia”) AND TS=(“Genomic” OR “Genome” OR “DNA” OR“RNA”)。索引:SCI-EXPANDED,CCREXPANDED,IC,语种为“English”,设定文章类型为“article”和“review”。检索年限:2001年1月1日~2021年7月30日;检索时间:2021年7月30日,经检索该领域论文的最早发文年份是2004年,故将年限定在:2004年1月1日~2021年7月30日。排除标准:会议、报刊报道以及重复发表的文献。共纳入文献1032篇。
1.2 研究方法分析的文献以纯文本的格式导出,并导入CiteSpace(版本号:5.8.R1)软件。软件参数设置:每1年为切割点;节点类型分别选择Author、Cited Journal、Category、Country、Institution、Keyword;阈值设置Top N=30;剪切方式选择Pathfinder和Pruning Sliced Network,其余参数值选择默认。
2.1 发文量基因组学在血脂异常领域研究的发文量在近20年趋于稳定增长(图1),2007年和2011年稍有回落,2012年后稳定增长,2018年后迅速增长,2021年度文献未完整纳入,暂不分析。
图1 发文量
2.2 作者和被引期刊可视化分析CiteSpace软件绘制作者和被引期刊图谱,每个节点(Node)对应作者和被引期刊,大小表示该作者发文量多少和期刊被引频次,节点、标签越大说明发文数量越多、被引频次越多,节点之间连线(Edge)的粗细表示合作关系,连线越粗说明其合作交流越多,紫色轮廓代表中心性,体现了该节点在图谱中的重要性。结果显示作者网络图谱N=107,E=161,见图2。被引期刊网络图谱N=93,E=96,见图3。说明共纳入107位作者,93种期刊,其中发文量前10的作者和被引频次前10的期刊见表1。
表1 发文量前10的作者和被引频次前10的期刊
图2 作者网络图谱
图3 被引期刊网络图谱
2.3 相关学科分布分析基因组学在血脂异常领域涉及多个学科,其中排名前10的学科见表2,主要与分子生物学、心血管系统学、药理学及内分泌等学科关系密切。
表2 血脂异常基因组学前10的相关学科分布
2.4 国家与机构可视化分析国家和机构的合作网络图见图4~5,发文量前10的国家和机构见表3,从图表中可以看出,美国发文量及发文机构最多,达389篇文献,以华盛顿大学、加州大学洛杉矶分校为代表。其次是中国,从2012年开始中国发文量逐渐增多,以中国科学院大学、浙江大学和上海交通大学为代表。美国和中国虽发文量较多,但中心性较低,提示美国与中国对领域研究较多,但缺乏国际合作。而意大利、德国、英国、加拿大等国家中心性较高,这些国家之间的交流合作较密切。
表3 血脂异常基因组学发文量前10的国家和机构
图4 国家合作网络图
2.5 关键词可视化分析
2.5.1 关键词共现分析关键词可表达文献主题内容,频数高的关键词可反映研究领域的热点问题。将相同意义的关键词进行合并,如“expression”、“gene”合并为“gene expression”,“coronary artery disease”、“myocardial infarction”、“coronary heart disease”等合并为“cardiovascular disease”,“risk”合并为“risk factor”,列出被引频次和中心性排名前20的关键词,见表4,结果显示共现图谱中N=259,E=515,见图6。除“hyperlipidemia”和“gene expression”主题词,排名前20的关键词主要与血脂异常导致的临床疾病有关,如“动脉粥样硬化”、“心血管疾病”、“代谢综合征”等,导致血脂异常的危险因素如“肥胖”,发病机制如“RNA表达”、“氧化应激”、“胰岛素抵抗”、“细胞凋亡”等。关键词中心度≥0.1的节点在整个网络中的作用较大。在文献中,中心度较高的词汇有“代谢综合征”、“低密度脂蛋白”、“甘油三酯”、“炎症”等,这些关键词在共现网络当中作为中介起到联系作用。
图5 机构合作网络图
图6 血脂异常基因组学关键词共现图谱
表4 血脂异常基因组学关键词共现频次前20的关键词
2.5.2 关键词聚类分析采用对数极大似然率(LLR)算法进行聚类主题提取,显示前10个类别,聚类图谱见图7,提取关键词标签对其进行归纳,模块聚类值Q为0.6759(>0.3),聚类平均轮廓值S为0.8492(>0.5),说明此次聚类结构显著,聚类合理。聚类可大致分为4个方向:分子生物学(#0基因多态性、#4全外显子基因测序)、病理生理机制(#1氧化应激、#6蛋白抑制、#7细胞凋亡)、血脂分类(#2甘油三酯、#5高甘油三酯血症)、相关疾病(#3艾滋病、#8高血压、#9动脉粥样硬化),见表5。
图7 血脂异常基因组学关键词聚现图谱
表5 血脂异常基因组学前10的关键词聚类
图7 血脂异常基因组学关键词聚现图谱
2.5.3 关键词突现分析关键词突现可以分析某一时期突然出现的研究主题。设置minimum duration为2,得显示前25个突现词,见图8。可以看出,突现频率最高的词是“家族性混合型高脂血症”、“脂肪代谢障碍”、“混合型高脂血症”、“连锁分析”、“易感性位点”、“蛋白抑制剂”等。近5年的突现词有10个,分别为“DNA甲基化”、“抑制”、“胰岛素抵抗”、“全基因组关联”、“炎症”、“动脉粥样硬化”、“脂质代谢”、“体外”、“mRNA”、“机制”等,“转基因小鼠”、“大鼠”等词延续时间最长,提示动物实验研究一直为热度不减的研究类型。
本文利用CiteSpace软件对Web of Science核心数据库中基因组学在血脂异常研究领域的1032篇文献进行可视化分析,包括年度发文趋势、被引期刊和相关学科分布、不同国家和科研机构的影响力及相互协作关系,关键词共现、聚类和突现分析进而了解其研究现状、热点和趋势。
基因组学在血脂异常领域研究的发文量整体呈上升趋势,2004~2011年趋于稳定增长,2012~2021年快速增长,提示该领域近年来为较热门的研究领域。综合作者、被引期刊、学科、国家、机构及关键词的信息,可以看出美国和中国的研究最多,作者和期刊的发文量均居首位,其中美国以华盛顿大学、加州大学洛杉矶分校等为代表,发文最早、发文量最多的是P Pajukanta团队,该团队相互合作的成员达8名,主要对家族混合型高脂血症与上游转录因子1(USF1)的关系进行了深入的研究[5-7]。Weissglas-Volkov D和Bosse Y团队分别有7名和5名合作成员,均通过全基因连锁分析了不同国家血脂异常家族中的易感基因及与血清载脂蛋白B(ApoE)、低密度脂蛋白胆固醇(LDL-C)水平相关的变异基因[8-10]。Eichenbaum-Voline S团队有5名合作成员,证实了ApoA1/C3/A4/A5基因簇的变异与家族混合型高脂血症的关系[11]。中国以中国科学院大学、浙江大学为代表。2016年中国团队认为ApoE基因敲除兔是研究高脂血症和动脉粥样硬化的有效模型[12,13],后又通过ApoE敲除的动物实验,表明动脉粥样硬化与IL-35炎症因子相关[14]。
结合关键词突现、聚类和突现分析,早期十年的研究热点主要集中在家族性混合型高脂血症、脂肪代谢障碍、连锁分析易感性位点、蛋白酶抑制剂、数量性状位点、识别、体内等。家族史对心血管疾病是一个重要的独立危险因素,家族性混合型高脂血症是具有复杂数量性状由遗传和环境因素共同决定的多基因常染色体显性遗传病,欧美国家的多数研究通过患病家族成员的全基因组关联分析该疾病的易感基因,进而以基因敲除后的大鼠验证基因位点,以此研究血脂代谢紊乱的机制。近十年的研究热点转为DNA甲基化、MicroRNA、炎症、胰岛素抵抗、全基因组关联、动脉粥样硬化、抑制、体外、机制等,DNA甲基化受到了极大关注。DNA甲基化为DNA化学修饰的一种形式,可在不改变DNA序列的前提下,改变遗传表现。在DNA甲基化转移酶的作用下,结合一个甲基基团,能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,变异影响着蛋白质表达水平进而主导人类对某些疾病的易感性[15-17]。研究热点主要在于寻找与肥胖、甘油三酯、餐后高血脂、血管生长相关的DNA甲基化位点,从而通过表观遗传过程来解释传统方法无法解释的变异[18,19]。MicroRNA是长度约为20~23个核苷酸一类小的非编码RNA,转录后抑制基因表达,是控制生理和病理过程的基因表达的重要调节因子[20],大量研究表明其可通过控制能量代谢和脂质代谢在代谢综合征、肥胖、高脂血症和动脉粥样硬化等疾病中发挥重要作用[21,22],如miR-122、miR-30c、miR-320a等,有研究证实皮下注射RNA可治疗高脂血症的大鼠[23-25]。此类研究的意义在于通过遗传学研究中发现的基因产物和途径提供新的临床治疗策略,未来可通过阻断或增加某些特定MicroRNA的表达来治疗疾病。
综上,本研究采用CiteSpace软件对2004~2021年Web of Science核心数据库中关于基因组学在血脂异常领域的相关文献的发文量、作者、期刊、相关学科、国家、机构、关键词等进行了可视化分析,结果表明,血脂异常基因组学领域的研究关注度逐渐增高,受DNA甲基化、MicroRNA、mRNA控制和改变基因表达,介导炎症、胰岛素抵抗、氧化应激、细胞凋亡等机制研究为此领域的研究热点。