基于GEO数据库筛选妊娠糖尿病关键基因及其诊断价值分析

2023-05-22 08:12陈光辉梁映亮王万党尹志军
检验医学 2023年3期
关键词:关键样本数据库

陈 慧 陈光辉 梁映亮 王万党 尹志军

(南方医科大学附属小榄医院,广东 中山 528415)

妊娠糖尿病(gestational diabetes mellitus,GDM)是常见的妊娠期代谢紊乱综合征,发病率约为18%,近年来呈持续增高趋势[1]。GDM不仅可导致妊娠高血压、孕期感染、巨大胎儿、羊水过多、难产、新生儿肺透明膜病等母婴不良围生期结局,还可增加孕妇产后和婴儿肥胖、血脂异常、2型糖尿病等代谢异常风险[2]。除改变生活方式、服用降糖药和监测血糖外,目前尚无治愈GDM的方法和更有效的预防策略[3]。因此,探究GMD发病机制,开发新的治疗策略尤为重要。基因表达数据库(gene expression omnibus,GEO)是一个储存芯片、二代测序和其他高通量测序数据的数据库[4]。本研究利用GEO数据库整合GDM相关实验测序数据,进行生物信息学分析,确定关键基因,并评价其诊断效能,为GDM早期诊断和个体化预防、治疗提供更准确和可靠的生物标志物。

1 材料和方法

1.1 数据收集与处理

从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载与GMD相关的微阵列数据。入选标准:1)同时具有对照者和GMD患者样本;2)样本总数≥20例。最终选取GSE103552数据集用于本研究,芯片平台为GPL6244,样本类型为胎儿胎盘内皮细胞,共37例,其中对照组17例[年龄(28.6±7.1)岁,身高(1.68±0.07)m,体重(81.9±3.6)kg,孕周(40.0±1.6)周]、GDM组20例[年龄(30.0±6.8)岁,身高(1.62±0.07)m,体重(83.4±3.3)kg,孕周(40.0±1.6)周]。2个组之间年龄、身高、体重、孕周差异均无统计学意义(P>0.05)。根据芯片对应的平台信息对芯片数据进行ID转换,采用R软件中的“limma”程序包进行校正。

1.2 差异表达基因获取与富集分析

采用R软件中的“limma”程序包分析GDM组和对照组差异表达基因,筛选标准为|log2FC|>1且P<0.05;采用R软件中的“Clusterprofiler”程序包对差异表达基因进行基因本体(Gene Ontology,GO)和京都基因与基因组数据库(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析。筛选标准设置为P<0.05,富集分析结果图由R软件中的“ggplot2” 程序包呈现。

1.3 WGCNA分析

使用R软件WGCNA数据包确定模块基因。使用网络拓扑分析确定软阀值,进一步构建共表达网络,确定模块和样本特征关系,找到所需的模块,输出模块基因。

1.4 蛋白互作网络分析和关键基因确定

取模块基因与差异表达基因的交集,并使用STRING数据库(https://string-db.org/)构建蛋白互作网络,使用Cytoscape v3.8.2软件进行可视化处理,并使用Cytohubba插件的Degree方法筛选关键基因。

1.5 关键基因表达水平和诊断价值评价

采用R软件分析关键基因表达水平,采用受试者工作特征(receiver operating characteristic,ROC)曲线评价关键基因诊断GDM的效能。

2 结果

2.1 差异表达基因分析

从GSE103552数据集中共获得GDM组与对照组差异表达的基因118个,其中表达上调65个、表达下调53个。见图1。

图1 GDM组和对照组差异表达基因的筛选

2.2 差异表达基因富集分析

差异表达基因GO富集分析和KEGG通路富集分析结果显示,差异表达基因涉及细胞外基质组织、细胞外结构组织和DNA构象变化等多个反应,主要调控RNA转运和味觉转导等多个通路。见图2。

图2 GDM差异表达基因涉及的生物学功能

2.3 WGCNA分析

R软件WGCNA程序包分析结果显示,本研究无离群样本,样本的聚类特征热图见图3(a)、(b)。

图3 GDM组和对照组WGCNA分析

使用网络拓扑分析确定13个模块的软阀值为8(r2=0.9)。根据软阈值构建共表达网络,分析样本特征与13个模块之间的关系,选择与GDM最显著相关的模块,确定为包含122个基因的模块(cor=0.52,P<0.001)。见图3(c)~(f)。

2.4 关键基因

取模块基因与差异表达基因的交集,得到33个特征差异表达基因。采用Cytohubba插件的Degree方法筛选关键基因,选择节点度最高的5个基因(ANKRD36C、CLK1、LUC7L3、NKTR和RSRP1)作为GDM关键基因。见图4。

图4 关键基因筛选

2.5 5个关键基因的表达水平和诊断GDM的效能

GDM组5个关键基因(ANKRD36C、CLK1、LUC7L3、NKTR和RSRP1)相对表达量均高于对照组(P<0.05)。见图5(a)。

图5 对照组和GDM组关键基因相对表达量比较及其诊断GDM的ROC曲线

ROC曲线分析结果显示,ANKRD36C、CLK1、LUC7L3、NKTR和RSRP1诊断GDM的曲线下面积分别为0.891、0.818、0.909、0.891和0.885。见图5(b)。

3 讨论

GDM是一种以胰岛素抵抗、胰岛β细胞代偿不足为主要特征的妊娠并发症,目前尚无有效的诊疗方法[5]。ZHAO等[6]通过WGCNA分析筛选出10个与GDM病理进程相关的候选基因。CHEN等[7]通过WGCNA分析筛选出5个与GDM病理进程相关甲基化程度高的低表达基因(ABLIM1、GRHL1、HLA-F、NDRG1和SASH1)和1个甲基化程度低的高表达基因(EIF3F)。尹志芳等[8]通过分析GDM相关基因表达数据集GSE51546和GSE87295发现7个差异表达基因,分别为CD34、TACSTD2、LDB2、CLDN5、NTN4、COLEC12和IGFBP6。本研究通过分析GSE103552数据集获得5个在GDM中呈高表达的关键基因(ANKRD36C、CLK1、LUC7L3、NKTR和RSRP1),均具有较高的诊断价值。但应注意的是,因不同研究的样本信息来源和数据不同,所以可能导致得出的差异表达基因完全不同。

在妊娠末期,胎盘内皮细胞对胎盘功能的调节有重要意义,GDM患者胎盘内皮细胞功能受损,且有408个基因发生改变[9]。ZHU等[10]的研究结果显示,GDM患者胎盘内皮细胞中有2 095个基因表达上调,3 117个基因表达下调。本研究结果显示,GSE103552数据集中有65个基因表达上调,53个基因表达下调。由此可见,胎盘内皮细胞基因水平异常可能会导致其功能受损,这些差异基因或可作为GDM潜在的诊断标志物。

本研究通过生物信息学分析获得5个GDM的关键基因,分别为ANKRD36C、CLK1、LUC7L3、NKTR、RSRP1。这5个关键基因在GDM中的表达水平和调控机制还需进一步研究。在血栓性血小板减少性紫癜患者体内存在ANKRD36C变异,与炎症相关;GDM常常伴随过度的炎症反应,抑制炎症反应可以缓解GDM病情,提示GDM中高表达的ANKRD36C可能与GDM过度炎症有关[11]。过度的胰岛素抵抗和胰岛素分泌不足均与GDM发生密切相关,胰岛素可促进丝氨酸/苏氨酸激酶2磷酸化,敲低AKT2会促进CLK1表达,提示胰岛素分泌不足会导致GDM患者CLK1水平上调,但CLK1在GDM疾病进程中的调控机制还需进一步研究[12]。同样,LUC7L3作为致癌基因参与了调控胰岛素抵抗[13],但其在GDM中的作用尚未见报道。本研究发现,LUC7L3与GDM病理变化有关。有研究通过WGCNA分析发现NKTR基因参与了疾病病理进程[14],但其在GDM中的作用亦未见报道。RSRP1位于1号染色体,目前对其功能的研究较少[15]。

综上所述,本研究采用生物信息学分析方法,在GSE103552数据集中获得5个GDM关键基因(ANKRD36C、CLK1、LUC7L3、NKTR和RSRP1)。5个关键基因在GDM中表达均上调,诊断GDM的AUC均>0.8。但本研究尚有一定的局限性:本研究利用生物信息学技术筛选GDM关键基因,并分析其诊断价值,但未进行临床样本验证,胎盘内皮细胞差异基因分析还处于临床前研究,目前尚不能用于常规临床诊断;本研究所有分析均基于GSE103552数据集,目前GEO数据库中尚无中国汉族人群GDM微阵列数据。因此,这5个关键基因在GDM中的表达水平和调控机制还需进一步研究。

猜你喜欢
关键样本数据库
硝酸甘油,用对是关键
高考考好是关键
用样本估计总体复习点拨
推动医改的“直销样本”
数据库
随机微分方程的样本Lyapunov二次型估计
数据库
数据库
村企共赢的样本
数据库