基于TCGA数据库和蛋白-蛋白对接分析DMGDH在肾透明细胞癌组织中的表达及临床意义

2022-05-26 01:43张泽鑫
化工时刊 2022年2期
关键词:样本蛋白基因

韩 君 张泽鑫

(1. 北京康仁堂药业有限公司,北京 101301; 2. 广州中医药大学第一临床医学院,广东 广州 510405)

肾细胞癌最常见的亚型是透明细胞癌,约占肾细胞癌的70%~80%[1-3]。肾透明细胞癌(KIRC)通常对放化疗和免疫治疗不敏感,主要治疗方法是手术治疗[4]。60%的KIRC患者在诊断后1~2年死亡,30%的KIRC患者在诊断时就发生了远处转移[5,6]。自精准医疗计划提出以来,个体化治疗成为肾癌治疗的研究热点[7,8]。因此,寻找有效的治疗靶点及预后的分子标志物,对于帮助早期诊断肾透明细胞癌以及早期干预治疗提供依据。二甲基甘氨酸脱氢酶(DMGDH) 是一种线粒体基质黄素蛋白,负责二甲基甘氨酸的去甲基化,形成肌氨酸[9]。据报道,DMGDH在肝癌病人中显著下调,其通过影响Akt信号通路的活化,从而促进肝癌细胞的转移[10,11]。前期研究白扁豆总皂苷处理前列腺癌PC-3细胞系时,DMGDH的水平显著升高,提示DMGDH可能与肿瘤发生和发展密切相关。目前,DMGDH与KIRC患者的表达、生存时间及预后的分析鲜见报告。在此,本研究利用癌症基因组图谱(TCGA)数据库中KIRC患者的信息,分析DMGDH与临床病理特征、预后的相关性,并选择几条可能的信号通路进行进一步研究,为今后的临床治疗提供帮助。

1 资料与方法

1.1 DMGDH在泛癌中的表达分析

从UCSC(https://xenabrowser.net/)数据库中下载了经统一标准化的泛癌数据集:TCGA泛癌(Pan-Cancer) (PANCAN,N=10 535,G=60 499),进一步从中提取了ENSG00000132837(DMGDH)基因在各个样本中的表达数据,进一步筛选了样本来源为正常实体组织(Solid Tissue Normal)、血液相关癌(Primary Blood Derived Cancer-Peripheral Blood)、原发性肿瘤(Primary Tumor)的样本。更进一步地对每一个表达值进行了log2(x+0.001)变换,最后剔除了单个癌种中样本个数小于3个的癌种,最终获得了26个癌种的表达数据。

1.2 DMGDH在泛癌中的生存分析

从UCSC(https://xenabrowser.net/)数据库中下载了经统一标准化的泛癌数据集:TCGA Pan-Cancer (PANCAN,N=10 535,G=60 499),进一步从中提取了ENSG00000132837(DMGDH)基因在各个样本中的表达数据,进一步筛选了样本来源为:Primary Blood Derived Cancer-Peripheral BloodTCGA-急性髓性白血病(LAML)、Primary Tumor和TCGA-皮肤黑色素瘤(SKCM)的转移样本,此外,还从先前发表在Cell上的TCGA预后研究中[12]获得了高质量的TCGA的预后数据集及随访时间短于30天的样本,更进一步的对每一个表达值进行了log2(x+0.001)变换,最后还剔除了单个癌种中样本个数小于10个的癌种,最终获得了39个癌种(TCGA-GBM神经胶质瘤、TCGA-GBMLGG胶质瘤、TCGA-LGG脑低级别胶质瘤、TCGA-CESC宫颈鳞癌和腺癌、TCGA-LUAD肺腺癌、TCGA-LAML急性髓细胞样白血病、TCGA-BRCA乳腺浸润癌、TCGA-ESCA食管癌、TCGA-STES胃和食管癌、TCGA-SARC肉瘤、TCGA-KIRP肾乳头状细胞癌、TCGA-KIPAN混合肾癌、TCGA-PRAD前列腺癌、TCGA-STAD胃癌、TCGA-HNSC头颈鳞状细胞癌、TCGA-KIRC肾透明细胞癌、TCGA-COAD结肠癌、TCGA-COADREAD结直肠癌、TCGA-LUSC肺鳞癌、TCGA-THYM胸腺癌、TCGA-LIHC肝细胞肝癌、TCGA-THCA甲状腺癌、TCGA-MESO间皮瘤、TCGA-READ直肠腺癌、TCGA-SKCM-M、TCGA-SKCM皮肤黑色素瘤、TCGA-OV卵巢浆液性囊腺癌、TCGA-TGCT睾丸癌、TCGA-PAAD胰腺癌、TCGA-UCEC子宫内膜癌、TCGA-PCPG嗜铬细胞瘤和副神经节瘤、TCGA-SKCM-P、TCGA-UVM葡萄膜黑色素瘤、TCGA-UCS子宫肉瘤、TCGA-BLCA膀胱尿路上皮癌、TCGA-ACC肾上腺皮质癌、TCGA-KICH肾嫌色细胞癌、TCGA-CHOL胆管癌、TCGA-DLBC弥漫性大B细胞淋巴瘤)的表达数据及对应样本的总生存期数据。

1.3 DMGDH单基因预后模型构建

首先根据DMGDH表达量的百分位数(50%)将患者分成两组,然后进一步使用R软件包生存分析的survfit函数分析两组的预后差异,利用时序检验(log-rank test)方法评估不同组样本之间的预后差异显著性。此外,还使用了受试者工作特征曲线(ROC)计算曲线下面积(AUC)用于评估DMGDH在1、3、5年的模型稳定性。

1.4 DMGDH列线图构建

根据DMGDH表达量、年龄、性别和TNM分期,首先使用单因素cox分析筛选出预后相关因素,然后进一步使用多因素cox分析筛选出独立的预后因素。在单因素cox分析和多因素cox分析中,具有显著性水平的因素将被纳入到列线图的构建中,用以评估患者的预后。

1.5 基于DMGDH差异表达的GO和KEGG功能富集分析

根据DMGDH的表达量,截取了中位数进行差异分析,设置标准为:Log∣FC∣>1,P<0.05。然后对差异表达的基因进行了基因功能注释(GO)和基因组京都百科全书(KEGG)功能富集分析,以了解DMGDH在KIRC的发生发展中发挥的作用。

1.6 蛋白-蛋白对接

从uniprot(https://www.uniprot.org/)数据库查询蛋白序列及晶体结构信息,然后从RCSB PDB (https://www.rcsb.org/)数据库获取蛋白晶体结构:DMGDH:3E00,PPAR γ:5L46,PPAR α:1K7L,CYP1B1:3PM0。所有对接计算均采用Rosetta蛋白-蛋白对接方法。首先使用ROSETTA蛋白准备模块docking_prepack_protocol.static.linuxgccrelease预处理四个蛋白结构,并作为蛋白对接初始结构。对接过程中蛋白质主链保持固定,采用global算法(docking_protocol.static.linuxgccrelease)进行蛋白-蛋白对接。每个起点总共生成50个结构。视觉检查五个界面得分最低的结果,并使用pymol分析对接结果。

2 结果

2.1 DMGDH在泛癌中的表达分析

使用R软件(version 3.6.4)计算了每个肿瘤中正常样本和肿瘤样本的表达差异(图1A),使用非配对的进行非参数检验和符号秩检验进行差异显著性分析,在1种肿瘤中观察到了显著上调,在19种肿瘤中观察到了显著下调。

2.2 DMGDH在泛癌中的生存分析

使用R软件包survival(version 3.2-7)的coxph函数建立Cox风险比例回归模型(Cox proportional hazards regression model)[13]以分析基因表达与每个肿瘤中的预后关系,使用Log-rank test进行统计检验获得预后显著性,最终观察到在2个肿瘤类型TCGA-STAD[N=372,p=0.04,HR=1.14(1.01,1.29)]、TCGA-COADREAD[N=368,p=0.04,HR=1.19(1.01,1.40)]中高表达预后差,在4个肿瘤类型TCGA-KIPAN[N=855,p=0.02,HR=0.92(0.86,0.99)]、TCGA-KIRC[N=515,p=2.5e-11,HR=0.78(0.72,0.84)]、TCGA-LIHC[N=341,p=1.6e-3,HR=0.87(0.79,0.95)]、TCGA-ACC[N=77,p=0.04,HR=0.81(0.66,0.99)]中低表达预后差(图1B)。

2.3 DMGDH单基因预后模型构建

根据DMGDH基因表达的中位数,划分成为了高低两组。根据患者的风险值和分组,绘制风险值热图(图1C),Kaplan-Meier生存分析显示,高低风险组之间具有显著性差异,其P值为3.92e-07,HR值为0.443(图1D),这说明了DMGDH在KIRC中是预后的保护因素。风险曲线显示,随着风险系数的增高,存活的病人越多,这与Kaplan-Meier生存分析抑制。此外,ROC曲线计算AUC面积评估了模型的可靠性,分别为1年0.688,3年0.675,5年0.659,这说明了使用DMGDH用于评估患者的总体生存情况具有可靠性(图1E)。

(A) DMGDH基因在不同癌症和癌旁组织中表达水平;(B) DMGDH在泛癌中的生存分析;(C) 风险值热图;(D) Kaplan-Meier生存曲线图用于评估患者的预后;(E) 时间依赖的ROC曲线评估风险特征的准确性图1 DMGDH基因在泛癌中的表达与生存分析及预后模型构建(A) Expression levels of DMGDH gene in different cancers and paracancerous tissues; (B) Survival analysis of DMGDH in pan-cancer; (C) Value-at-risk heat map; (D) Kaplan-Meier survival curve chart for assessing patient’s prognosis; (E) Accuracy of time-dependent ROC curves for assessing risk characteristicsFig. 1 Expression of DMGDH gene in pan-cancer and survival analysis and prognostic model construction

2.4 DMGDH列线图构建

根据DMGDH表达量、年龄、性别和TNM分期,首先使用了单因素cox分析筛选出预后相关的因素。单因素cox分析结果显示,DMGDH、年龄和TNM分期是预后相关的因素(图2A)。多因素结果显示DMGDH、年龄和TNM分期是独立的预后因素(图2B),因此构建列线图,其生存模型C指数(C-Index)为0.776(0.742~0.81) (图2C),其1、3、5年的校正曲线位于对角线复线,说明了本模型具有可靠性(图2D)。

2.5 基于DMGDH差异表达的GO和KEGG功能富集分析

根据DMGDH的表达量,截取了中位数进行差异分析,设置标准为:Log∣FC∣>1,P<0.05。然后对差异表达的基因进行了GO和KEGG功能富集分析,以了解DMGDH在KIRC的发生发展中发挥的作用。GO分析结果显示,DMGDH可能通过羧酸转运发挥作用(图3A);KEGG分析结果显示,DMGDH可能通过药物代谢-细胞色素P450发挥作用(图3B)。

2.6 蛋白-蛋白对接

三对蛋白对接分数:PPAR γ/DMGDH为-1 209.853 kcal/mol;PPAR α/DMGDH为-1 086.638 kcal/mol;CYP1B1/DMGDH为-798.415 kcal/mol。PPAR γ/DMGDH相互作用分析氢键Gln273和Lys180, His466和Asn179,Gln294和Glu171,Glu298和Lys85(图3C),PPAR α/DMGDH相互作用分析氢键lys399和Asp652,Asn303和Asn566,Asn577,Glu462和Lys764,Gln461和Ala765(图3D),CYP1B1/DMGDH相互作用分析氢键 Asn312和Gln68;Asp310和Gln68,Arg76(图3E)。

(A) 单因素cox分析筛选出了预后相关因素;(B) 多因素cox分析筛选出了预后相关因素;(C) 生存列线图预测模型;(D) 预测肝细胞癌患者第1、3、5年生存期的校正曲线图2 构建列线图用以评估患者的总体生存情况(A) Screening out prognostic correlates with one-way cox analysis; (B) screening out prognostic correlates multi-factor cox analysis; (C) Survival nomogram prediction model; (D) Calibration curves for predicting survivals of patients with hepatocellular carcinoma at the 1st, 3rd, 5th yearFig. 2 Construction of nomogram to assess overall survival conditions of patients

3 讨论

本研究对TCGA的39种肿瘤的相关临床信息数据进行了系统分析,发现DMGDH在TCGA-STAD、TCGA-COADREAD中高表达预后差,在4个肿瘤类型TCGA-KIPAN、TCGA-KIRC、TCGA-LIHC、TCGA-ACC中低表达预后差。DMGDH单基因预后模型构建,说明了DMGDH在KIRC中是预后的保护因素。构建的生存列线图多因素结果显示DMGDH、年龄和TNM分期是独立的预后因素,提示与其它肿瘤类型相比,DMGDH可能在KIRC的发生、发展中发挥了重要的作用。

DMGDH如何参与KIRC的发生、发展目前仍知之甚少。为了进一步探究DMGDH在KIRC中的生物学功能,根据DMGDH的表达量,对差异表达的基因进行了GO和KEGG功能富集分析。结果显示,主要富集过氧化物酶体增殖物激活受体(PPAR)信号通路和细胞色素P450代谢等有关,这结果与文献一致,Xu Y等[14]详细分析KIRC中整个 PPAR通路并成功建立患者预后风险模型的研究,过氧化物酶体增殖物激活受体(PPARs)属于核激素受体超家族成员,包括过氧化物酶体增殖物激活受体γ(PPARγ)、过氧化物酶体增殖物激活受体α(PPARα)和过氧化物酶体增殖物激活受体β/δ(PPARβ/δ)3个亚型[15],PPARα等核受体是KIRC独立的预后因素[16]可作为KIRC的临床诊断和预后生物标志物[17]。具有晶型结构细胞色素P450(CYP450)亚型的受体蛋白为细胞色素P450家族1亚家族A成员2(CYP1A2)、细胞色素P450家族2亚家族C成员19(CYP2C19)、细胞色素P450家族1亚家族A成员1(CYP1A1)、细胞色素P450家族1亚家族B成员1(CYP1B1)、细胞色素P450家族2亚家族E成员2(CYP2E2)[18],CYP1B1是一种细胞色素P450酶,在多种恶性肿瘤中过度表达[19],CYP1B1的多态性与肾癌发生相关[20]。本研究利用DMGDH分别与PPARγ、 PPARα和CYP1B1三种蛋白进行蛋白-蛋白对接,结果两者之间结合较好分别为-1 209.853 kcal/mol、-1 086.638 kcal/mol和-798.415 kcal/mol。

综上所述,本研究明确了DMGDH在多种肿瘤中的表达情况,其在KIRC中是预后的保护因素,DMGDH可能通过PPAR信号通路和P450代谢来影响肝癌的发生、发展。

(A) DMGDH差异表达GO富集分析;(B) DMGDH差异表达KEGG富集分析;(C) PPAR gamma/DMGDH对接;(D) PPAR alpha/DMGDH对接;(E) CYP1B1/DMGDH对接图3 DMGDH差异表达的GO和KEGG富集分析及蛋白-蛋白对接(A) GO enrichment analysis of DMGDH differential expression; (B) KEGG enrichment analysis of DMGDH differential expression; (C) PPAR gamma/DMGDH docking; (D) PPAR alpha/DMGDH docking; (E) CYP1B1/DMGDH dockingFig. 3 GO and KEGG enrichment analysis and protein-protein docking of DMGDH differential expression

猜你喜欢
样本蛋白基因
RNA结合蛋白与恶性肿瘤发生发展关系的研究进展
Frog whisperer
用样本估计总体复习点拨
人工驯养树鼩精子发生过程中MCM7蛋白的表达
修改基因吉凶未卜
规划·样本
创新基因让招行赢在未来
随机微分方程的样本Lyapunov二次型估计
基因
SAK -HV 蛋白通过上调 ABCG5/ABCG8的表达降低胆固醇的吸收