霍励耘,魏英城,谭文亮,商昌珍,陈亚进
原发性肝癌是全球第六大常见恶性肿瘤和第二大癌症相关死亡原因[1]。由于早期肝癌缺乏典型的临床症状,大多数肝癌患者在确诊时往往已进展至晚期,错失了手术治疗的最佳时机[2]。近年来,虽然以手术切除为主的综合治疗方法取得了一定的进展,但是肝癌患者的整体疗效和预后仍不理想[3]。因此,寻找新的早期诊断标志物以及治疗靶点对改善肝癌患者的预后具有重要的研究价值。
蛋白质复合体家族被称为染色体结构维持家族(structural maintenance of chromosome,SMC),家族成员主要包含SMC1、SMC2、SMC3、SMC4、SMC5和SMC6,通过形成异源二聚体参与维持染色体的稳定性[4-6]。SMC 基因家族已被报道在多种肿瘤的发生和发展中起重要作用。而在肝癌的研究中,目前仅有少量研究报道SMC 基因家族部分成员与肝癌的发生发展相关[7,8],SMC 基因家族在肝癌中的具体的作用机制仍需进一步的研究探索。在本研究中,我们通过提取公共数据库中的肝癌相关的转录组数据以及临床数据进行分析,对SMC 基因家族表达进行了全面的生物信息学分析,并探讨了SMC基因家族在肝癌患者中的诊断和预后价值,为后续进一步深入探索SMC 基因家族参与调控肝癌进展的具体分子机制提供了基础。
UALCAN 数据库是一个便捷的交互式数据库网站,用于对TCGA 基因表达数据进行深入分析[9]。在我们的研究中,我们使用UALCAN 数据库的“表达分析”模块和肝癌数据集获得了SMC 基因家族在肝癌和正常肝组织中的表达数据。同时,我们还利用UALCAN 数据库探究了SMC 基因家族在肝癌的各个分期中的表达差异。Studentt检验被用于数据的统计学检验。当P值小于0.05被认为差异有统计学意义。
Human Protein Atlas 数据库中包含了正常组织和癌组织中的免疫组织化学和免疫荧光表达数据[10]。在本研究中,Human Protein Atlas 为我们提供了正常肝组织和肝癌组织中SMC 基因家族蛋白的免疫组织化学染色图像。
GEPIA 数据库是一个基于 TCGA 和 GTEx 的RNA 测序数据的在线数据挖掘数据库[11]。我们运用GEPIA 分析了SMC 基因家族在肝癌患者中的生存曲线,其中SMC 基因家族高表达组以75%为界限,SMC 低表达组以25%为界限,并以P值<0.05为差异显著性标准。
分析通过UALCAN 数据库探讨SMC 基因家族在肝癌和正常组织中的表达。从图1 所示的SMC 基因家族转录水平的箱式图来看,所有的SMC 基因家族成员,包括 SMC1A、SMC1B、SMC2、SMC3、SMC4、SMC5 和 SMC6 均显示在肝癌组织中的高表达,且差异均具有统计学意义(它们的P值依次为<1E-12、3.17E-09、1.62E-12、1.62E-12、<1E-12、6.03E-05和1.62E-12)。接下来,为了研究SMC基因家族在肝癌组织中的蛋白水平,我们通过Human Protein Atlas 数据库展示了SMC 家族蛋白在肝癌和正常肝组织中的表达差异。如图2 所示,SMC1A、SMC2、SMC3、SMC4、SMC6 在肝癌组织中的表达高于正常肝组织,而SMC1B 和SMC5在肝癌组织和正常组织中未见明显差异。
图1 SMCs 在肝癌和癌旁组织中的转录水平差异(UALCAN 数据库) ****为P<0.0001
在探究SMC 基因家族在肝癌中的表达模式后,进一步提出设想:SMC 基因家族的转录表达水平是否与肝癌的分期和有关。为了寻找答案,我们分析了UALCAN 开源数据库的数据,此数据库是以TCGA 数据库为基础。如图3 所示,SMC1A、SMC1B、SMC2、SMC3、SMC4、SMC5 和SMC6 在Ⅲ期肝癌患者中的表达显著高于Ⅰ期肝癌患者(经统计学检验,P值依次为 0.0010、0.0223、0.0002、0.0053、0.0012、0.0239 和 0.0042)。SMC1A 和SMC2在2 期肝癌患者中的表达显著高于Ⅲ期肝癌患者(P值分别为 0.0180 和 0.0209),而 SMC5 在Ⅱ期肝癌患者中的表达水平却低于Ⅰ期肝癌患者。另外,SMC1B、SMC3、SMC4 和 SMC6 的转录水平在Ⅰ期和Ⅱ期肝癌患者的差异无统计学意义。可见SMC 基因家族的表达水平与肝癌的分期有密切的关系。
图2 SMCs 在肝癌组织和正常肝组织中的代表性免疫组织化学图像(Human Protein Atlas 数据库)比例尺:200 μm
图3 SMCs 在肝癌不同分期之间的转录水平差异(UALCAN 数据库) 注:ns 为P>0.05;*为P<0.05;**为P<0.01;***为P<0.001
为进一步了解SMC 基因家族表达水平与肝癌患者的总生存期(overall survival,OS)和无瘤生存期(disease free survival,DFS)的相关性,通过在线分析工具(GEPIA)分析TCGA 数据库中肝癌患者的表达谱和临床资料。如图4 所示,笔者将基因高、低表达水平的界限设置为总体水平的75%以上或总体水平的25%以下。结果显示,在肝癌患者中,SMC2、SMC3、SMC4 和 SMC6 高表达与患者的OS 呈负相关,其表达水平越高,患者的OS越短(Kaplan-Meier 生存分析,Log Rank 检验,P值依次为 0.011、0.011、0.002 和 0.006)。而 SMC1A、SMC2、SMC4 和 SMC6 高表达与患者的 DFS 呈负相关,其表达水平越高,患者的DFS 越短(Kaplan-Meier 生存分析,Log Rank 检验,P值依次为 0.038、0.002、0.040 和0.028)。但是,SMC1B 和 SMC5 的表达水平与患者的OS 和DFS 无明显统计学差异(Kaplan-Meier 生存分析,Log Rank 检验,P值依次为0.32、0.23、0.44 和0.059,结果未展示)。
图4 SMCs 的转录水平在肝癌预后判断中的价值(GEPIA 数据库) 肝癌患者中SMC2/3/4/6 高表达组的总生存期OS 低于低表达组,P<0.05;SMC1A/2/4/6 高表达组的无瘤生存期DFS 低于低表达组,P<0.05(SMC1A 的结果未完全展示)
SMC 家族成员的6 个基因通过形成异源二聚体与细胞内的其他蛋白结合形成SMC 蛋白复合物,主要包括:粘附素(SMC1/3)、凝聚素(SMC2/4)和SMC5/6 复合体。SMC 复合体通过调控染色单体凝聚、DNA 复制和修复,以及减数分裂中的同源染色体配对等功能,从而参与调控细胞核内基因组的稳定性和动态平衡[5,6]。
既往的研究显示SMC 基因家族在多种恶性肿瘤中高表达且与患者的预后密切相关。有研究显示SMC1A 在多种肿瘤组织中高表达,参与调控肿瘤细胞增殖、细胞周期和细胞迁移等功能[12,13]。SMC2 基因突变与结肠癌和胰腺癌中微卫星不稳定特性密切相关[14,15]。在肺癌相关的研究中,通过下调SMC3、SMC5 和SMC6 的表达可以抑制肺癌的进展[16]。此外,也有研究表明SMC4 对卵巢癌的早期诊断有一定的应用价值[17],而另一项研究表明SMC4 可通过P53 信号通路参与调控染色体稳定性从而促进乳腺癌进展[18]。而在肝癌研究领域,SMC 基因家族相关的研究报道较少。Zhang 等[7]研究发现SMC1A 在肝癌组织中高表达且磷酸化的SMC1A 可促进肝癌细胞的恶性增殖。而关于SMC 家族的其它成员在肝癌中的表达及临床价值,仍有待进一步深入探索。本研究通过深入、全面的生物信息学分析,证实SMC 基因家族在肝癌组织中普遍高表达,而且与肝癌患者的生存预后密切相关。在本研究中,通过分析UALCAN 数据库和Human Protein Atlas 数据库,我们发现SMC 基因家族成员在肝癌组织比在正常肝组织中的表达更高。进一步通过分析SMC 基因家族与肝癌患者的临床分期相关性,结果也提示SMC1A 和SMC2在Ⅱ期肝癌患者的组织表达明显要高于Ⅰ期肝癌患者,Ⅲ期肝癌患者中SMC 家族成员的表达普遍比Ⅰ期肝癌患者高,这部分结果充分说明SMC 家族与肝癌患者的恶性进展过程密切相关。
为了进一步探索SMC 家族在肝癌组织中的表达与患者生存预后的相关性,笔者通过分析TCGA数据库中肝癌相关的数据,结果显示SMC1B 和SMC5 基因的表达水平与患者的生存预后分析无明显统计学差异,它们作为肝癌患者预后的评价仍需进一步的临床样本验证。而SMC2、SMC4 和SMC6 基因高表达的肝癌患者总生存期以及无疾病进展生存期均明显较差,此外,SMC3 和SMC1A高表达的患者往往生存预后较差且肿瘤容易早期复发。这些结果提示SMC1A、SMC2、SMC3、SMC4和SMC6 基因高表达与肝癌患者预后不良呈正相关,可以作为肝癌患者预后的预测因素。
综上所述,该研究对SMC 基因家族和肝癌患者进行了全面的生物信息学分析并发现SMC 基因家族在肝癌组织中高表达且与肝癌患者的临床分期、疾病进展以及生存预后密切相关。但是,由于生物信息学分析的局限性,关于SMC 基因家族在肝癌中的功能以及相关的分子机制需要进一步的临床样本检测和细胞以及动物实验进行深入的研究探索。