武燕洁,李譞媛,宣成昊,兰蓓
(天津医科大学基础医学院生物化学与分子生物学系,天津 300070)
肝细胞癌是消化系统常见的恶性肿瘤[1]。尽管在临床上肝癌的治疗取得了很大进展,但由于术后肿瘤复发和转移率较高,患者的整体预后较差[2-3]。既往研究表明,肝癌的进展涉及多因素诱因和基因突变[4-6]。因此,研究分析肝癌中异常表达的基因将有助于在临床上找到新的治疗靶点。
Mediator of RNA polymerase Ⅱ transcription(Mediator)是一种多亚基复合体[7],在转录因子和RNA 聚合酶Ⅱ之间发挥桥梁作用,能够在转录的多个阶段调控基因表达,包括转录起始复合物的形成、转录延长、增强子-启动子环的形成等过程[8-9]。MED19(Mediator complex 19)是Mediator 复合体的主要成员,能够与转录因子GATA 和过氧化物酶体增殖物激活受体γ(PPARγ)结合进而调控转录[10-11]。越来越多的研究表明,MED19 的异常表达与乳腺癌、胃癌、肺癌和膀胱癌等的发生、发展密切相关[12-15],然而其在肝癌中的表达与功能尚未进行研究。笔者将基于TCGA 数据库,分析MED19 的表达对肝癌诊断和预后的价值,以期为肝癌的临床诊断治疗提供新的靶点。
1.1 数据来源及筛选 从TCGA 数据库中下载肝癌的RNAFPKM(Fragments Per Kilobase per Million)表达数据和肝癌患者的临床资料,数据包含371 例肝癌患者数据,其中50 例患者样本包含正常肝脏组织和癌组织,剩余321 例样本只包含癌组织。免疫组化数据分析来自HPA(Human Protein Atlas)数据库(https://www.proteinatlas.org/)。
1.2 免疫分析 在免疫分型方面,根据6 个代表性免疫基因集:Wound healing(C1)、INF-gamma Dominant(C2)、Inflammatory(C3)、Lymphocyte Depleted(C4)、Immunologically Quiet(C5)、TGF-beta Dom inant(C6)的基因集富集分析(gene set variation analysis,GSVA)富集score,将肿瘤样本分成6 种不同的免疫亚型,每个免疫亚型代表特定的免疫微环境。从UCSC Xena 数据库(https://xena.ucsc.edu/)下载肝癌患者的免疫分型数据,比较MED19 表达在各个免疫亚型之间是否存在差异。在免疫评分方面,通过ESTIMATE 算法可以计算肿瘤样本的肿瘤微环境的免疫分数和基质分数,分值越大表明肿瘤微环境中免疫细胞或基质细胞比例越大。从ESTIMATE:Home -Bioinformat ics(https://bioinformatics.mdanderson.org/estimate/)中下载每个肿瘤样本的免疫得分和基质得分。以371 例肝癌组织样本中MED19 表达中位数(MEDIA=4.40)为界,比较MED19 高表达组和低表达组的得分是否存在差别。
1.3 生存分析与临床相关性分析 以样本中MED19基因表达的中位数(MEDIA=4.40)为界,将MED19分为高表达组和低表达组。采用Kaplan-Meier 生存曲线分析及GEPIA 数据库(http://gepia.cancer-pku.cn/)分析MED19 基因表达与肝癌患者生存期的相关性。单因素和多因素Cox 回归分析MED19 表达量及各个临床参数与肝癌患者预后的关系并计算风险比(hazard ratio)。
1.4 GSEA 通过GSEA 分析在肝癌样本中MED19 高表达组和低表达组的差异表达基因,探讨MED19表达水平的差异对细胞信号通路的影响。本研究采用kegg.v7.4 数据集,按照缺省参照设置进行富集分析,选择q<0.05 为显著富集的基因集。
1.5 差异基因分析及GO(Gene Ontology)与KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析 采用样本的RNAFPKM 值,通过R 语言“limma 包”筛选MED19 高表达组和低表达组的差异基因,将表达上调与表达下调的基因分别在metascape(https://metascape.org/gp/index.html)进行GO 和KEGG富集分析。
1.6 MED19 表达量与药物敏感性的相关性 使用Cellminer(https://discover.nci.nih.gov/SclcCellMiner-CDB/)数据库数据,筛选FDA approved 及Clinical trial数据,分析MED19 基因表达水平与药物敏感性的关系。
1.7 统计学处理 采用R 语言R-4.0.3 软件处理数据并进行统计学分析。采用Wilcoxon 秩和检验比较MED19 在不同组织、不同临床特征和免疫分型中的表达差异,比较MED19 高低表达组在免疫得分和基质得分的差异。采用Kruskal-Wallis 检验分析MED19 表达在各个免疫亚型间的差异。绘制Kaplan-Meier 生存曲线,通过Log-Rank 进行差异性检验比较生存时间差异,采用单因素和多因素Cox 风险模型进行分析,计算HR 和95%置信区间。采用Pearson 相关性分析计算MED19 表达与药物敏感性的联系。P<0.05 表示差异具有统计学意义。
2.1 MED19 在肝癌组织和正常组织中的表达差异分析 MED19 在肝癌组织和正常组织中的表达情况,分别绘制蜜蜂图和箱式图,结果显示,肿瘤组织MED19 表达水平显著增加[肿瘤组织:4.403(3.519,5.642),正常组织:2.310(2.063,2.617),W=1 422,P<0.001,图1A、1B]。将50 个正常组织及其对应的肿瘤组织进行配对分析发现,肿瘤组织MED19 的表达高于正常组织(W=10,P<0.001,图1C)。通过HPA数据库分析MED19 蛋白水平的变化,其免疫组化结果显示,与正常组织相比,MED19 在肝癌组织中的表达增加。
图1 MED19 在正常组织和肝癌组织中的表达Fig 1 The expression of MED19 in normal tissues and hepatocellular carcinoma tissues
2.2 MED19 表达与肝癌患者临床特征的相关性 将MED19 RNA 表达数据和临床信息进行整合发现,与stage Ⅰ期肝癌患者相比,MED19 在stageⅡ、stageⅢ期患者中表达量增加[stageⅠ:4.243(3.446,4.890),stageⅡ:4.516(3.767,6.002),stage Ⅲ:4.894(3.369,6.547),stage Ⅳ:3.664(3.288,4.665),stage Ⅱvs. stageⅠ:W=5 828,P<0.01,stageⅢvs. stageⅠ,W=5 707,P<0.01,图2A]。由于样本的N(presence of cancer cells in draining and regional lymph nodes)分期、M(evidence for metastases)分期的数据信息不全,所以只对T(tumor burden)分期进行分析。结果表明,T2、T3、T4 期患者与T1 期相比,MED19 的表达水平增加 [T1: 4.237(3.424,4.897),T2:4.580(3.790,6.149),T3:4.884(3.342,6.418),T4:5.591(4.232,7.289),T2 vs. T1:W=6 485,P<0.01,T3 vs.T1:W=5 758,P<0.01,T4 vs.T1:W=770,P<0.05,图2B]。病理分级结果显示,病理分级G3 的患者与分级G1的相比,MED19 的表达量升高 [G1: 3.204(2.474,5.065),G2:4.300(3.463,5.440),G3:4.656(3.808,6.484),G4:5.502(4.144,6.116),G3 vs. G1:W=2 656,P<0.05,图2C]。此外,MED19 表达量与患者的年龄和性别无关(图2D、2E)。
图2 MED19 mRNA 表达量与临床分期、T 分期、病理分级、患者年龄和性别的关系Fig 2 The relationship between mRNA expression level of MED19 and clinical stage,T stage,pathological grade,age and sex of patients
2.3 肝癌患者MED19 表达量与肿瘤免疫微环境的关系 在各癌症类型中,肿瘤可分为6 种免疫亚型:伤口愈合(C1)、干扰素-γ 显性(C2)、炎症性(C3)、淋巴细胞耗竭型(C4)、免疫安静型(C5)、TGF-β 显性(C6)。在肝癌患者中,MED19 的表达在5 种免疫分型之间具有差异(肝癌患者中无C5 亚型分型,H=48.375,P<0.001,图3A)。基于“ESTIMATE”算法,分析MED19 高、低表达组在免疫得分和基质得分的差异。结果显示,MED19 表达的高表达组与低表达组相比,基质得分减少(W=14 363,P<0.01,图3B),而免疫得分没有差异(W=17 678,P=0.647,图3C)。
图3 在肝癌患者中MED19 表达量与免疫分型和免疫评分的关系Fig 3 Relationship between MED19 expression level and immune typing and immune score in patients with hepatocellular carcinoma
2.4 MED19 表达与肝癌患者生存预后的关系 Kaplan-Meier 生存曲线分析了肝癌患者生存率与MED19 表达水平的相关性,结果显示,MED19 高表达的患者中位生存期明显少于低表达患者(n=371,χ2=11.7,P<0.001,图4A)。同样,GEPIA 数据库中生存分析得到了相同的结果,MED19 高表达肝癌患者总体生存期缩短(图4B)。采用单因素Cox 回归分析年龄、性别、病理分级、临床分期、T 分期和MED19表达量对肝癌患者预后的影响。结果表明,临床分期、T 分期[stage Ⅲvs.stage Ⅰ(HR=2.713,95%CI:1.763~4.175,P<0.001)、stage Ⅳvs. stageⅠ(HR=5.493,95%CI:1.691~17.841,P<0.01)、T3 vs. T1(HR=2.593,95%CI:1.668~4.031,P<0.001)、T4 vs.T1(HR=5.019,95% CI:2.230~11.299,P<0.001)],以及MED19 的高表达(HR=1.171,95%CI:1.087~1.261,P<0.000 1)与患者不良预后相关;将单因素回归分析有统计学差异的变量纳入多因素Cox 分析中,结果显示,MED19 高表达(HR=1.123,95% CI:1.036~1.216,P<0.01)是肝癌患者独立的不良预后因素(表1)。
表1 肝癌患者总生存率的单因素和多因素Cox 回归分析Tab 1 Univariate and multivariate Cox regression analysis of overall survival rate in patients with hepatocellular carcinoma
图4 MED19 mRNA 表达量对肝癌患者生存率的影响Fig 4 The effect of MED19 mRNA expression on survival rate of patients with hepatocellular carcinoma
2.5 MED19 表达对信号通路的影响 首先,利用GSEA 分析MED19 的表达量对细胞信号通路的影响。在MED19 高表达的组别中,富集的基因集包括:剪接体、DNA 复制、核糖体、细胞周期和RNA 聚合酶通路。在MED19 低表达组别中,主要富集的基因通路包括:脂肪酸代谢、缬氨酸亮氨酸和异亮氨酸分解和丙酸代谢等(图5A)。其次,筛选出MED19高、低表达组的差异基因共3 464 个,其中1 564 个基因在MED19 高表达组中表达上调,1 900 个基因表达下调。GO 分析结果显示,在MED19 高表达组中表达上调基因主要富集在有丝分裂细胞周期、DNA 复制和细胞衰老等与癌症相关的代谢通路(图5B)。KEGG 富集分析结果显示,MED19 高表达组别中上调基因主要富集的通路包括:细胞周期、DNA复制和脂肪酸代谢等,下调基因主要富集的通路包括:脂肪酸代谢、缬氨酸亮氨酸和异亮氨酸分解和丙酸代谢等(图5C)。
图5 MED19 表达对信号通路的影响Fig 5 Effect of MED19 expression on signaling pathway
2.6 在癌症中MED19 表达与药物敏感性的相关性 MED19 表达水平与克拉屈滨(r=0.331,P=0.010)、白屈菜红碱(r=0.313,P=0.015,)、羟基脲(r=0.290,P=0.025)和茚地替康(r=0.277,P=0.032)的敏感性呈正相关。
肝癌是全球癌症相关死亡的主要原因[16]。因为具有侵袭、转移和复发频繁的特点,肝癌在全球一直是一个主要的健康问题[17]。尽管目前治疗肝癌已经取得了进展,但肝癌患者的预后仍不令人满意[18]。肝癌的发生和进展涉及遗传因素和表观遗传改变的累积[19]。因此,研究肝癌发生、进展中的异常表达基因及其潜在机制对于探索肝癌的新治疗靶点至关重要。
在基因转录过程中,Mediator 复合体能分别与转录因子和RNA 聚合酶Ⅱ相互作用,进而广泛参与二者之间的信息传递,被称为真核生物基因转录的中央控制器[20]。MED19 是Mediator 复合体的亚基之一,在人类恶性肿瘤发展中具有重要作用[21]。之前的研究报道,在多种癌症患者组织中,MED19 的表达水平升高。例如,在膀胱癌中,MED19 表达水平增加,并且能通过Wnt/β-catenin 信号通路促进癌症进展;在乳腺癌中,MED19 能通过调节表皮生长因子以及下游的丝裂原活化蛋白激酶信号通路,促进乳腺癌细胞的增殖和上皮间充质转化等[12-15]。以上研究说明MED19 发挥促癌作用[22-23],可能成为癌症治疗干预的新靶点。
本研究利用TCGA 数据库,分析肝癌中MED19在肿瘤组织和正常组织中的表达。结果发现,MED19在肝癌组织中表达增加,并且高临床分期以及高病理分级的患者与低级别患者相比,EMD19 的表达升高,这对肝癌有一定的诊断价值。在免疫分析中,MED19的表达在肝癌患者免疫分型中有明显差异,表明在肝癌中,MED19 可能是免疫亚型中基因表达的调节因子。并且MED19 的高表达组与低表达组相比,基质评分减少,即高表达肿瘤样本中基质细胞占比减少,说明MED19 表达量可能会影响肝癌患者的肿瘤微环境。Kaplan-Meier 生存分析结果显示,MED19 mRNA 的高表达使肝癌患者的生存率降低。Cox 回归分析发现MED19 是预测肝癌患者预后的独立危险因子。此外,GSEA 分析的结果显示,MED19高表达组在RNA 聚合酶通路富集,与其介导RNA聚合酶Ⅱ转录功能密切相关。同时MED19 高表达还在DNA 复制、细胞周期等通路富集。筛选MED19高表达组和低表达组差异基因进行GO 和KEGG富集分析,结果表明,在MED19 高表达组中,上调基因也主要富集在有丝分裂细胞周期、DNA 复制和细胞衰老等通路,这与GSEA 结果一致,提示MED19可能通过调控以上通路发挥促癌作用。同时,GSEA、GO 和KEGG 结果显示,MED19 高表达引起脂代谢和氨基酸代谢等通路的下调,提示MED19还可能与脂代谢和氨基酸代谢通路相关。
利用Cellminer 数据库数据,发现MED19 表达量与抗癌药物克拉屈滨、白屈菜红碱、羟基脲和茚地替康的敏感性呈正相关。克拉屈滨是脱氧腺苷的口服核苷类似物,适用于治疗复发型多发性硬化症和毛细胞白血病等[24-25]。白屈菜红碱是一种天然苯并啡啶类生物碱,存在于许多草药中,具有广泛的抗肿瘤活性,其能抑制前列腺癌、宫颈癌和三阴性乳腺癌等的进展[26-27]。羟基脲是一种简单的有机化合物,目前在临床上用作癌症化学治疗剂。它能通过抑制核糖核苷二磷酸还原酶,特异性作用于细胞周期的S 期,从而阻碍核糖核苷酸向脱氧核糖核苷酸的还原转化,限制从头DNA 合成。羟基脲在治疗恶性黑色素瘤和头颈癌中能发挥重要作用[28-29]。茚地替康是一种新型DNA 拓扑异构酶Ⅰ抑制剂。DNA拓扑异构酶可以分为喜树碱类和非喜树碱类化合物,茚地替康属于非喜树碱类,因其能克服喜树碱化合物稳定性差、不良反应大等缺点,将有望在肿瘤的临床治疗中发挥重要作用[30]。分析结果显示,MED19 的表达量与以上抗肿瘤药物敏感性呈正相关,表明MED19 在癌症中表达升高能增加肿瘤细胞对以上抗肿瘤药物的敏感性。该结果为其药物开发提供了前期数据支持。
综上,本研究首次明确了MED19 在肝癌患者中的表达变化及其具有的预后意义,为肝癌的诊断和预后发掘了可能的基因标志物,其潜在分子机制值得进行深入探索和研究。