黄勇平,唐德钧,刘冬,张环,唐光华,都敏,杨小兰
肝细胞癌(HCC)是常见的恶性肿瘤之一,发病率不断上升,死亡率居世界第三位[1]。肝癌高死亡率的原因与早期诊断的难度密切相关,特别是在欠发达国家[2]。最近的研究结果表明,某些基因与肝癌的侵袭和转移密切相关,有望成为其治疗和早期诊断的靶标[3]。因此,研究在HCC 进程中起关键作用的基因具有重要意义,因此我们可以将它们用作疾病生物标记物以及早诊断HCC或作为HCC 治疗的靶标以改善患者的预后。
SUB1(SUB1 regulator of transcription)是一种核蛋白,已有研究证实它在各种细胞过程中发挥作用,参与基因激活转录的过程[4,5],其作为转录共激活因子之外,SUB1 已显示抑制启动子驱动的转录以及非特异性转录[6]。研究表明SUB1 在不同癌症中显示出上调的水平。在肺腺癌的淋巴管生成和淋巴转移的发生过程中,SUB1 的表达与VEGF⁃C,VEGF⁃D 和VEGFR⁃3 的水平相关[7]。有报道表明,在前列腺癌细胞中抑制miR⁃101 表达可使SUB1 过表达,SUB1 通过调节多种癌基因促进前列腺癌细胞增殖、侵袭、转移[8]。
癌症基因组图谱(the cancer genome atlas,TCGA)旨在创建全面的癌症基因组图谱。TCGA研究人员已经通过大规模的基因组测序和多维分析对30 多种人类肿瘤的大型队列进行了分析,扩展了当前的肿瘤发生知识。该项目的主要目标是提供公开可用的数据集,以帮助改善诊断方法,治疗标准并最终预防癌症。目前关于SUB1 在肝癌组织中的表达情况及其预后价值未见报道,本研究利用TCGA 及Oncomine 数据库中肝癌的转录组数据及临床数据进行分析,阐明SUB1 在肝癌组织中的表达情况及其对肝癌患者总体生存率及复发的影响,并初步探讨其对生物通路的影响。
从TCGA 数据库下载肝细胞癌基因表达数据(RNA⁃seq counts)424 例,其中肿瘤样本374 例(其中重复样本3 例),癌旁组织50 例。同时下载相应的包含生存信息的临床信息。根据TCGA 官网说明,将样本分为正常组及肿瘤组组织,方便进一步分析。
进一步整理TCGA 数据库肝细胞癌数据集的临床信息,去除正常样本组织,对数据集所有的肿瘤样本以SUB1 表达量的中位数为界,将TCGA肝细胞癌患者的临床资料分为SUB1 高表达组及SUB1 低表达组进行统计分析。SUB1 的相对表达量以2 为底对数(log2)转换后的TPM(transcripts per kilobase million)值表示。按照SUB1 中位表达量进行分组后进一步分析临床数据中的年龄、性别、AJCC 分期、组织学分级、ALB、AFP 等。
利用TCGA 肝细胞癌RNA⁃seq 数据分析肝细胞组织中SUB1 表达与癌旁组织表达情况的差异,将下载整理好的TCGA 肝细胞癌RNA⁃seq Counts数据转换为TPM,进行标准化及log2 转换后进行统计检验。为了进一步验证SUB1 表达的情况,同时在Oncomine 数据库对表达结果进行验证。TCGA 数据库中的肝细胞癌临床资料带有生存信息,数据整理后按照SUB1 的中位表达量分为高表达组及低表达组进行生存分析,分别进行OS 及RFS 分析。
利 用R 包clusterProfiler[9]进 行 基 因 集 富 集分析(gene set enrichment analysis,GSEA)分析。TCGA 数据库肝癌队列的RNA⁃seq 数据做为GSEA的数据,并从GSEA 网站MsigDB 数据库中获得KEGG 数据库生物通路的基因集(c2.cp.kegg.v7.0)作为参照基因集,每次分析重复1 000次。在GSEA分析出富集的通路后,为了进一步研究SUB1 高表达组及低表达组样本在通路中的表现情况,我们利用R 软件包GSVA[10]进行了基因集变异分析(gene set variation analysis,GSVA),它是一种非参数的无监督分析方法,主要用来评估芯片和转录组的基因集富集结果,主要通过将基因在不同样品间的表达量矩阵转化成基因集在样品间的表达量矩阵,从而评估不同的代谢通路在不同样品间是否富集,并将最后得分在两组中进行比较。
本研究所有统计分析及统计图使用R 语言及SPSS 25.0 软件完成,对临床资料的分析中,计数资料用列联表表示,组间比较采用χ2检验,计量资料采用表示,各组间数据的比较依据资料的性质,采用非配对的t 检验或方差分析,生存分析应用Kaplan⁃Meier法,以P<0.05为差异具有统计学意义,对于基因差异分析,P 值应用Benjamini & Hochberg方法进行校正;在GSEA 中,P<0.05 及错误发现率(false discovery rates,FDR)<0.25 的基因集为显著富集的基因集。
TCGA 肝细胞癌患者去除重复后共371 例,其中330 例带有生存信息,可进一步用于OS 分析;带有肿瘤复发事件的309例进一步进行RFS分析。按照SUB1 中位表达量将患者分为SUB1 高表达组及SUB1低表达组,分组后进行比较,在两组中,年龄、性别、AJCC分期、ALB差异均无统计学意义,组织学分级差异有统计学意义,P=0.023。具体见表1。
表1 TCGA 数据库肝细胞癌患者的临床资料表
从TCGA 肝细胞癌队列的RNA⁃seq 数据提取SUB1 的表达数据进行分析,结果提示SUB1 在肝细胞癌组织中高表达,在癌旁组织中低表达,且P<0.001。见图1A。进一步在Oncomine 数据库中验证SUB1 的表达情况,同样表明SUB1 在肝细胞癌组织中高表达,在癌旁组织中低表达,P<0.001,见图1B。图C 显示SUB1 在肝细胞癌AJCC 分期中的表达差异不具有统计学意义,P=0.051。在组织学病理学分级中SUB1 的表达差异具有统计学意义,P=0.006,且中位表达值随着组织学病理分级由G1~G4 增加而增加。这也提示SUB1 的表达与肝细胞癌细胞的分化与关。
为了研究SUB1 在肝细胞癌中的预后价值,进行了生存期分析。TCGA 肝细胞癌数据集中SUB1高表达组患者和低表达组患者的3 年OS 为67.7%和,76.9%;5 年OS 分别为为45.9%和66.4%,P=0.034(log⁃rank 检验,图2A)。3 年RFS 在SUB1 高表达组为28.9%,在SUB1 低表达组为46.7%;5 年RFS 分别为22.7%和29.0%,P=0.012((log⁃rank 检验,图2B)。说明SUB1 的高表达导致了肝癌患者的低生存,提示SUB1 与肝癌患者的预后相关,RFS 分析结果提示SUB1 的高表达可能促进肝癌的复发。
确定了SUB1 在肝细胞癌中的预后价值后,为了探讨其生物学过程,使用GSEA 方法,分析SUB1的表达水平对KEGG 生物通路基因集的影响。结果如图3 所示,激活的通路包括细胞周期、DNA复制、剪接体等,被抑制的通路有胆汁酸代谢、维生素A 代谢等。SUB1 高表达主要富集在细胞周期及DNA 复制的通路上,见图4,结果表明SUB1的高表达激活了细胞增殖的相关通路。同样的,GSVA 的分析结果表明SUB1 高表达组的细胞周期通路及DNA 复制的通路的得分明显高于SUB1 低表达组,P<0.001,图5 的结果同样表明这两个通路在SUB1 高表达的肝癌组织中活性更高。
图1 SUB1 在肝癌组织中的表达情况 图A:SUB1 在TCGA 的表达情况(t 检验);图B:SUB1 在Oncomine 数据库的表达情况(t 检验);图C:SUB1 在肝癌AJCC 分期中的表达情况(方差分析);图D:SUB1 在不同病理组织学分级的表达情况(方差分析)
图2 SUB1 表达水平与肝癌患者预后的关系(TCGA 数据库) 图A:肝癌患者的总存活率生存曲线图(Kaplan⁃Meier 法,log⁃rank检验);图B:肝癌患者无复发生存率生存曲线图(Kaplan⁃Meier 法,log⁃rank 检验)
先前的研究表明,SUB1 在多种恶性肿瘤中高表达[5,11,12],且存在多种致瘤作用,当在肝癌组织中的表达情况尚未明确。在本研究中,我们首次提出了肝癌患者SUB1 表达与预后之间的关系。我们的结果表明,SUB1 在肝癌组织中高度表达。此外,SUB1 高表达的肝癌患者预后较差。
图3 SUB1 高表达激活及抑制的通路 NES:(Normalized Enrichment Score,标准化富集分数),>0 表示该通路激活,<0 表示该通路收到抑制
SUB1 在多数的恶性肿瘤组织中高表达[7,12],我们初步假设SUB1 可做为人类恶性肿瘤的分子标记,尤其是肝癌。针对TCGA 数据库的分析结果表明,SUB1 在肝癌组织中的表达高于癌旁组织。为了进一步验证结果,我们在Oncomine 数据库[13]进行同样的分析,二者结果一致。这些结果表明SUB1 在肝癌组织中的表达高于癌旁组织,并且这些发现与其他研究一致,表明SUB1 在肿瘤组织和癌旁组织之间存在差异表达。Kaplan⁃Meier分析显示,SUB1 表达高的患者比SUB1 表达低的患者预后差,这提示SUB1 可能通过某些通路增加了肝癌的恶性程度。
图4 SUB1 高表达的肿瘤样本明显富集在细胞周期及DNA 复制的通路
图5 GSVA 分析提示SUB1 高表达组在细胞周期及DNA 复制的细胞通路得分较低表达组高
尽管较早的研究表明SUB1 在癌症中的作用,但尚未完全了解其在肿瘤发生中的机制。SUB1在正常的人体组织中普遍存在,在各种细胞过程中具有重要作用,包括转录,复制,染色质组织,细胞周期进程,DNA 损伤修复和凋亡[4,5,14]。有研究表明在前列腺癌中SUB1 可通过激活PLK1,BUB1B和C⁃MYC 以及抑制CDKN1B,这些基因及其编码的蛋白参与肿瘤发生细胞过程,包括细胞增殖,细胞周期和肿瘤发生[8]。本研究中基因集富集分析结果亦表明高表达的SUB1 可激活DNA 复制及细胞周期等细胞通路。GSVA 的分析结果同样支持这样的结论,Lei Chen 等[15]在星形细胞瘤的研究中显示,下调SUB1 的表达可延缓胶质瘤细胞从G1 期进入S 期,从而阻断胶质瘤细胞的增殖和侵袭,这在一定程度上与我们的研究相符合,但尚需实验进一步证明。
总之,本研究结果表明,SUB1 高表达预示肝癌患者的预后差。SUB1 可以作为肝癌患者总体生存和无病生存的预后因素。 SUB1 高表达激活了DNA 复制及细胞周期等细胞通路。需要进一步的研究来阐明SUB1 促进肝癌进展的分子机制。