彭颖,龚光辉,李景和, ,王俊普,
(1.中南大学湘雅医院 病理科,湖南 长沙 410008;2.中南大学基础医学院 病理学系,湖南 长沙 410013)
肝细胞癌(hepatocellular carcinoma,HCC)是全球第六大最常见的恶性肿瘤,也是癌症相关死亡的第四大诱因[1]。HCC的机理与基因突变的增量积累相关,从而产生异常的免疫应答、细胞周期、和血管生成[2]。至于免疫应答,效应免疫细胞可以对HCC进行免疫控制,从而有效减少恶性转化细胞。然而,HCC进展过程清楚地显示肿瘤免疫控制的失败会抑制抗癌免疫反应[3]。
随着医疗技术的迅速发展,HCC的诊断和治疗已大大改善,但预后仍然很差,5年生存率低于40%。尽管有多种预后生物标志物,包括甲胎蛋白(AFP)、DES-γ羧基凝血酶、和细胞角蛋白19被广泛应用于临床实践中[4],但它们的有效性会被各种因素影响,而且单个指标的预测能力不足。相反,基因标签提供更好的预测性能,多基因预后标签可以指导临床医师选择适当的治疗[5]。
最近,能够促进免疫系统攻击癌细胞的免疫检查点抑制剂的开发取得了显著成功[6],在PubMed数据库和中国知网中检索肝细胞癌、免疫基因、预后模型等关键词,尚未有研究构建HCC的免疫相关基因标签预后模型。
因此本研究基于The Cancer Genome Atlas(TCGA)数据库,对于HCC鉴定有效且可靠的免疫基因相关生物标志物以进行预后预测。利用R语言在HCC中挖掘差异表达的免疫基因,结合TCGA数据库中HCC临床样本并分析患者的预后,选择其中与预后明显相关的免疫基因构建可以预测HCC预后的基因标签。鉴定模型中的核心免疫基因和途径可以增强临床应用,提供新的治疗靶点并产生有关癌症进展的新见解。
完整的mRNA表达数据和临床信息可从TCGA数据库(https://cancergenome.nih.gov)获得。本次研究包括377个HCC样本和50个相邻的非癌性组织样本。提取相应的临床信息,包括年龄、性别、TNM分类、病理分期、组织学分级、肿瘤状态等。从Immport数据库(https://www.immport.org/home)下载免疫基因相关信息。使用R语言的limma包提取差异表达的免疫相关差异基因。除去临床信息不完整,随访信息<30 d的患者,用单变量Cox回归分析评估与344例HCC患者总体生存率(OS)显著相关的免疫基因,然后使用多元Cox比例风险回归分析进行进一步筛选,计算每个基因的危险比(HR)。然后,根据表达水平的线性组合构建预后风险评分模型,该风险评分由从多元Cox回归分析获得的回归系数加权,使用中位风险评分将344例患者分为高风险分组和低风险分组。同时从上述344例模型样本中随机抽取50%的病例(172例)为验证样本行内部验证。使用Kaplan-Meier曲线比较两组的预后,并使用对数秩检验评估差异。绘制ROC曲线以分析预测患者总体生存的有效性。用Z检验检查ROC曲线的曲线下面积(AUC)和一致性指数(C-index)分析模型的准确性。进行单因素和多因素Cox回归分析以研究特征性风险评分与临床病理特征之间的关系。
以上所有统计分析均使用R 3.6.1(www.r-project.org)进行,P<0.05被认为具有统计学意义。
使用Wilcoxon秩和检验分析了377个HCC和50个正常肝脏样品中2 498个免疫相关基因的表达,并鉴定了329个差异表达的免疫相关基因,包括267个上调的免疫相关基因和62个下调的免疫相关基因(FDR<0.05,|log2FC|>1)(图1)。
对HCC中329个差异表达的免疫相关基因的表达进行了单变量Cox回归分析,以鉴定预后性差异免疫相关基因。数据显示,24个差异表达的免疫相关基因的表达与HCC患者的OS明显有关(均P<0.001)。为了确定预测预后的最佳模型,使用前向和后向选择算法进行了多变量Cox比例风险回归分析。PSMD14、S100A11、FABP6、RBP2、LCNL1、FCN2、NDRG1、CSPG5和NR6A1被确定为OS模型中的风险基因,高风险基因与患者的预后成负相关。模型中的基因全为高风险基因(表1)。
图1 差异表达免疫相关基因分析 A:免疫相关基因在HCC组织和癌旁组织的差异表达热图;B:火山图显示HCC组织样品(n=377)中2 498个免疫相关基因与正常肝脏样品(n=50)的差异表达(红点代表267个上调的基因,绿点代表62个下调的基因,其余黑点表示无差异表达的基因)Figure 1 Analysis of the differentially expressed immune-related genes A: Heat map of differentially expressed genes between HCC tissue and tumor adjacent tissue; B: Volcano showing the differential expressions of 2 498 immune-related genes in HHC tissue samples(n=377) compared with normal liver tissue sample (n=50) (the red dots standing for the 267 up-regulated genes, the green dot standing for the down-regulated genes and the black dots standing for the rest genes without differential expression)
表1 HCC中9个OS高风险免疫相关基因Table 1 The 9 high-risk immune-related genes associated with the OS of HCC
选择上述9个OS相关的免疫相关基因构成基因标签。根据以下公式计算每个患者的风险评分:风险评分=(0.076)×PSMD14值+(0.001)×S100A11值+(0.058)×FABP6值+(0.019)×RBP2值+(0.161)×LCNL1值+(0.028)×FCN2值+(0.006)×NDRG1值+(0.450)×CSPG5值+(0.157)×NR6A1值。根据风险评分对患者进行分类,将其分为高风险分组和低风险分组。患者的风险评分分布和生存状况如图2A-B所示。高风险分组的病死率为48.8%,而低风险分组的病死率为26.6%。两组之间的病死率存在明显差异(P=2.722E-07)。Kaplan-Meier曲线显示,高风险分组的患者预后较差(对数秩检验:P=1.715E-08)(图2C)。高风险分组的中位生存期为2.753年,高危患者的3年和5年OS率分别为48.8%和33.8%,低风险分组的中位生存期为6.937年,而低危患者的3、5年OS率分别为76.8%和62.7%。使用随时间变化的ROC曲线,测量了1、3年OS的预后风险模型的预测性能。模型样本风险评分在ROC的AUC值下的面积在1、3年时分别为0.790、0.733(图2D-E)。
对该模型进行内部验证,利用R语言将344个HCC样本中,随机抽取172个样本,根据该模型的风险评分对内部验证样本患者进行分类,将其分为高风险分组和低风险分组。内部验证样本的风险评分分布和生存状况如图3A-B所示。内部验证样本中,高风险分组的病死率为46.5%,而低风险分组的病死率为19.8%。两组之间的病死率存在明显差异(P=1.951E-04)。Kaplan-Meier曲线显示,高风险分组患者预后明显差于低风险分组患者(对数秩检验:P=2.22E-05)(图3C)。高风险分组的中位生存期为1.284年,高危患者的3、5年OS率分别为48.8%、36.4%,低风险分组的中位生存期超过10年,而低危患者的3、5年OS率分别为77.4%、62.8%。内部验证样本运用风险评分模型得到一致的生存分析结果。内部验证样本的风险评分在ROC的AUC值下的面积在1、3年时分别为0.799和0.743(图3D-E),均证明此模型具有较高的准确性。
C-index是在ROC曲线下面积的基础上发展而来,用于估计预测结果与实际观察结果相一致的概率。在R语言中用C-index分析此模型的准确性,在模型样本和内部验证样本中,C-index的值分别为0.715(95%CI=0.668~0.762)和0.756(95%CI=0.683~0.829),故此风险评分模型具有较高的准确性。
图2 模型样本高风险分和低风险分HCC患者的分析 A:高风险分(红色)和低风险分(绿色)患者的风险评分分布;B:HCC患者的生存状况(红点表示死亡的患者,绿点表示存活的患者);C:高风险分(红线)和低风险分(蓝线)患者的OS的Kaplan-Meier生存曲线;D:时间依赖性ROC曲线显示HCC患者在1年OS时的AUC值;E:时间依赖性ROC曲线显示HCC患者在3年OS时的AUC值Figure 2 Analysis of HCC patients with high-risk score and low-risk score in the model sample A: Distribution of the patients with high-risk score (red color) and low-risk score (green color); B: Survival status of the HCC patients (the red dots standing for the dead cases and the green dots standing for the survivors); C: The OS Kaplan-Meier curves of patients with high-risk score (red line) and lowrisk score (blue line); D: Time-dependent ROC curve showing the AUC of 1-year OS of the HCC patients; E: Time-dependent ROC curve showing the AUC of 3-year OS of the HCC patients
图3 内部验证样本中高风险和低风险HCC患者的分析 A:高风险分(红色)和低风险分(绿色)患者的风险评分分布;B:HCC患者的生存状况(红点表示死亡的患者,绿点表示存活的患者);C:高风险分(红线)和低风险分(蓝线)患者的OS的Kaplan-Meier生存曲线;D:时间依赖性ROC曲线显示HCC患者在1年OS时的AUC值;E:时间依赖性ROC曲线显示HCC患者在3年OS时的AUC值Figure 3 Analysis of HCC patients with high-risk score and low-risk score in the internal validation sample A: Distribution of the patients with high-risk score (red color) and low-risk score (green color); B: Survival status of the HCC patients (the red dots standing for the dead cases and the green dots standing for the survivors); C: The OS Kaplan-Meier curves of patients with high-risk score (red line) and low-risk score (blue line); D: Time-dependent ROC curve showing the AUC of 1-year OS of the HCC patients; E: Timedependent ROC curve showing the AUC of 3-year OS of the HCC patients
进一步研究风险评分分布与临床参数分层之间的关系,肿瘤分级、病理分期、T分期和新肿瘤事件与风险评分有关(均P<0.05)(图4);其他临床特征,例如年龄、性别和肿瘤状态对风险评分没有影响(均P>0.05)。使用单变量和多变量Cox回归来检查风险评分与其他临床病理特征的组合能力,以预测生存率。单因素Cox回归显示,肿瘤的T分期、病理分期和特征性风险评分与生存率有关(均P<0.05);而多因素回归分析显示,只有风险评分与预后明显有关,单因素与多因素分析均有统计学意义(单因素:HR=1.057,95%CI=1.041~1.074,P<0.001;多因素:HR=1.050,95%CI=1.033~1.067,P<0.001),这意味着风险评分是HCC的独立预后指标(表2)。
图4 风险评分分布与临床参数之间的关系 A:组织学分级:B:新肿瘤事件;C:病理学分期;D:T分期Figure 4 Relationship between risk score distribution and clinical factors A: Histological grade; B: New tumor events; C: Pathologic stage; D: T stage
表2 HCC患者OS的单因素和多因素Cox回归分析。Table 2 Univariate and multivariate Cox regression analysis of OS in HCC patients
HCC是高度异质性疾病[7]。数据显示,HCC的发病率和病死率在世界范围内一直在增加。尽管在治疗上已取得很大进展,但HCC的总体生存率仍然很差。因此,迫切需要鉴定肝癌的敏感和特异性生物标志物。有证据[8-9]表明,常用的临床病理学参数(例如TNM分期,年龄,性别,病毒感染和血清AFP水平)不足以准确预测患者的预后。因此,在癌症的发展和预后过程中,大量的mRNA被检查并鉴定为生物标志物。例如,Gao等[10]研究Rho鸟嘌呤核苷酸交换因子39(ARHGEF39)的表达及其在HCC中的预后意义。Gu等[11]发现CELSR3 mRNA表达在HCC中增加,提示预后不良。但是,由于这些生物标志物会受到许多因素的影响,预测能力不稳定。
大多数HCC发生在慢性炎症的背景下,许多患者还伴有肝硬化,局部和全身免疫缺陷。此外,肝脏本身就是免疫器官,肝脏独特的免疫生物学特性可以促进肿瘤的发生和对肿瘤的耐受性[12],同时也为免疫检查点抑制剂的靶向治疗提供了机会[13]。
多年来,随着高通量测序技术的发展,微阵列数据和生物信息学的结合被广泛用于多种癌症的诊断以及预后的生物标志物的开发。利用数据挖掘技术以及单变量和多变量Cox回归分析来开发包含各种相关基因的基因标签。这样的基因标签被广泛用于分子诊断,个体化治疗,准确的存活预测[14],其预测准确性也优于单一生物标志物[15]。
因此利用生物信息学技术,建立一个与免疫相关的基因标签以指导HCC患者的治疗和预后十分必要。本研究利用Immport数据库,筛选出在HCC癌和癌旁差异表达的329个IRG,通过单变量和多变量Cox比例风险回归模型来鉴定出了9个具有OS的预后价值的免疫相关基因(PSMD14、S100A11、FABP6、RBP2、LCNL1、FCN2、NDRG1、CSPG5和NR6A1),这9个基因在HCC的肿瘤组织中都是被上调,且与不良预后成正相关。利用COX回归模型得出基因标签的风险评分。根据风险评分,将患者分为高风险分组和低风险分组。低风险分组患者的预后明显好于高风险分组。ROC曲线、C-index分析以及内部验证表明此风险评分系统在预测HCC总生存期时具有较准确的预测性能。此外,将临床病理因素与风险评分进行相关性分析,结果表明,风险评分与患者T分期,组织学分级,以及病理学分期和是否发生新肿瘤事件等成负相关。最后,本研究进行了单因素和多因素Cox回归分析,以探索风险评分和其他临床病理参数共同预测生存的能力。结果证实风险评分是一个稳定,独立的预后指标。
在本研究鉴定的免疫基因标签中,去泛素化酶PSMD14,也称为RPN11、POH1和PAD1,是26S蛋白酶体中19S调节帽的组成部分。已证明其参与多种生物学过程的调控,包括细胞生存力[16],衰老[17],多能性[18],细胞自噬[19]和DNA损伤[20]。去泛素化酶PSMD14通过去泛素化和稳定化E2F1,促进了HCC的发生[21]。Wang等[22]发现,PSMD14可促进HCC细胞中TGF-β信号传导增加肝癌细胞的转移潜能与不良预后相关。S100A11是包含2个EF手钙结合基序的S100蛋白家族的成员。该蛋白可能在运动,侵袭和微管蛋白聚合中起作用[23]。S100A11是伪足突出以及肿瘤细胞迁移和侵袭的必需蛋白之一。据报道[25],S100A11是胃癌淋巴结转移的准确预测因子[24]和结肠源性肝转移的预测因子。TGF-β可诱导肝癌中S100A11的表达[26]。Luo等[27]发现S100A11在肝癌中高表达,并在EGFRvIII-STAT3途径中起着至关重要的作用,以促进癌细胞的侵袭和转移。RBP2属于JARID家族,可以使H3K4me2和H3K4me3显著脱甲基[28],RBP2的功能主要与癌症的上皮-间质转化(EMT)、迁移、侵袭和细胞增殖有关。RBP2可能通过PI3K / AKT /HIF-1α信号传导参与促进VEGF表达,RBP2与VEGF协同参与了HCC肿瘤血管生成[29]。FCN2基因编码无花果酶2(L-ficolin,FCN2),是一种可溶性血清蛋白,被认为在宿主先天免疫中发挥重要作用,主要在肝脏中表达,并分泌入血液循环[30]。此外,据报道FCN2在TGF-β信号通路在调节中扮演至关重要的角色,从而参与乳腺癌、胰腺癌、结肠癌和HCC等[31-32]发生进展和转移。NDRG1是N-Myc下游调控的基因1,在HCC中,NDRG1通过直接与GSK-3β和Nur77相互作用来阻止β-catenin降解而成为癌基因[33]。Shi等[34]发现NDRG1通过抑制β-catenin的降解促进核易位和增强的CSC样特性而促进了HCC转移的潜力,NDRG1的上调与HCC的预后不良有关。
尚未有研究证明FABP6(回肠脂质结合蛋白;回肠胆汁酸结合蛋白)、LCNL1(脂质蛋白样1)和NR6A1(孤儿受体)在肝癌中发生发展中的关系。FABP6参与结肠上皮细胞内的胆汁酸胞内运输,Ohmachi等[35]发现了FABP6在结直肠癌中过表达,而且Keler等[36]发现了肝脏型脂肪酸性结合蛋白(L-FABP)在肝细胞内促进DNA合成从而促进细胞生长和维持细胞形态。LCNL1生物学功能涉及先天性免疫反应,并充当潜在有害亲脂分子的生理清除剂,Yang等[37]发现LCNL1的高表达也显示HER-2阳性乳腺癌预后不良。NR6A1/CT150是一种孤儿受体,是睾丸癌(CT)抗原家族的新成员。已有研究[38-39]表明NR6A1在改变细胞命运,包括细胞生长和分化,神经发生和生殖细胞分化等方面有重要作用。Cheng等[40]研究表明NR6A1过表达可增强DU145和PC3细胞系的上皮-间充质转化(EMT)过程,这与前列腺癌的复发转移不良预后密切相关。FABP6、NR6A1、LCNL1在多种癌症中都起着重要作用,其HCC中的作用机制值得进一步研究。
目前尚未有研究阐明CSPG5在癌症中的作用机制,CSPG5是含鸡酸性亮氨酸的富含EGF样结构域的脑蛋白(CALEB),为硫酸软骨素蛋白聚糖(CSPG)5或神经聚糖C,是含有神经软骨素和表皮生长因子(EGF)结构域的跨膜蛋白。在神经系统的发育过程中起重要作用,Jüttner等[41]的研究表明CSPG5参与小脑γ-氨基丁酸能突触的突触前分化。CSPG5在其他疾病以及癌症中的作用值得进一步研究。
本研究对HCC基因表达谱进行了全面而新颖的分析,以识别可能在HCC患者的发展和预后中发挥核心作用的DEIRG。本研究的预测模型基于9个免疫相关基因的表达水平。这种方法比全基因组测序更经济和临床上可行。9基因标签结合临床病理参数,可以使临床医生更准确的分析每个患者的预后。它的风险评分系统易于理解,有助于定制治疗和医疗决策。
本研究可能为HCC的分子机制、免疫治疗和预后的预测提供了新的见解。本研究构建的新的HCC预测风险评分模型的优点之一是:预测OS方面具有很高的敏感性和特异性,并且随机内部验证也证明其有效性。此外,风险评分模型与免疫抑制环境和免疫检查点表达相关,从而帮助临床医生为HCC患者选择个性化免疫疗法。
同时,本研究也存在一些局限性。首先,风险评分模型需要在多中心临床试验和前瞻性研究中得到进一步验证。其次,仍需进一步对9个免疫相关基因的功能和机理进行解析。这些工作有待于进一步开展。
本文中所述的9免疫基因预后标签和基于该模型的风险评分先前尚未报道。因此,本研究使用生物信息学方法,筛选出由PSMD14、S100A11、FABP6、RBP2、LCNL1、FCN2、NDRG1、CSPG5和NR6A1组成的免疫相关基因标签,并证明其在HCC中的预后价值;该模型可以预测切除术后HCC患者的OS,可能有助于个体化治疗的临床决策。而且值得注意的是,风险评分模型提供了免疫学观点,以阐明确定HCC临床结果的机制。