陈圣,赵继森,李靖华,杨季红,程树杰
(1.河北大学临床医学院,河北 保定 071000;河北大学附属医院 2.肝胆外科/河北省普通外科数字医学基础研究重点实验室,河北 保定 071000)
在全球范围内,肝细胞癌(hepatocellular carcinoma,HCC)是常见的癌症之一,在因癌症死亡原因中占第4位,并且其发病率预计将来还会增加[1]。HCC的主要治疗手段为肝癌切除术[2],而手术后较高的转移率和复发率严重影响着HCC患者的治疗效果和生存期[3-4]。且由于HCC早期无明显症状难以发现、较早出现肝内转移等原因导致许多HCC患者在诊断时已经失去了手术的机会[5]。因此有效的预后标志模型可能有助于指导个体治疗策略的制定从而改善患者生存期。
自噬是溶酶体依赖细胞内降解途径,通过降解不需要的细胞成分在生理、病理生理环境中对细胞生存、分化、发育和调节细胞稳态至关重要的生理过程[6]。在生理情况下,自噬通过细胞内降解机制分解受损的细胞器从而维持细胞内环境稳定[7]。自噬过程同样参与许多病理过程,如神经退行性疾病,衰老和癌症[8-9]。越来越多的证据表明自噬失调与肝脏疾病如脂肪肝、肝硬化和HCC的发病机理有关[10]。近些年,许多研究小组试图将自噬基因确立为癌症的潜在治疗靶标[11-12]。有研究[13-14]表明自噬药物可以用作药理剂,以克服HCC治疗中化疗的局限性,例如药物毒性和耐药性。但这是否是一个替代性的和正在出现的概念仍然是一个巨大的挑战[15]。以自噬调节为视角和潜在治疗目标的研究数目越来越多,自噬可能将成为一种潜在的方法来治疗HCC[16]。有研究[17]表明IFN-γ通过诱导自噬体的形成和微管相关蛋白1轻链3蛋白的转化抑制人HCC细胞生长和非凋亡性细胞死亡。越来越多的研究突显了自噬在HCC中的重要性,其中确定主要的自噬靶标研究尤为重要。
长链非编码RNA(long non-coding RNA,lncRNA)是一类无蛋白编码功能的RNA序列,lncRNA涉及RNA衰变,基因表达的遗传调控,RNA剪接,microRNA调控和蛋白质折叠等多种生理过程[18]。其异常表达与多种癌症的发生、发展密切相关,并具有诊断及预后价值[19]。通过lncRNA-mRNA共表达分析可以较好评估lncRNA的功能[20-21]。在HCC发生、发展及预后中,发现许多lncRNA在扮演着重要作用。有研究[22-23]表明,在HCC中存在lncRNA介导转录和自噬相关基因转录后水平调控自噬调控网络。因此,自噬相关的lncRNA可能在HCC患者的预后中具有潜在价值,并且可以作为潜在的治疗靶标。本研究旨在建立HCC中自噬相关的lncRNA预后模型。
HCC患者转录组测序及临床数据从TCGA数据率获取(https://cancergenome.nih.gov)。下载的转录组测序数据包含HCC患者374例癌组织以及50例癌旁组织的mRNA和lncRNA表达数据。HCC患者的临床数据包括374例HCC的临床相关资料,如生存时间、生存状态、年龄、性别、肿瘤分级和病理分期等。
1.2.1 自噬相关lncRNA 的筛选从HADb 网站(http://autophagy.lu/clustering/index.html)获 取自噬基因列表。从374 例HCC TCGA RNA 数据集中获得lncRNA 和自噬相关基因的表达数据。利用Pearson 相关性分析计算lncRNA 与自噬相关基因的相关性。满足|R2|>0.3 且P<0.001 的lncRNA 被认为是自噬相关的lncRNA。
1.2.2 数据的预处理删除在HCC 患者中生存时间少于30 d 的患者,用于生存分析的数据集包括342 例HCC 患者的自噬相关lncRNA 表达数据和临床资料。利用R 软件中caret 程序包将用于预后分析的342 例TCGA 的HCC 数据集样本按70% 与30% 的比例分为训练集(n=242)和内部验证集(n=100)。
1.2.3 风险预后模型的构建及分析首先,进行单因素Cox 回归分析及KM 法以评估自噬相关lncRNA 的预后价值。筛选出满足上述2 种方法P 值均<0.05 与HCC 患者预后相关的lncRNA。使用多因素Cox 回归分析对具有预后意义的自噬相关lncRNA 进行筛选并建立风险评分模型。使用风险评分计算公式为每个患者计算风险评分:风险评分=coef基因1×expr基因1+coef基因2×expr基因2+ ...+coef基因Ñ×expr基因Ñ。通过加权lncRNA 的表达水平与回归系数(coef)得到风险评分。coef值是通过多因素Cox 回归分析得到的回归系数;lncRNA 表达定义为expr 基因n。根据中位风险评分划分高风险组和低风险组。利用R 3.6.3 软件中survival 程序包绘制模型预后的生存曲线,并比较两组患者之间生存的差异。绘制预后模型的ROC曲线以评价模型的灵敏度和特异性。使用R 软件中survivalROC 程序包绘制ROC 曲线并计算其AUC 数值。
使用Kaplan-Meier法比较高风险组和低风险组的总生存期(OS),采用对数秩检验计算P值。使用单变量和多变量Cox分析来评估风险评分与临床病理特征或OS之间的关系。P<0.05为差异有统计学意义。自噬相关lncRNA共表达网络的构建使用Cytoscape软件(版本3.6.0)完成。
从TCGA数据库中提取了TCGA数据集中总共 3888个lncRNA。从HADb中总共提取了256个自噬相关基因。通过构建自噬相关基因-lncRNA共表达网络,鉴定与自噬相关的lncRNA。最后,347个lncRNA鉴定为自噬相关lncRNA。
在242例TCGA训练集中基于347种自噬相关的lncRNA使用单因素Cox回归分析和KM法来筛选具有预后意义的自噬相关lncRNA。同时满足Kaplan-Meier法及单因素Cox方法P值均<0.05的lncRNA被考虑为具有预后意义的自噬相关lncRNA。共有26个lncRNA对HCC患者具有预后价值(P<0.05)。随后,进一步使用多因素Cox回归分析对这些lncRNA进行筛选后构建预后模型,同时依据赤池信息量准则(Akaike information criterion,AIC)对模型进行优化,最优AIC=797.82。最后12个lncRNA被用于构建预后模型(表1)(图1)。随后构建预后相关自噬lncRNA共表达网络(图2)。同时绘制12个自噬相关lncRNA和自噬相关基因及对患者总生存期的关系的组合桑基图(图3)。
使用风险评分公式计算自噬相关lncRNA模型的风险评分(表2),风险评分公式:风险分数= coef基因1×expr基因1+coef基因2×expr基因2+...+coef基因Ñ×expr基因Ñ。按中位风险评分值将训练集HCC患者分为两组(低风险组和高风险组)。利用R 3.6.3软件中的survival程序包根据患者风险评分分析生存差异,绘制风险评分曲线、生存状态图及12个lncRNA表达热图(图4)。随着风险评分的升高,高风险评分组患者的死亡人数显著多于低风险评分组,说明高风险评分组的患者整体生存率较差。风险模型还可以预测HCC患者的生存时间,其中低风险组的总生存时间比高风险组的总生存时间更长(图5)。此外,还通过多元Cox回归分析探讨了风险评分签名是否是HCC患者预后的独立预测因子。在消除了其他因素(如性别,年龄,肿瘤分级和分期)的影响后,该风险评分模型仍可显著预测HCC患者的生存(HR=1.201,95% CI=1.141~1.264,P<0.001)(表3)。随后,利用survivalROC程序包绘制模型的ROC曲线以评价模型的灵敏度和特异性(1、3和5年AUC分别为0.801,0.819和0.787)(图6)。
表1 12 个与HCC 预后有关自噬相关lncRNATable 1 The 12 autophagy-related lncRNAs significantly associated with the prognosis of HCC
图1 HCC 中12 个lncRNA 与自噬基因共表达的网络图(lncRNA 为红色节点,自噬基因为蓝色节点)Figure 1 Network of the 12 lncRNAs with the co-expressed autophagy genes in HCC (the red nodes indicating the lncRNAs,the blue nodes indicating the autophagy genes)
图2 训练集中12 个lncRNA 的生存曲线图Figure 2 Survival curves for the 12 prognostic lncRNAs in the train dataset
图3 12 个lncRNAs 与自噬基因关系及对HCC 患者预后的影响Figure 3 The relationship between 12 lncRNAs and autophagy genes and its effect on the prognosis of the HCC patients
表2 训练集中12 个lncRNA 多因素Cox 回归分析Table 2 Multivariate Cox regression analysis of the 12 lncRNAs in the train dataset
图4 训练集中HCC 患者的自噬相关lncRNA 风险评分分析Figure 4 Risk score analysis of the autophagy-related lncRNAs in train dataset
图5 训练集中不同风险评分HCC 患者的生存曲线Figure 5 Survival curves of the HCC patients with different risk scores in the train dataset
表3 训练集HCC 患者临床特征及风险评分的多因素Cox回归分析Table 3 Multivariate Cox regression analysis of characteristics and risk score of the HCC patients in the train dataset
图6 训练集中风险模型的1、3、5年生存的时间依赖性ROC 曲线Figure 6 Time-dependent ROC curves of the risk model for the 1-,3- and 5-year survival in train dataset
随后分析了12-自噬相关lncRNA风险评分在年龄、性别、分级、分期等方面的临床价值。结果显示,肿瘤分级、肿瘤分期和T分期越高,患者风险评分越高,提示该12-自噬相关lncRNA模型可能与HCC的进展有关;而在不同年龄和性别间无统计学差异(均P>0.05)(表4)。
表4 预后模型风险评分与患者临床因素的关系Table 4 The relationship between risk score and clinical factors in patients train dataset
使用相同coef值在内部验证集(n=100)中进一步验证这些结果。根据风险评分的中位值将这些患者分为高风险和低风险组。与从训练集得出的结果一致,高风险患者的中位OS比低风险患者的中位OS短(P=0.0236)(图7)。所构建的lncRNA模型在内部验证集中预测患者1、3、5年生存的时间依赖性ROC曲线的AUC分别为0.694、0.733和0.746(图8)。
图7 验证集中不同风险评分HCC 患者的生存曲线Figure 7 Survival curves of the HCC patients with different risk scores in the validation dataset
图8 验证集中预后模型的1、3、5年生存的时间依赖性ROC 曲线Figure 8 Time-dependent ROC curves of the risk model for the 1-,3- and 5-year survival in the validation dataset
随着高通量测序技术的成熟,通过检测lncRNA表达的改变来预测HCC的预后的研究也越来,例如UCA1[24]和HOTAIR[25]。已有研究[26]表明可以使用多个自噬相关lncRNA构建模型有效的预测神经胶质瘤患者的预后。目前为止,还没有可以预测HCC患者生存的自噬相关lncRNA模型。因此,有必要建立相关预后模型来预测HCC患者的预后。
在本研究中,通过TCGA数据库中HCC数据集探讨HCC患者自噬相关lncRNA的预后作用。本研究通过lncRNA-自噬基因共表达网络鉴定了347个自噬相关lncRNA。随后筛选出12个最具预后意义的自噬相关lncRNA。在12种自噬相关的lncRNA中,CYTOR、DANCR、LINC01138、LUCAT1、MAPKAPK5-AS1、NRAV和NRSN2-AS1的高表达与患者总生存期成负相关,而LINC01871、LINC00864、LINC02362、TMEM220-AS1 和PSMB8-AS1 的高表达与患者的总生存期成正相关。在先前的研究中已经报道了这些基因中的大多数在HCC 或其他恶性肿瘤的预后密切相关。LINC01138[27-28]在HCC 组织中表达显着增加,并且与HCC 的临床病理特征呈正相关,可能是HCC患者预后预测的潜在有价值的候选标志物。DANCR[29]被证明在HCC组织中明显过表达,并与HCC患者的预后呈负相关,且在体外和体内促进HCC细胞中索拉非尼的耐药性。MAPKAPK5-AS1[30]在HCC中与总体存活率显着相关,有可能成为HCC的预后因子。LUCAT1[31]在HCC组织中高表达,且其与患者年龄、肿瘤组织学分级、肿瘤T分期和生存状态显著相关,是HCC患者生存不良的独立危险因素。本研究和这些有类似的结果。
使用12-自噬相关lncRNA构建预后模型,计算风险评分,分析风险评分与临床病理特征及预后的关系。结果显示,在训练集中风险评分与HCC患者肿瘤分级、肿瘤分期和T分期有关(P<0.05),在较高的肿瘤分级、分期中,患者的风险评分趋于增加,表明该lncRNA模型可能与HCC的进展有关。通过多变量Cox回归分析,该风险预后模型是与影响HCC患者预后的独立危险因素(P<0.001)。该风险模型对训练集HCC患者的1、3、5年生存的时间依赖性ROC曲线的AUC分别为0.801,0.819和0.787,同时在验证集中同样具有较好的预测能力,其1、3、5年生存的时间依赖性ROC曲线的AUC分别为0.694、0.733和0.746。本研究构建的自噬lncRNA预后模型在内部验证集中同样具有较好的灵敏度和特异性。根据这些结果,该12-自噬相关lncRNA模型为HCC患者的预后提供可靠的预测。而且12-自噬相关lncRNA是潜在的自噬相关治疗靶点,对于个性化治疗方案的制定也可能具有参考价值。
本研究仍存在局限性,首先,这是一项回顾性研究,研究数据源自于TCGA数据库,因此可能产生一些误差。其次,该预后模型仍有必要在其他独立的队列中进一步进行验证,以明确该模型的稳定性,对于该模型基因中未被证实功能性实验证实与HCC预后相关的基因需要进一步实验揭示其潜在作用机制。
通过构建自噬基因-lncRNA共表达网络,鉴定了12个自噬相关的lncRNA的预测模型,该模型对预测HCC患者1、3、5年生存率均有较好的灵敏度及特异性。虽然本研究中12-自噬相关lncRNA风险预后模型可以较准确的预测HCC患者的预后,但仍需要通过前瞻性实验来进一步验证。