陈钦钦 杨凌志 彭心宇
胰腺癌(Pancreatic carcinoma,PC)是临床上常见的一种消化道恶性肿瘤,其症状出现较晚,进展迅速,预后不佳,五年生存率为8.4%~9%[1,2]。由于胰腺癌缺乏敏感的生物标志物[3],使其难以早期发现、有效治疗和评估预后。胰腺癌化疗关键在于保留正常组织的同时消除肿瘤细胞,因此,确定相关的分子治疗靶点和评估预后非常重要。RNA 结合蛋白(RNA-binding protein,RBPs)是通过一个或多个RNA 结合域(RBDs)结合RNA 并改变结合RNA功能的蛋白质,在转录本的整个生命周期中都具有广泛的调控作用[4]。RBPs 可以通过蛋白质-RNA组装、核糖核蛋白(RNP)的联合作用,以及调节前两者的修饰和相互作用实现一系列细胞目标[5]。本研究探讨可能与胰腺癌有关的RBPs,其中一些可能为潜在的预后生物标志物。
1.1 数据获取本研究中所分析的数据来自TCGA数据库(https://portal.gdc.cancer.gov/)。选取条件设置:原发癌灶为胰腺,项目名称为TCGA-PAAD,表达量数据类型为HTSeq-FPKM,数据种类为转录本,实验方法为RNA-seq 技术。
1.2 差异分析研究人员运用limma 包对筛选得到的RBPs 表达矩阵进行差异分析,筛选条件:①差异倍数绝对值≥1(|logFC|≥1);②P<0.05。筛选后的RBPs 可作为差异表达的RBPs。
1.3 RBPs 的通路分析运用clusterProfiler 包,org.Hs.eg.db 包,enrichplot 包,ggplot2 包进行GO 富集分析和KEGG 通路分析,P过滤条件为0.05,矫正后的P过滤条件为0.05。
1.4 PPI网络绘制通过STRING数据库(https://stringdb.org/),输入差异表达的RBPs,绘制PPI 网络。
1.5 Cytoscape 可视化和子网络构建运用Cytoscape_v3.7.2 再次对PPI 网络进行可视化,运用MCODE 1.6.1 寻找子网络,同时运用org.Hs.eg.db 包和cluster-Profiler 包对筛选得到的RBPs 进行富集分析。
1.6 预后模型构建运用survival 包筛选得到预后相关的RBPs,运用COX 方法进行显著性过滤,设置P为0.05,构建预后模型,将过滤得到的RBPs 绘制成森林图。
1.7 生存分析和ROC 曲线将胰腺癌患者的数据集随机分成实验组与验证组,同时根据风险分数将胰腺癌样本分成高风险组和低风险组。运用survival 包和survminer 包,比较高低风险组生存差异,得到显著性P,绘制生存曲线。运用survival ROC 包绘制ROC 曲线,计算曲线下面积(Area under curve,AUC)。运用pheatmap 包绘制风险曲线、生存状态图及风险热图。
1.8 独立预后分析运用survival 包对实验组与验证组临床数据进行单因素和多因素独立预后分析。
1.9 列线图运用rms 包将筛选得到的4 个RBPs绘制列线图。
2.1 差异表达RBPs 的筛选本研究数据矩阵中包括178 例胰腺癌样本和4 例健康对照样本,对1 542 个RBPs 进行深入分析,共鉴定出15 个差异表达RBPs,包括6 个上调RBPs 和9 个下调RBPs,见表1。
表1 胰腺癌组织中差异表达的RBPs
2.2 差异表达RBPs 的功能富集分析为确定15 个RBPs 的功能和通路,将其分为上调组和下调组进行GO 与KEGG 富集分析。下调RBPs 的生物学过程(Biological process,BP)主要包括病毒防御反应、通过剪切体调控mRNA 剪切等过程,细胞内定位(Cellular component,CC)主要为核糖核蛋白体、细胞质处理小体,分子功能(Molecular function,MF)主要为核酸酶活性、单/双链RNA 绑定、核酸内切酶活性、对RNA 的催化活性,主要参与Toll 样受体信号转导通路、甲型流感诱导的细胞信号转导途径、人类免疫缺陷病毒1 型感染相关信号通路(见图1A、C)。上调RBPs 对RNA 特别是tRNA 具有催化活性,而且可以与核糖核蛋白复合物结合,参与氨基酰-tRNA生物合成通路(见图1B、D)。
2.3 PPI 网络及其子网络为更好地理解这些差异表达的RBPs 在胰腺癌发展中的作用,我们构建了共表达网络。所有RBPs 提交到STRING 11.0 中,共得到27 个边,41 个节点,PPI 富集P值为1.38×e-10。然后使用Cytoscape_v3.7.2 构建这些RBPs 的PPI网络(见图2A),再通过MCODE 1.6.1 寻找子网络(见图2B),筛选出重要的靶基因模块。子网络显示MBNL1、TIA1、QKI、ESRP1、ESRP2 在胰腺癌的进展中发挥重要作用。
图1 差异表达RBPs 的富集分析
图2 PPI 网络
2.4 预后模型采用单因素COX 回归分析,计算目标RBPs 对胰腺癌预后的风险比(Hazard ratio,HR)(见图3A),并将P<0.05 的因素纳入多因素COX 回归分析模型中,最终得到一个具有预后评估价值的由ESRP1、TDRD6、RBM6、DARS2 共4 个RBPs 组成的预后模型(见图3B)。
2.5 生存分析和ROC 曲线实验组和验证组的高低风险组之间均存在生存差异,AUC 均大于0.5,说明该模型具有预测价值(见图4)。
2.6 风险函数在实验组和验证组中,随着患者风险分数的增大,死亡例数占比逐渐增多,生存时间明显减少(见图5A~D)。同时,从风险热图中可以看出,在高风险分组中,TDRD6、ESRP1 均高表达(见图5E、F)。由此说明,该RBPs 预后模型具有有效的预后评估价值。
2.7 独立预后分析实验组单因素、多因素COX 回归分析显示,性别、分级、分期均不能很好地预测胰腺癌患者的预后,而本研究构建的预后模型,根据其风险分数可以有效评估患者预后(见图6A、C)。验证组单因素、多因素COX 回归分析显示,年龄、性别不能很好地预测胰腺癌患者的预后,而分期、风险分数均可以有效评估患者预后(见图6B、D)。
图3 预后模型构建
图4 实验组和验证组的生存曲线及ROC 曲线
图5 实验组和验证组的风险函数可视化
图6 实验组和验证组的独立预后分析
2.8 列线图本研究所构建的预后模型由4 个RBPs 组成,根据每个RBPs 的表达量进行计分,评估患者的最终预后,计算生存概率(见图7)。
图7 预后模型的列线图
胰腺癌往往预后不良,即使可以进行手术切除,复发率也较高,中位总生存时间为24~30 个月[6]。以往研究者通常遵循中心法则,研究癌前病变中的基因突变[7],而近来有研究显示,维持致瘤状态需要额外的基因调控,从而适应不断变化的肿瘤微环境[8,9]。在癌症细胞中RBPs 的转录后基因调控可显著改变mRNA 的稳定性,从而更快更好地进行翻译。因此,筛选能充分反映胰腺癌生物学特征的预后RBPs 标志物,对于胰腺癌患者的治疗和预后评估具有重要意义。
本研究筛选出15 个差异表达RBPs,包括6 个上 调RBPs 和9个下调RBPs,发现这些RBPs 作为核糖核蛋白体、细胞质处理小体,主要参与了mRNA 剪切、病毒防御反应等生物学过程,在Toll样受体信号转导通路、甲型流感诱导的细胞信号转导途径、氨基酰-tRNA 生物合成通路上发挥作用。通过单因素、多因素COX 回归分析,筛选出ESRP1、TDRD6、 RBM6、DARS2 共4 个具有预后评估价值的RBPs,组成一个预后模型,并对其从生存分析、ROC 曲线、风险函数和独立预后分析方面分别进行验证。
ESRP1 又称上皮剪接调节蛋白1,具有mRNA加工与mRNA 剪接的作用,可参与上游外显子Ⅲb的剪接增强,同时沉默下游外显子Ⅲc 的结合内含子剪接增强子/内含子剪接沉默子3(ISE/ISS-3)[10]。有研究发现,ESRP1 通过增强成纤维细胞生长因子受体(FGFR1/2)信号转导,激活Akt 和上调Snail,刺激癌症上皮细胞的生长[11]。在高分化至中等分化胰腺癌中,ESRP1 免疫反应性在癌细胞核中偏强,而在低分化癌中却偏弱[12]。有研究指出,miR-23a 可能通过调节ESRP1 及其下游因子影响胰腺癌细胞的上皮细胞-间充质转化(EMT)和转移[13]。在EMT 期间,ESRP1 可调节FGFR2-Ⅲb 的表达,还可调节CD44、CTNND1、ENAH 3 个转录物的剪接。已有研究证实ESRP1 可加速结直肠癌的发展,而在其他癌症中尚未有报道[11]。
TDRD6 也是一种癌症相关分子,是类染色体的组成部分,其编码一种含有tudor 结构域的蛋白质,是雄性生殖细胞中存在的一种核糖核蛋白颗粒[14]。RBM6 是由长、短两种互剪接亚型组成的蛋白编码基因,在3p21.3 位点纯合子缺失的小细胞肺癌标本中首次定位克隆得到[15]。据报道,RBM6 可由胰腺癌细胞产生,随后释放到血液中,可以作为胰腺癌早期诊断的候选生物标志物[16]。RBM5 是已知的凋亡调节剂,由于RBM6 与其具有高度同源性,预测其可能也具有调节凋亡的能力[17]。DARS2 可编码线粒体天冬氨酰-tRNA 合成,有报道称HBV 可上调DARS2,通过miR-30e-5p/MAPK/NFAT5 途径促进肝癌发生[18,19]。DARS2 及其所编码生成的线粒体酶可能成为潜在的癌症药物治疗靶点。
一些研究已经强调了RBPs 在胰腺癌和其他癌症中的作用,这些蛋白的异常表达与患者预后不良相关[16]。通过生物信息学方法,已研究发现与乳腺癌预后相关的5 个RBPs,包括DCAF13、EZR、MRPL13、 APOBEC3C 和EIF4E3,但未构建预后模型评估癌症患者预后[20]。RBM38 在肿瘤中高表达,癌症患者预后及良性肿瘤的恶变都与其表达有关。在卵巢癌、乳腺癌和胶质瘤中,RBM38 可结合并稳定细胞周期蛋白依赖性激酶抑制剂P21 的mRNA来诱导细胞周期G1 的停滞,同时还可限制E2F1 诱导的增殖,从而限制肿瘤的侵袭性[21]。然而,有研究发现RBM38 的高表达与乳腺癌的不良预后和结直肠腺瘤的恶性转化有关[22~25]。由此可见,单个RBPs 并不能很好地评估某个癌症预后情况,所以本研究整合4 个与预后相关的RBPs 通过列线图的方式评估胰腺癌患者预后。
与研究目标同源或同蛋白家族的RBPs 在癌症中的功能往往相近。PCBP3 在较小的肿瘤中蛋白质含量会显著增加,与胰腺癌预后密切相关[26]。与PCBP3 相似,有证据表明PCBP4 也与胰腺癌预后有关,PCBP4 能够抑制肺癌细胞增殖,可以作为癌症抑制分子[27,28]。MSI 这一类RBPs 最早在果蝇中被发现,MSI1 与MSI2 具有75%氨基酸同源性。MSI1 可促进乳腺癌细胞转移到肺,其高表达与胰腺癌预后不良有关,与之同源的MSI2 也被证明可以促进胰腺癌细胞的生长和转移,与胰腺癌的预后不良有关[29,30]。
尽管本研究使用生物信息学技术从大量样品中筛选出可能影响肿瘤预后的潜在候选RBPs,但我们的研究存在局限性,仅使用生物信息学分析获得结果并进行验证仍不够,还需要通过临床试验进一步确认。