董泽鹏,胡世博,杨魁,赵伟,刘畅,郑见宝
(西安交通大学第一附属医院普通外科,陕西 西安 710061)
直肠癌是一种常见的恶性肿瘤,约占结直肠癌的30%,且临床预后较差[1]。近年来男性和女性的直肠癌发病率分别从7.68∕10万和6.51∕10万上升至11.45∕10万和8.28∕10万[2]。失巢凋亡是指细胞失去正常的细胞凋亡过程,导致异常增殖和生存,从而促进肿瘤的形成和发展[3]。癌细胞的远处转移通常伴有细胞失巢凋亡功能的失调[4]。一些报告已经证实,失巢凋亡在肿瘤转移和癌症进展中起着重要作用,包括胃癌[5]、肺癌[6]、食管癌[7]和子宫内膜癌[8]。本研究通过生物信息学方法筛选与直肠癌患者预后相关的失巢凋亡基因,并构建临床预后预测模型,为直肠癌的诊断和预后预测提供参考。
从TCGA数据库下载直肠癌患者肿瘤组织和癌旁组织的mRNA高通量测序数据和临床资料。对基因表达数据进行归一化处理,并Log2转化后用于后续分析。排除了临床信息缺失或患者生存时间为0的样本。从GeneCards(https:∕∕www.genecards.org∕)中提取338个相关性评分>1失巢凋亡相关基因。
1.2.1 预后模型的构建 通过单变量Cox回归方法获得候选的失巢凋亡预后基因。为了达到最大化减小过度拟合风险的目的,采用 LASSO算法再次筛选基因。回归分析中的独立变量为基因的表达量,响应变量是 TCGA 队列中患者的生存时间和生存状态。使用以下公式计算每个样本的风险评分:风险评分=( ARG1×系数)+(ARG2×系数)+…+(ARGn×系数)。根据预后模型得到的风险评分求其中位数,将纳入的直肠癌患者划分为高、低风险组。
1.2.2 预后模型的评价 使用“survival”包对风险评分进行独立的预后分析并绘制ROC曲线。对两组采用 Kaplan-Meier方法绘制生存曲线。应用“time ROC”包构建预后模型的时间依赖ROC曲线。分别对年龄、性别、Stage分期和风险评分做单因素和多因素的独立预后分析,绘制森林图进行可视化。
1.2.3 功能富集分析 从STRING(https:∕∕cn.string-db.org∕)获得与预后基因相关的50个基因,通过R语言“clusterprofiler”包对50个基因进行基因本体论(GO)和京都基因和基因组百科全书(KEGG)分析。
采用 Wilcoxon 检验和t检验比较不同组间数据。P-Value 均为双侧检验,以P<0.05 为差异具有统计学意义。所有的统计学分析都在R4.1.2上运行。
采用单变量Cox方法在338个失巢凋亡相关基因中获得15个有代表性的预后基因(P<0.05),并绘制森林图(图1A)。大部分预后相关基因(9∕15)在预后不同患者组织间存在差异表达(图1B)。随后,本研究进行了LASSO回归,以消除过度拟合的基因(图1C-D)。最终得到确定预后模型的6个基因:CSNK2A1、INHBB、PAK1、CD63、CTNNB1、CLU。相对应的风险评分=(CSNK2A1×(-0.165 2))+(INHBB×(0.150 1))+(PAK1×(-0.005 4))+(CD63×(0.858 7))+(CTNNB1×(-0.058 8))+(CLU×(0.184 4))。随后,利用风险评分的中值将样本分成高风险评分组和低风险评分组。
图1 与失巢凋亡相关的预后基因
使用ROC来判断预后模型的准确性和特异性,得到预后模型的AUC值为0.810(图2A)。通过箱线图发现风险评分在死亡和生存样本之间存在明显差异(P<0.05),即生存样本的风险评分较死亡样本风险评分低(图2B)。K-M分析显示风险评分高组的临床结果不佳(图2C)。预后模型判断1年、3年和5年直肠癌生存率的AUC值分别为0.84、0.86和0.92(图2D)。
图2 预后模型的评价
通过单因素分析(表1),根据预后模型得到的直肠癌风险评分可以作为独立的预后因素(P<0.05);为了进一步探究风险评分的准确性,使用多因素COX分析(表2),结果显示,在排除年龄和TNM分期等混杂因素后,风险评分仍可以作为独立的直肠癌预后因素(P<0.05)。
表1 风险评分单因素分析
表2 风险评分多因素分析
从STRING上获取到50个与预后基因相关的基因,并得到基因之间的关系图(图3A)。
图3 失巢凋亡相关基因互作与富集分析
KEGG分析(图3B)中,基因集富集在黏附连接、Wnt信号通路、子宫内膜癌、胃癌、结直肠癌、前列腺癌、乳腺癌等疾病中。
GO分析(图4A-C)中,在分子功能(MF)层面,基因集富集在钙黏蛋白结合、DNA-结合转录因子结合、泛素蛋白结合;在细胞定位(CC)层面,基因集富集在转录调节复合体、细胞连接、质膜外在成分、黏附连接、RNA聚合酶Ⅱ转录调节复合体;在生物学过程层面(BP),基因集富集在Wnt信号通路的调节、调节细胞连接、对类固醇激素刺激的反应。
图4 失巢凋亡相关基因本体论分析
直肠癌是危害人类健康的恶性肿瘤之一,近年来中国新增结直肠癌患者约37.6万例,结直肠癌死亡患者约19.1万例,呈现明显的增长趋势[9]。因此,迫切需要明确可靠的预后指标,以增强直肠癌患者预后的预测。随着生物信息学的进步,可以对高通量测序数据进行深度分析,挖掘出与直肠癌预后相关的关键基因[10]。本研究建立了针对直肠癌患者的预后预测模型,该模型根据失巢凋亡相关基因特征预测直肠癌患者的预后情况,并通过K-M曲线、ROC曲线、时间依赖ROC等方法验证模型的准确性和特异性。通过单因素和多因素的联合分析,证实预后模型可以稳定地预测患者的生存情况。
首先在TCGA-READ数据的基础上,通过单因素回归分析寻找到15个与直肠癌预后相关的失巢凋亡基因。随后使用LASSO回归分析,建立了由6个失巢凋亡基因构成的预后预测模型,这些基因包括CSNK2A1、INHBB、PAK1、CD63、CTNNB1和CLU。
CSNK2A1作为丝氨酸∕苏氨酸蛋白激酶,可以磷酸化酸性蛋白质,从而调控细胞周期、细胞凋亡等生物学过程[11]。CSNK2A1可能通过NF-κB信号转导通路逆转miR-1184的高表达,从而抑制结肠癌细胞增殖,增强结肠癌细胞凋亡[12-13]。INHBB作为一种新型预后生物标志物,其在结直肠癌组织中的高表达表明预后不良[14]。此外,INHBB的高表达与直肠癌浸润深度、远处转移呈显著正相关[15]。与INHBB类似,CD63的高表达可能会通过上皮-间质转化通路影响直肠癌患者的预后[16]。PAK1作为将Rho-GTP酶与细胞骨架重组和核信号转导联系起来的关键因子,可能通过激活应激活化蛋白激酶(stress-activated protein kinase, SAPK)和负调控10号染色体上缺失的磷酸酶和张力蛋白同源物基因(phosphatase and tensin homolog deleted on chromosome ten,PTEN)诱导结直肠癌的发生发展[17]。CTNNB1作为编码β-连环蛋白的基因,通过Wnt通路促进恶性上皮细胞从细胞外基质分离后的存活,并使这些细胞以非依赖锚定性方式生长[18]。CLU是一种具有广泛功能的多效性蛋白质,在众多途径中起着多效性作用,包括参与细胞衰老和致癌信号转导,其高表达水平提示结直肠癌患者的不良预后[19]。
这些基因在一定程度上影响结直肠癌的进展,但其中的大部分基因的研究都是基于结直肠癌患者的共同样本,并未将结肠癌和直肠癌分开具体讨论[20]。
在功能分析中,基因集富集在钙黏蛋白、细胞连接、质膜外在成分等与失巢凋亡相关的功能;KEGG分析也同样支持本研究所建立的模型与Wnt通路、结直肠癌之间存在明显的联系。由此可推断,失巢凋亡与直肠癌的发生进展之间存在密切关联。
综上所述,本研究经过多种生物学方法,构建了6个与失巢凋亡相关基因的预后模型,可能为直肠癌患者的个体化治疗和评估提供参考。