基于铜死亡相关lncRNA构建乳腺癌预后预测模型

2023-10-18 06:37:50张庆雪赵硕张莹莹高东程李靖若
山东医药 2023年27期
关键词:训练组乳腺癌预测

张庆雪,赵硕,张莹莹,高东程,李靖若

1 郑州大学第三附属医院乳腺外科,郑州 450052;2 郑州大学第一附属医院乳腺外科

目前女性乳腺癌已超过肺癌成为2020 年全球发病率最高的癌症,发病人数占所有新发癌症患者的11.7%,同时,死亡人数占所有癌症死亡患者的6.9%,是导致全球女性死亡人数最多的癌症[1]。随着手术、化疗、放疗、内分泌治疗、靶向治疗以及免疫治疗等多种治疗策略的快速发展,女性乳腺癌患者的平均五年生存率达到了91%[2],但耐药和复发转移仍是导致乳腺癌患者预后不良的关键因素[3]。乳腺癌是一种高度异质性疾病,根据雌激素受体、孕激素受体、人类表皮生长因子受体-2(HER-2)及细胞增殖指数ki-67 的表达水平,可分为Luminal A型、Luminal B 型、HER-2 阳性及三阴性乳腺癌四种类型[4-5],具有相同临床分期和病理分型的患者预后也可能存在较大差异[6]。目前,21 基因检测[7]、70 基因检测[8]、7 基因乳腺癌指数[9]、50 基因复发风险[10]和12 基因检测[11]等多基因检测仅适用于激素受体阳性、HER-2阴性的早期乳腺癌患者,临床暂无用于预测其他类型乳腺癌患者预后的预测模型。因此,迫切需要开发新的预测方法,为乳腺癌患者的预后预测和个体化抗癌治疗提供指导。

铜是所有生物体必需的矿物质营养素,与能量代谢、活性氧解毒、铁摄取和信号传导等多种生物过程相关[12]。研究[13]显示,肿瘤对铜的需求更高,铜通过促进癌细胞增殖、血管生成和转移参与多种肿瘤的进展,然而过量的铜可能会导致癌细胞铜死亡[14]。铜死亡是一种由TSVETKOV 等[15]于2022 年发现的新型调节性细胞死亡,不同于凋亡、坏死和铁死亡等已知细胞死亡形式,它依赖于铜积累和线粒体呼吸。铜与三羧酸循环的酯酰化成分直接结合,诱导酯酰化蛋白质聚集及铁硫簇蛋白质丢失,从而诱发蛋白质毒性应激导致细胞死亡[15]。因此,诱导癌细胞发生铜死亡在抗癌治疗中具有巨大潜力。长链非编码核糖核酸(lncRNA)是一类转录本长度超过 200 个核苷酸的线性非编码RNA[16],通过在转录、转录后及表观遗传学水平调节基因的表达,参与细胞增殖、分化、干细胞重编程及肿瘤发生或耐药等多种病理生理过程[17]。RNA 疗法可以通过增加或沉默特定蛋白质的表达调节靶细胞,在乳腺癌治疗中具有高选择性和低脱靶风险[18]。目前,铜死亡相关lncRNA在乳腺癌中的研究尚不全面,筛选铜死亡相关lncRNA,并构建乳腺癌预后预测模型有助于实现精准抗癌治疗。本研究筛选出与乳腺癌预后关系密切的铜死亡相关lncRNA,基于铜死亡相关lncRNAs 构建了乳腺癌预后预测模型,并验证了其效能。

1 资料与方法

1.1 数据及其来源 从TCGA 数据库下载女性乳腺癌患者的转录组数据及临床信息,截至2023 年2月17 日。共下载1 105 例乳腺癌样本和112 例正常乳腺样本的转录组数据。使用Perl 软件(版本5.32.1)对转录组数据进行数据整理、ID 转换,并分离mRNA 和lncRNA 表达谱,获得19 962 个mRNAs和16 901 个lncRNAs。从已发表文献中获取铜死亡相关基因[15,19-22],共19 个,分别为NFE2L2、NLRP3、ATP7B、ATP7A、SLC31A1、FDX1、LIAS、LIPT1、LIPT 2、DLD、DLAT、PDHA1、PDHB、MTF1、GLS、CDKN2A、DBT、GCSH、DLST。TCGA 为公开可用的数据库,本研究遵循TCGA 数据库的访问政策和出版指南,故无需伦理委员会批准。

1.2 乳腺癌预后关系密切的铜死亡相关lncRNA筛选及预后预测模型构建 ①乳腺癌组织中铜死亡相关lncRNA 筛选:使用R 软件(版本4.1.2)的R 包“limma”对mRNA 表达谱和19 个铜死亡相关基因取交集,获取乳腺癌组织中表达的铜死亡相关基因。进一步采用Pearson 相关性分析乳腺癌组织中表达的铜死亡相关基因与lncRNA 的相关性,以|r|>0.4和P<0.001为标准筛选出乳腺癌组织中的铜死亡相关lncRNA,并使用R 包“dplyr”、“ggalluvial”和“ggplot2”绘制桑基图。②乳腺癌组织中与预后关系密切的铜死亡相关lncRNA 筛选:选择铜死亡相关lncRNA 表达谱与临床资料均完整的患者885例(整体组),用R 包“caret”的“createDataPartition”函数按照1∶1 的比例将整体组患者随机分为训练组443 例与验证组442 例,并使用χ2检验分析组间临床资料(包括生存时间、生存状态、年龄、临床分期及T、N、M 分期)差异。在训练组中,使用R 包“survival”进行单因素Cox 回归分析初步筛选与乳腺癌患者预后相关的铜死亡相关lncRNA,筛选标准为P<0.05。为避免lncRNA 的过度拟合,使用R 包“survival”和“glmnet”进行最小绝对收缩和选择算子(LASSO)回归进一步筛选预后关系密切的铜死亡相关lncRNA。随后,使用R 包“survival”和“survminer”进行多因素Cox 回归分析。③乳腺癌预后预测模型的构建:根据赤池信息准则(AIC)确定最佳预后预测模型(AIC值最小)。模型公式如下:

其中n表示纳入模型的lncRNA 数量,coefi为各lncRNA的回归系数,Xi为各lncRNA的表达量。

1.3 乳腺癌预后预测模型的效能验证 根据乳腺癌的预后预测模型,计算训练组患者的风险评分。以训练组患者的中位风险评分作为截断值,将训练组、验证组和整体组的患者分别划分为高风险组和低风险组。 乳腺癌预后预测模型的区分能力验证:分别在训练组、验证组和整体组中使用R 包“survival”和“survminer”进行生存分析,绘制生存曲线,比较高、低风险组患者的生存率;将整体组患者按不同临床特征分为亚组,使用R 包“survival”和“survminer”绘制生存曲线并比较不同亚组中高、低风险患者的生存率差异。乳腺癌预后预测模型的准确性验证:使用R 包“timeROC”绘制ROC,并计算曲线下面积(AUC)评估预后预测模型对乳腺癌患者1、3、5 年生存率的预测效能。在整体组中,使用R 包“timeROC”、“rms”和“pec”绘制风险评分及临床特征的多指标ROC 及一致性指数曲线比较不同指标的预测性能。乳腺癌预后预测模型的独立性验证:使用R包“survival”对风险评分及各临床特征进行单因素及多因素 Cox 回归分析评估风险评分是否是乳腺癌患者预后的独立影响因素。临床实用性验证: 高、低风险组间差异表达基因本体功能及信号通路富集分析;高、低风险组患者免疫浸润分析。

高、低风险组间差异表达基因本体功能及信号通路富集分析:使用R 包“limma”筛选高、低风险组间差异表达的基因,筛选标准为|log2差异倍数|>1,错误发现率<0.05。使用R 包“clusterProfiler”、“org.Hs.eg.db”和“enrichplot”进行京都基因和基因组百科全书(KEGG)通路富集分析识别差异表达的基因主要参与的信号通路,进行基因本体功能(GO)分析差异表达的基因主要涉及的生物学过程、细胞成分和分子功能,P<0.05和校正后的P值<1被认为显著富集。使用R包“ggplot2”将富集结果可视化。

高、低风险组患者免疫浸润分析:使用R 包“estimate”进行ESTIMATE 算法计算乳腺癌患者的免疫细胞、基质细胞、肿瘤纯度及综合评分[23],使用R 包“limma”和“ggpubr” 进行Wilcoxon 检验比较高、低风险组间差异。对患者的表达谱进行归一化校正,利用CIBERSORT 算法计算两组患者免疫细胞的相对浸润丰度[24],采用Wilcoxon检验比较组间差异。

2 结果

2.1 乳腺癌预后预测模型 Pearson 相关分析结果显示乳腺癌组织中铜死亡相关lncRNAs 719 个。训练组(n=443)和验证组(n=442)临床特征比较,P均>0.05,见表1,说明两组基线资料均衡可比。在训练组中,单因素Cox 回归分析初步筛选出17 个与乳腺癌患者预后相关的铜死亡相关lncRNAs,包括7个保护lncRNAs[风险比(HR)<1]和10 个危险lncRNAs(HR>1);LASSO回归分析进一步确定了14个与乳腺癌预后关系密切的铜死亡相关lncRNAs。采用多因素Cox 回归分析最后构建了由10 个lncRNAs组成的乳腺癌预后预测模型,模型公式如下:风险评分=(-1.129 216 501 573 150×AKT3.IT1 表达量) +(-1.166 095 685 256 72×AL137847.1 表 达 量) +(0.729 804 497 137 164×LINC02043 表 达 量) +(0.745 696 645 441 295×AL683813.1 表 达 量) +(-0.903 562 388 041 113×AL807757.2 表达量) +(1.040 608 675 397 110×AC073127.1 表 达 量) +(2.160 133 554 898 460×MFF.DT 表 达 量) +(1.417 144 256 517 410×AC091588.1 表 达 量) +(-0.764 700 719 748 750×AC079766.1 表达量) +(-3.608 177 447 126 010×AL451123.1 表达量)。

表1 各组临床病理特征

2.2 乳腺癌预后预测模型的效能验证结果 根据乳腺癌预后预测模型公式,训练组患者的中位风险评分为1.066,根据中位风险评分将患者分为高风险组和低风险组。生存曲线显示在训练组、验证组和整体组中,高、低风险组患者的总体生存率差异均具有统计学意义(P<0.001),且高风险组患者预后较差,见图1~3。亚组分析显示不同年龄、临床分期、T、N 和M0 分期亚组中高风险组患者的生存率均低于低风险组(T3-4 亚组P=0.003,其余P均<0.001)(图4、5、6、7 及图8 的M0 分期),M1 分期亚组中高、低风险组患者的生存率差异无统计学意义(P=0.139)(图8)。

图1 训练组高、低风险组患者总生存率的生存曲线

图2 验证组高、低风险组患者的生存曲线

图3 整体组高、低风险组患者的生存曲线

图4 不同年龄亚组中高低风险组的生存曲线

图5 不同临床分期亚组中高低风险组的生存曲线

图6 不同T分期亚组中高低风险组的生存曲线

图7 不同N分期亚组中高低风险组的生存曲线

图8 不同M分期亚组的生存曲线

训练组中,乳腺癌预后预测模型预测乳腺癌患者1、3、5 年生存率的AUC 分别为0.848、0.783、0.793,验证组中分别为0.764、0.697、0.675,在整体组中分别为0.807、0.739、0.709。在整体组中,多指标ROC(图9)及一致性指数曲线(图10)显示风险评分的AUC 值和一致性指数均高于其他临床特征。

图9 整体组风险评分及各临床特征的多指标预测乳腺癌患者生存率的ROC

图10 整体组风险评分及各临床特征的一致性指数曲线

单因素COX 回归分析显示,风险评分与乳腺癌患 者的预 后显著 相关[(HR(95%CI)为1.063(1.045~1.081),P<0.001];多因素Cox回归分析显示,风险评分是乳腺癌患者的独立预后影响因素[(HR(95%CI)为1.065(1.047~1.082),P<0.001]。

高、低风险组间差异表达基因129 个。GO 分析显示,差异表达基因富集于铵离子代谢过程、体液免疫反应和内分泌激素分泌等生物过程,血液微粒子、角蛋白丝和中间丝等细胞成分,以及氨基酸结合、免疫球蛋白结合和ATP 酶-偶联的无机阴离子跨膜转运蛋白活动等分子功能。KEGG 分析显示,这些差异表达基因显著富集于B 细胞受体信号通路、色氨酸代谢、PI3K-Akt 信号通路和铂类耐药性等通路。

免疫细胞评分、基质细胞评分、肿瘤纯度及综合评分的中位数在高风险组分别为411.670、518.220、969.350、0.734,在低风险组中分别为594.006、757.348、1394.424、0.690。与低风险组比较,高风险组免疫细胞、基质细胞及综合评分低,肿瘤纯度高(P<0.001)。低风险组中幼稚B 细胞、静息自然杀伤细胞、活化自然杀伤细胞和静息肥大细胞浸润丰度较高,高风险组中M0 和M2 巨噬细胞浸润丰度较高(P均<0.05),见表2。

表2 免疫细胞相对浸润丰度

3 讨论

乳腺癌是高度异质性的恶性肿瘤,在女性癌症中占新诊断患者的31%,占死亡患者的15%,是导致20~59 岁女性死亡的首要原因[25]。耐药和复发转移是导致患者预后不良的关键因素。肿瘤的异质性导致具有相同临床病理特征的患者预后亦可能存在较大差异,迫切需要探索有效的乳腺癌预后预测模型来准确预测患者预后,以利于进一步的临床决策。铜死亡是一种由铜触发的线粒体细胞死亡方式[14]。研究发现乳腺癌[26]、黑色素瘤[27]和肝细胞癌[28]等高线粒体代谢的肿瘤可能对铜离子载体诱导的铜死亡更敏感[29]。双硫仑已被证实能够作为铜离子载体诱导铜死亡发生[15],研究[30]表明其在治疗乳腺癌时还可以降低肿瘤抑制基因PTEN 的表达并激活乳腺癌组织中Akt 信号传导,联合应用PI3K 抑制剂可以显著抑制乳腺癌细胞的生长。本研究基于铜死亡相关lncRNA构建乳腺癌预后预测模型,旨在为乳腺癌的预后评估提供新的视角。

本研究从TCGA 数据库中获得719 个铜死亡相关lncRNAs,通过多因素Cox 回归将10 个lncRNAs纳入预后预测模型,LINC02043、AL683813.1、AC073127.1,MFF.DT 和AC091588.1 是 危 险lncRNAs,AKT3.IT1、AL137847.1、AL807757.2、AC079766.1 和AL451123.1 是 保 护lncRNAs,这 些lncRNAs 可能是乳腺癌的生物标志物及潜在治疗靶点。据研究[31]报道,LINC02043 是酒精相关性肝细胞癌的危险lncRNA,与其他lncRNAs 相结合可以预测酒精相关性肝细胞癌的无复发生存期。本研究发现LINC02043 亦是乳腺癌的危险lncRNA,与患者的预后不良相关。YU 等[32]研究提示,MFF.DT 作为危险lncRNA 与其他几种铜死亡相关lncRNAs 联合构成乳腺癌的独立预后因素,本研究结果与之相符。然而暂时没有关于其余8 种lncRNAs 的研究报道,它们在乳腺癌中的生物学机制未来有必要通过进一步的体内外实验来探索,且有望成为乳腺癌的潜在治疗靶点。

根据风险评分将乳腺癌患者分为高风险组和低风险组,随着风险评分升高患者死亡率增加。生存曲线显示无论是训练组、验证组还是整体组,高风险组患者的生存率均更低,表明预后预测模型对不同风险的患者有较好的区分能力。ROC 显示风险评分预测乳腺癌患者1 年、3 年和5 年生存率的AUC 值较高,表明预后预测模型具有较强的预测效能,且多指标ROC 及一致性指数曲线表明模型的预测能力和临床应用效能优于其他临床特征。独立预后分析表明,风险评分是乳腺癌的独立预后因素。亚组生存分析表明,该预后预测模型适用于不同临床阶段的乳腺癌患者。由于样本中M1 分期的患者人数较少,高、低风险组生存率的差异无统计学意义,但结果仍表现出高风险组患者总生存率较低的趋势。

为了进一步验证预后预测模型的效能,我们探索了高、低风险组患者之间的生物学功能差异,对两组间差异表达的基因进行了功能富集分析。KEGG分析表明差异表达的基因主要富集于B细胞受体信号通路、PI3K-Akt 信号通路和铂类耐药性等通路。GO 分析表明差异表达的基因富集于体液免疫反应等生物过程。GARAUD 等[33]发现,肿瘤浸润性B 细胞可以产生持续的体液免疫反应,并有助于在乳腺癌肿瘤部位产生有效的抗肿瘤免疫反应。HARRIS等[34]在三阴性乳腺癌中发现,B 淋巴细胞具有IgG偏向的克隆扩张,并与良好的预后相关,这可能是抗原驱动的体液免疫反应。PI3K-Akt 信号通路在细胞代谢、细胞生长增殖、细胞凋亡和血管生成等基本细胞活动中起主要作用[35],大约70%的乳腺癌患者携带PI3K/AKT 突变[36],从而导致该通路的过度激活,促进肿瘤细胞生长、增殖和血管生成,是导致乳腺癌的内分泌治疗、靶向治疗和化疗耐药性的重要机制之一[37-38]。因此,高、低风险组间的预后差异可能与乳腺癌患者的免疫状态及化疗耐药性相关。

肿瘤微环境包括肿瘤中的所有非癌宿主细胞(如免疫细胞和基质细胞)以及非细胞成分[39],不同浸润性免疫细胞具有抗肿瘤或促肿瘤的功能,随着免疫逃逸的发生,免疫疗法成为癌症治疗的新策略[40]。ESTIMATE 算法显示低风险组的基质评分、免疫评分和综合评分高,肿瘤纯度低,表明低风险组患者的免疫细胞浸润程度更高。肿瘤相关巨噬细胞可以分化为两个亚型,M1型巨噬细胞主要通过介导ROS诱导的组织损伤发挥抗肿瘤作用,而M2型巨噬细胞通过激活血管生成、免疫抑制及细胞外基质重塑表现出促肿瘤活性[41-42]。免疫浸润分析发现,高风险组患者M2 型巨噬细胞浸润丰度较高,可能通过M2 型巨噬细胞的促肿瘤作用导致癌细胞发生免疫逃逸而促进乳腺癌进展。因此,高、低风险组患者之间可能存在免疫状态差异,且低风险组患者的免疫原性更高,更可能从免疫治疗中获益。本研究构建的预后预测模型能够较为准确地反映乳腺癌抗肿瘤免疫状态,为评估乳腺癌患者对免疫治疗敏感性提供参考。

综上所述,本研究基于TCGA 数据库构建了由10 个铜死亡相关lncRNAs 构成的乳腺癌预后预测模型,该模型具有良好的准确性、区分能力、独立性,不仅可以有效地预测乳腺癌患者的预后,还可以评估患者的免疫浸润状态,反映免疫治疗敏感性,为实现个体化抗癌治疗提供参考。本研究也存在一定的局限性。首先,由于其他数据库中缺乏完整的lncRNA 表达谱或临床信息,本研究采用了内部验证的方法,未来仍有必要基于独立的外部数据集来验证乳腺癌预后预测模型的有效性。此外,本研究在生物信息学层面分析了铜死亡相关lncRNAs 对乳腺癌患者预后的影响,未来需要通过体内外实验来进一步探索铜死亡相关lncRNAs 在乳腺癌中的病理生理功能。

猜你喜欢
训练组乳腺癌预测
无可预测
黄河之声(2022年10期)2022-09-27 13:59:46
绝经了,是否就离乳腺癌越来越远呢?
中老年保健(2022年6期)2022-08-19 01:41:48
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
新型抗阻力训练模式改善大学生身体素质的实验研究
跑台运动训练对脊髓损伤大鼠肺功能及HMGB-1表达的影响
中国康复(2021年5期)2021-07-15 11:44:36
线上自主训练与线下指导训练表面肌电差异分析
体育风尚(2021年7期)2021-01-09 00:25:54
乳腺癌是吃出来的吗
胸大更容易得乳腺癌吗
别逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16