FGF2、CYSLTR1、RSAD2和HLA-DRA的表达水平与弥漫性大B细胞淋巴瘤预后的相关性

2021-09-03 06:24刘利李珊珊余楚壬袁玉代怀杰曹培杰
海南医学 2021年15期
关键词:危险分层曲线

刘利,李珊珊,余楚壬,袁玉,代怀杰,曹培杰

东莞市厚街医院肿瘤血液科,广东 东莞 523945

弥漫性大B 细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)是侵袭性非霍奇金淋巴瘤的最常见类型,可以是原发或由惰性淋巴瘤的转化引起[1-2]。使用标准的化学免疫疗法可以使很多患者在临床上得到缓解甚至治愈。然而,由于耐药或复发,约有1/3的患者预后较差,这与DLBCL 的异质性有关[3-5]。这种异质性不仅表现在临床上,而且还表现在形态,遗传学和免疫表型上。但是,当前的预后评分系统根据临床水平的国际预后指数(international prognostic index,IPI)对DLBCL患者进行分层,包括年龄、分期、行为状态(PS)、血清乳酸脱氢酶(lactate dehydrogenase,LDH)水平和结外受累程度[6-7]。实际上,近年来已经发现了许多免疫相关的基因在DLBCL 患者中异常表达,并且其异常表达在DLBCL 的进展、维持和对治疗的反应中起着重要的作用[8-10]。然而,目前尚无应用免疫相关基因联合对DLBCL患者的预后进行个体化地预测及对其进行危险分层[6-7]。因此,迫切需要构建基于免疫基因表达水平的DLBCL 患者的预后分层,以指导临床治疗。

本研究中,基因表达综合(Gene Expression Omnibus,GEO)和癌症基因组图集(The Cancer Genome Atlas,TCGA)数据库中的核糖核酸(ribonucleic acid,RNA)测序数据被用以全面评估免疫相关基因的表达水平对DLBCL患者总体生存(overall survival,OS)的影响及构建危险分层。这些探索对于评估DLBCL患者的预后以及发现靶向免疫方法具有重要的临床意义。

1 材料与方法

1.1 数据集的获取及DLBCL患者的基本信息 来自GEO 数据库(https://www.ncbi.nlm.nih.gov/geo/)中的GSE87371数据集被下载[11-12],除去无完整的生存时间及生存状态的标本外,总共有221 例DLBCL 患者的RNA 测序的数据被用于本研究的预后分析。同时,其他的临床信息也被下载,包括性别、年龄、Ann Arbor 分期(stage)和IPI。此外,从UCSC-xena(https://xenabrowser.net/datapages/)[13]上下载了TCGA 数据库(http://www.tcga.org/)中48例DLBCL患者的RNA测序数据,其基因表达水平以log2(norm_count+1)的形式表示。同时,获取相应的临床信息列于表1,包括总体生存时间、生存状态、性别、年龄、LDH水平、结外浸润的数目、Ann Arbor 分期和IPI。OS是指从确诊DLBCL开始到患者任意原因死亡或最后一次随访日期所持续的时间。GSE87371 和TCGA 数据集分别被分配为训练(training cohort)和验证(validation cohort)组。

表1 GSE87371和TCGA 数据集中的DLBCL 患者的临床信息[例(%)]

1.2 获取免疫相关基因 免疫学数据库和分析门户(ImmPort,immunology database and analysis portal) 数据库(https://www.immport.org/)提供并更新了2 498 个免疫相关的基因用于科学研究,并且这些基因已经被确定参与了关于免疫的生物学过程。因此,ImmPort 数据库中这部分的基因用于DLBCL 患者的预后分析。

1.3 统计学方法 所有的统计分析均在R 语言(version 4.0.2,https://www.r-project.org/)中进行。“survival”包用于单因素和多因素COX比例风险回归模型的构建,而且只有当单因素COX 回归分析中P<0.05的变量才被纳入多因素COX回归分析。“survminer”包中的“surv_cutpoint”函数用于确定基因表达或者风险分数的最佳预后截断值。“survivalROC”包用于绘制时间依赖性接收器工作特性曲线(receiver operating characteristic curve,ROC)曲线并获取曲线下面积(area under curve,AUC)。Log-rank 检验用于Kaplan-Meier 曲线间的差异比较。用χ2检验来比较定性变量间的差异。双尾的P<0.05被认为是差异有统计学意义。

2 结果

2.1 确定与预后相关的免疫基因 在GSE87371和TCGA 数据集中,分别有1 242个和1 345个免疫相关的基因被用于预后分析(图1)。接下来单因素COX回归模型被进一步用于分析,按照P<0.05 的标准,在GSE87371数据集中总共有200个与预后相关的基因,而TCGA 数据集中则有51 个与预后相关的基因。为了确定基因在两个数据集中均与预后有关而且预后模式一致,单因素COX 模型中的系数大于0 和小于0的基因分别被用于绘制韦恩图。结果显示,有4 个免疫相关基因包括成纤维细胞生长因子2 (fibroblast growth factor 2,FGF2),半胱氨酰白三烯受体1 (cysteinyl leukotriene receptor 1,CYSLTR1),包含2个的S-腺苷甲硫氨酸基团(radical S-adenosyl methionine domain containing 2,RSAD2)和Ⅱ类主要组织相容性复合体DRα(major histocompatibility complex、class Ⅱ、DR alpha、HLA-DRA)的单因素COX 系数同时在GSE87371和TCGA数据集中大于0,而并没有出现免疫相关基因的单因素COX 系数同时在两个数据集中均小于0 的情 况(图2A)。因 此,FGF2、CYSLTR1、RSAD2 和HLA-DRA将被用来进行接下来的预后及联合分析。

图1 免疫相关基因的表达谱

森林图被进一步用于可视化FGF2、CYSLTR1、RSAD2 和HLA-DRA 的表达水平对DLBCL 患者OS的影响,结果显示,在GSE87371 数据集中,其高表达与DLBCL患者的不良OS显著相关,而且这个结果在TCGA数据集中得到验证[风险比(hazard ratio,HR)>1,P<0.05](图2B)。为了将这4 个与预后相关的免疫基因进行联合,在GSE87371 数据集中进行了多因素COX 回归模型分析,根据其系数β来计算风险分数(risk score),结果显示:Risk score=0.27x (FGF2 的表达水平)+0.07x(CYSLTR1的表达水平)+0.04 x(RSAD2的表达水平)+0.23x(HLA-DRA的表达水平)。同时,雷达图显示,相比于CYSLTR1,RSAD2和HLA-DRA,FGF2的表达水平对DLBCL的OS的贡献度最大(图2C)。

图2 免疫相关基因的预后分析

2.2 FGF2、CYSLTR1、RSAD2 和HLA-DRA 的Kaplan-Meier 曲线分析 为了进一步确定高和低表达FGF2、CYSLTR1、RSAD2 和HLA-DRA 是否对DLBCL患者的OS有影响,Kaplan-Meier曲线被用来对其进行评估。首先,R语言包“survminer”被用于定义基因表达的最佳预后截断值(图3)。然后,根据最佳预后截断值,将基因的表达水平分为高和低表达两组来绘制Kaplan-Meier 曲线。结果显示,在GSE87371 数据集中,高表达FGF2 的DLBCL 患者具有较差的OS[HR=1.63(95%置信区间CI:1.19~2.23),P=0.002]。这个结果在TCGA数据集中得到验证[HR=4.74(95%CI:1.06~21.25),P=0.025]。同样地,在GSE87371 数据集中CYSLTR1 的高表达与患者较差的OS 密切相关[HR=1.72(95%CI:1.20~2.46),P=0.003]。这个结果在TCGA 数据集中得到验证[HR=7.24 (95%CI:1.61~32.62),P=0.003]。另外,在GSE87371 数据集中,RSAD2 的高表达同样与患者的不良OS 显著相关[HR=1.45(95%CI:1.05~1.99),P=0.023]。这个结果在同样也在TCGA数据集中得到验证[HR=4.22(95%CI:0.99~17.88),P=0.034]。相似地,在GSE87371 数据集中,高表达HLA-DRA能够预测DLBCL患者较差的OS[HR=1.49(95% CI:1.08~2.04),P=0.014]。这个结果在在TCGA 数据集中再次得到验证[HR=15.93 (95%CI:3.11~81.48),P<0.001](图4)。这个结果提示,FGF2、CYSLTR1、RSAD2 和HLA-DRA 的高表达与DLBCL患者的不良OS显著相关,其值得进一步探讨。

图4 免疫相关基因的生存曲线分析

2.3 危险分层 为了探讨由FGF2、CYSLTR1、RSAD2 和HLA-DRA 的联合能否对DLBCL 患者进行危险分层,由这四个基因计算的风险分数的预后价值应首先被探讨。如见表2 和表3 所示,单因素和多因素COX 回归模型分析表明,在GSE87371 数据集中,风险分数是DLBCL 患者的独立预后影响因子[HR=1.79(95%CI:1.27~2.52),P<0.001]。这个发现同样在TCGA 数据集中得到进一步地确认[HR=8.80(95%CI:1.97~39.42),P=0.004]。接下来,在GSE87371数据集中,R 语言包“survminer”被用于确定风险分数的最佳预后截断值4.12,根据最佳截断值,DLBCL 患者被划分为两组:高风险(high risk)和低风险(low risk)组。绘制的Kaplan-Meier曲线提示,高风险组DLBCL患者的OS 显著低于低风险组[HR=2.04 (95%CI:1.46~2.86),P<0.001]。进一步绘制时间依赖性ROC曲线的AUC为0.82,其明显大于0.5(图5A)。相似地,这个发现在TCGA 数据集中也得到验证,即高风险与DLBCL 患者的不良OS 明显相关[HR=8.80 (95%CI:1.97~39.42),P<0.001]。时间依赖性ROC曲线的AUC为0.89,其同样明显大于0.5(图5B)。这个结果提示,由FGF2、CYSLTR1、RSAD2和HLA-DRA的联合能够很好地将DLBCL患者进行危险分层。

图5 根据风险分数对DLBCL患者进行危险分层

表2 单因素COX回归分析

表3 多因素COX回归分析

3 讨论

危险分层的建立可为临床医生更合理地管理癌症患者和个性化治疗方案的选择提供参考[14]。近年来,免疫相关基因可以提供个性化的免疫特征来评估癌症患者的预后及进行危险分层[15-17]。在这项研究中,从GEO 和TCGA 数据库中的两个大型DLBCL 队列中获取了不同的免疫相关基因用于分析和验证。结果发现,免疫相关基因FGF2、CYSLTR1、RSAD2 和HLA-DRA的联合可以预测DLBCL患者的预后,同时对其进行基于基因水平的危险分层。值得注意的是,这4个免疫基因的联合是DLBCL患者的独立预后影响因子,而且时间依赖性的ROC曲线也确认了由他们构建的危险分层具有良好的预测预后的性能。

研究表明,FGF2 在人白血病和淋巴瘤中的表达显著增高[18],同时其高表达与癌症患者不良的预后密切相关[19-20]。这个发现与本研究的结果一致,即高表达FGF2 的DLBCL 患者的OS 较差。另外,CYSLTR1 的高表达能够预测黑色素瘤、大肠腺癌和乳腺癌患者的不良预后[21-23]。然而,在DLBCL 患者中尚无相关的研究报道。本研究表明,高表达CYSLTR1 与DLBCL 患者的较差OS显著相关,与已有的报道一致。同样地,虽然有研究报道RSAD2能够预测多种癌症患者的不良结局[24-25],但是在DLBCL中鲜有研究。在这项研究中,相对于低表达RSAD2组,高表达RSAD2的DLBCL患者的OS 较差。有趣的是,另外一个免疫相关的基因HLA-DRA在癌症中也进行大量的研究,其在癌症中高表达,而且其高表达与患者的不良预后密切相关[26-27],而在DLBCL中也同样无相关的研究。本研究的结果显示,高表达HLA-DRA的DLBCL患者OS较差。这些发现提示,FGF2、CYSLTR1、RSAD2和HLA-DRA具有作为构建DLBCL患者危险分层的巨大潜力。

该研究的局限性在于没有DLBCL临床样本和相应的临床信息用于验证由FGF2、CYSLTR1、RSAD2和HLA-DRA构建的危险分层。此外,本研究还缺乏体外和体内实验的验证,因此,结果的可靠性仍然受到挑战。

总的来说,高表达免疫相关基因FGF2、CYSLTR1、RSAD2和HLA-DRA的DLBCL的OS较差,并且联合这4个基因可以对DLBCL患者进行危险分层。同时,这些发现为DLBCL患者的个性化预后预测提供了参考,并且可能是设计新疗法的潜在免疫标记物。

猜你喜欢
危险分层曲线
未来访谈:出版的第二增长曲线在哪里?
高中分层走班教学模式探究
有趣的分层现象
幸福曲线
雨林的分层
喝水也会有危险
梦寐以求的S曲线
拥挤的危险(三)
话“危险”
曲线的华丽赞美诗