基于免疫相关基因构建口腔鳞癌临床预后模型

2022-11-15 02:20张竞飞李云玲刘敬华
口腔医学 2022年10期
关键词:预测差异基因

张竞飞,李 玲,秦 汉,王 智,李云玲,刘敬华,蔡 圳

口腔鳞状细胞癌(oral squamous cell carcinoma,OSSC)是临床常见的口腔癌,对患者的生活质量有极大的不良影响[1]。由于常常发现时已是晚期,OSCC患者的预后往往较差,生存率只有40%~55%[2-3]。目前,肿瘤-淋巴结-转移(tumor-node-metastasis,TNM)分期系统被广泛用于预测肿瘤预后[4],但由于年龄、性别等不同临床因素的影响,相同TNM分期的患者预后往往不同[5]。准确预测肿瘤的预后对于临床医生制定治疗计划、评估手术风险以及术后随访十分重要[6]。因此我们需要可靠的预后预测方法为OSCC患者提供更为准确的生存时间,从而为患者选择合适的治疗计划。

免疫系统在肿瘤的发生和进展中起着关键作用[7]。肿瘤细胞可以逃避免疫系统的识别和清除,并分泌免疫抑制因子和调节免疫调节分子的表达,进而诱导免疫耐受,促进自身的生长和转移[8-9]。在上述过程中,免疫相关基因(immune-related genes,IRGs)的改变对肿瘤进展至关重要[7]。研究表明,IRGs与OSCC的发生发展和转移密切相关[10-12]。例如,有研究表明YKT6过表达与OSCC预后不良密切相关,其低表达与OSCC中CD8+T细胞的高水平和潜在的免疫治疗反应有关[13]。随着生物信息学的快速发展,基于IRGs预后模型的临床价值已在研究中得到证明[14-15]。在本研究中,我们对癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库中OSCC的基因表达数据进行分析,筛选与OSCC预后显著相关的差异表达IRGs,构建并验证了由6个IRGs组成的免疫相关预后模型,从而更好地预测OSCC患者的预后,指导临床治疗。

1 资料与方法

1.1 数据来源及处理

在TCGA数据库下载OSCC患者的基因表达谱和临床信息,共包括340例肿瘤样本和32例正常样本。然后将随访时间超过90 d的患者随机分为训练集(192例口腔鳞癌患者)和测试集(内部验证集,127例口腔鳞癌患者)。转录因子(transcription factors,TFs)和IRGs分别来自Cistrome Cancer数据库和ImmPort数据库。

1.2 差异分析

在R软件中,使用limma包进行差异分析,首先以FDR<0.05和|log2FC|>1为标准筛选OSCC组织和正常组织中所有差异表达基因,接下来筛选差异表达的IRGs。使用glmnet包整合生存时间、生存状态和差异基因表达数据。

1.3 TFs调控网络的构建

从Cistrome数据浏览器下载所有TFs。接下来,以FDR<0.05和|log2FC|>1为标准对OSCC样本和正常样本之间差异表达的TFs进行筛选。此外,还计算了差异表达TFs与预后相关IRGs的相关性。使用Cytoscape软件对这些配对进行可视化。

1.4 预后模型的构建

以P<0.01为标准对训练集中的差异表达IRGs进行单因素Cox回归分析,找出与训练集中总生存期(overall survival,OS)显著相关的IRGs。采用Lasso-Cox回归和多因素Cox回归分析进一步分析差异表达IRGs与OS的关系,并建立预后模型。之后计算每个患者的风险评分,各基因的表达值乘以多因素Cox回归分析得到的基因相关系数之和即为风险评分。

1.5 预后模型的验证

确定风险评分的最佳截断值。然后将训练集中所有OSCC患者按风险评分分为高风险组(高风险评分)和低风险组(低风险评分)。Kaplan-Meier(KM)分析比较两组的总体生存时间。为了评估预后模型的预测准确性,我们构建了1、3和5年的时间依赖受试者工作特征(receiver operating characteristic,ROC)曲线,并用survival ROC包计算曲线下面积(area under the curve,AUC)。AUC>0.60时模型具有预测效果,AUC>0.75时模型预测效果良好[16-17]。此外,使用单因素及多因素Cox回归分析评估与其他临床因素(年龄、性别、分级、分期和TNM分期)相比,风险评分是否可以作为OSCC的独立预后因素。最后,我们在测试集中以类似的方法检验预后模型的可靠性,测试集的风险分数计算和后续分组中使用与训练集相同的公式。

1.6 富集分析

为了探索构成模型的IRGs的潜在功能,我们利用GSEA软件,设定最小基因集为15,最大基因集为500,以P<0.05且FDR<0.25为标准筛选显著富集的基因集合,从而确定不同风险组中IRGs的富集通路。然后我们基于京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)和基因本体论(The Gene Ontology,GO)数据库,根据结果我们设定P<0.05时差异有统计学意义。

1.7 肿瘤免疫浸润与风险评分的相关性分析

为了进一步探讨预后模型是否能反映OSCC的免疫微环境,我们使用了肿瘤浸润性免疫细胞分析库,该数据库可以提供6种肿瘤浸润性免疫细胞亚群的丰富信息。我们从数据库中提取OSCC患者的免疫浸润水平,并分析它与预后模型的相关性。

1.8 统计学分析

本研究中统计分析均基于R软件(4.1.2)进行。limma包用于获得差异表达的IRGs。用survival包进行Kaplan-Meier曲线分析和对数秩检验。应用timeROC包进行时间依赖ROC曲线分析。在所有的统计检验中,P<0.05时差异具有统计学意义。

2 结 果

2.1 筛选差异表达IRGs

本研究在TCGA-OSCC队列随机抽取192个样本作为训练集,127个样本作为测试集,训练集患者的平均年龄60.5岁,平均随访时间624 d;测试集患者平均年龄61.0岁,平均随访时间584 d。以FDR<0.05和|log2FC|>0.5为标准筛选出662个差异表达的IRGs,热图(图1A)中颜色由绿到红表示基因表达量增加,火山图(图1B)中红色代表上调基因,共481个;绿色代表下调基因,共181个(图1)。

2.2 TFs调控网络的构建

为了探讨OSCC中IRGs表达异常的可能机制,我们分析了TFs与IRGs表达的相关性。首先,我们根据OSCC组织(n=340)和正常组织(n=32)中TFs的表达水平,在两种组织中筛选出203个显著差异表达TFs(FDR<0.05和|log2FC|>1)(图1C、D)。随后,我们以相关系数>0.5和P<0.001为分界值,分析了TFs与IRGs表达水平的相关性。21个TFs与14个IRGs的异常表达显著相关。接下来我们在Cytoscape软件中构建了一个基于TFs和IRGs的调控网络。如图2所示,该网络中黄色菱形代表21个TFs、红色圆形代表11个高风险IRGs、绿色圆形代表3个低风险IRGs。绿线表示负向调控关系(图2)。

2.3 预后模型的构建和验证

为了获得与OSCC患者生存相关的IRGs,使用单因素Cox回归分析得到15个与OSCC患者的OS明显相关的IRGs(P<0.01)。接下来,我们使用Lasso-Cox回归来减少过拟合度,根据10倍交叉验证结果(图3A、B),我们获得了13个基因。根据基因表达水平进行多因素Cox回归分析得到6个与OSCC预后密切相关的差异表达IRGs(CXCL8、PAK4、CTSG、PPP4C、GPI、AIMP1),并建立免疫相关预后模型(图3C)。我们利用这6个基因的基因相关系数和表达水平计算风险评分,公式如下:(0.001 4×CXCL8+0.223 8×CTSG+0.014 5×PPP4C+0.007 5×GPI+0.063 8×AIMP1+0.033 5×PAK4)。

接下来我们计算了能在高风险组和低风险组之间产生最大生存差异的最佳截断值,并将OSCC患者分为高风险组(n=96)和低风险组(n=96),KM生存分析(图4A)结果表明,两组间的生存率明显不同(P<0.001)。在风险评分、生存状态分布和预后相关IRGs热图(图4B)中,绿点代表死亡患者,蓝点代表存活患者,颜色标红代表基因表达水平增高,这表明随着风险评分的不断增加,OSCC患者的OS不断降低,危险基因表达增加,保护基因表达减少。在ROC曲线(图4C)中, 1、3、5年的AUC值分别为0.72、0.73、0.76,证明了在1、3和5年时预后模型可以有效预测OSCC患者的OS。在排除临床数据不完整的样本和大量数据缺失的M分期后(n=148),我们构建了涉及年龄、性别等临床危险因素以及风险评分的ROC曲线。图4D表明与年龄、性别、TNM分期相比,风险评分(AUC=0.75)具有更好的预测准确性。

为了验证基于IRGs的模型是否具有独立的预后价值,我们对临床信息、病理特征和风险评分进行单因素和多因素Cox回归分析。单因素Cox回归分析(图5A)显示风险评分与患者预后显著相关(HR=1.230,95%CI:1.127~1.343,P<0.001)。此外,在调整了性别、年龄和分期分级等临床病理特征后,在多因素Cox回归分析(图5B)中,风险评分仍然是OSCC的独立预后因素(HR=1.273,95%CI=1.156~1.402,P<0.001)。

接下来我们利用测试集(n=126)进行进一步的验证分析,以验证该模型对OSCC预后的预测能力。图6A表明低风险组(n=63)患者的OS明显高于高风险组(n=64)患者(P<0.05)。图6B显示了6个IRGs的表达和测试集中每个患者的风险分数分布,结果与训练集相似。ROC曲线(图6C)显示,免疫预后模型的AUC为0.621,表明所预后模型在预测OS方面表现良好。

2.4 列线图的构建和验证

为了便于免疫预后模型的使用,我们建立了预测OSCC预后的列线图(图7A)。通过计算所有预测因素的单项得分的总和,可以得出列线图总分,总分越高,1、3、5年生存率越低。列线图的C指数为0.70(95%CI:0.626~0.775,P<0.001)。1、3、5年的校准曲线(图7B~D)与理想模型显示出良好的一致性,表明我们提出的列线图在临床实践中预测OSCC患者预后具有稳定性。这些结果提示,列线图的预测能力远远高于其他预测因素,是预测OSCC患者生存的最佳模型。

2.5 富集分析

为了探索OSCC病理过程的潜在机制,对筛选出的6个IRGs进行了GO和KEGG分析(图8A、B)。GO富集分析表明,差异基因涉及的通路主要富集于细胞迁移、细胞因子活性、受体配体活性、受体调节剂活性、中性粒细胞激活、粒细胞活化等。KEGG富集分析结果显示差异基因主要富集于阿米巴病、肾素血管紧张素系统、戊糖磷酸途径、淀粉和蔗糖代谢、膀胱癌、氨基糖和核苷酸糖代谢等。接下来,我们用GSEA软件(图8C)选取五条在高风险组中显著富集的通路,主要包括氨酰基合成、RNA降解、剪接体、核苷酸切除修复和同源重组。而低风险组前五条富集通路为造血细胞谱、钙信号通路、细胞黏附分子、GNRH信号通路和JAK/STAT信号通路。以上结果表明,两组间富集结果相关的生物学过程存在明显不同之处。

2.6 风险评分与免疫细胞浸润的相关性分析。

图9A~F显示在6种免疫细胞中,CD4+T细胞(COR=-0.263,P<0.001)、树突状细胞(COR=-0.187,P<0.05)与风险评分呈负相关。但风险评分与B细胞、CD8+T细胞、巨噬细胞和中性粒细胞无明显相关性。结果表明,OSCC高风险患者外周血中CD4+T细胞和树突状细胞水平较低。

3 讨 论

OSCC是世界上第六大常见癌症,主要发生于口腔黏膜、口底、舌等部位,其发病率高,病死率高,是威胁人类生命的重大疾病[18]。近年来,虽然OSCC的医疗设备和治疗方法取得了很大进展,但是由于淋巴结转移、远处转移和终末期诊断,术后5年的总生存率仅为50%,局部复发或转移性疾病患者的中位生存期仅为8~10个月。此外,由于OSCC的特殊部位,根治性手术切除和放疗会造成较大的结构和功能损害,显著降低患者的生活质量[19]。癌症生存率的准确预测对于OSCC患者的治疗计划非常重要。因此,寻找合适的预后预测方法,建立有效的预测模型,有助于OSCC患者的个体化治疗和预后评估,从而提高患者生存率。

近年来,许多研究表明免疫系统与肿瘤的发生密切相关。免疫系统通过形成炎性微环境,清除肿瘤细胞并阻断细胞的增殖、迁移和侵袭,从而抑制肿瘤进展[20]。大量证据表明,OSCC与免疫逃避相关[21]。有研究观察到在口腔上皮病变从非发育异常上皮到OSCC的发展过程中,调节性T细胞相关蛋白的表达量显著提高[22]。研究证实,程序性死亡配体1(programmed death ligand,PDL1)在OSCC组织中表达量高于正常组织[23]。此外,程序性死亡受体1(programmed cell death-1,PD1)/PDL1通路的激活被认为是口腔鳞癌患者淋巴结转移和预后不良的预测标志[24]。总之,免疫系统失调与OSCC密切相关。IRGs作为免疫系统的重要组成部分,可能成为口腔鳞癌有效的治疗靶点。目前,有多种研究提出了预测OSCC患者OS的预后模型[25-27]。然而,很少有研究关注IRGs在OSCC中的作用。鉴于免疫系统在OSCC机制中的重要作用,本研究旨在通过生物信息学分析,揭示IRGs的预后价值并构建预后模型,以提高OSCC患者预后的预测准确性,实现患者的个性化治疗。

本研究分析了OSCC患者的基因表达数据,确定了662个差异表达IRGs,然后用单因素Cox回归分析发现15个IRGs的表达与OS有关,接下来通过Lasso-Cox回归分析以及多因素Cox回归分析构建由6个IRGs组成的预后模型,这六个基因分别是CXCL8、PAK4、CTSG、PPP4C、GPI、AIMP1。最近一项研究表明,CXCL8在OSCC中的过度表达与预后不良有关[28],它可以促进CD163阳性的M2型肿瘤相关巨噬细胞的产生和渗透,从而支持和加强肿瘤浸润性T细胞的免疫抑制[29]。同时,PAK4过表达也可以促进OSCC肿瘤细胞增殖[30]。研究发现CTSG会抑制OSCC的生长,且CTSG表达水平越高,肿瘤患者的总体生存率越好[31]。PPP4C、GPI、AIMP1与OSCC的关系尚不明确,但这些基因在许多其他癌症中的功能已经被探索过。PPP4C与胰腺癌预后不良相关[32],其过表达可以促进乳腺癌细胞的增殖和迁移[33]。GPI主要参与肿瘤细胞的糖酵解,在胃癌和转移性肾细胞癌中均发现GPI高表达[34-35]。最近一项研究发现,AIMP1的过表达与头颈部鳞癌预后不良相关[36],在喉鳞状细胞癌中也同样发现了AIMP1的高表达[37]。这些IRGs很有可能成为OSCC免疫治疗的新分子靶点。

结合这些研究,我们假设由这6个IRGs组成的预后模型可以准确预测OSCC患者的预后。接下来通过Kaplan-Meier和1、3、5年ROC曲线对模型的预测能力进行了验证,证明了预测模型的准确性和可靠性。通过进一步比较发现,风险评分ROC曲线的AUC值为0.75,提示与年龄、性别和病理分期相比,该模型可以提供更准确的OS预测值。此外,我们还建立了预测OSCC患者1、3和5年生存率的列线图。校准曲线证明列线图具有较高的预测准确性。上述结果表明,基于6个基因的预后模型可以用来预测OSCC患者的预后,从而实现OSCC患者的个体化治疗方案。为了揭示调控这些IRGs的关键因子,我们还构建了一个TFs介导的调控网络,为进一步研究差异表达的IRGs在OSCC中的功能和调控机制提供了基础。在肿瘤的发生发展过程中,浸润性免疫细胞会受到肿瘤微环境的强烈影响,从而改变宿主防御机制,以便于肿瘤细胞的生存[19]。因此为了进一步了解OSCC免疫微环境,我们探索了预后模型与肿瘤浸润性免疫细胞之间的相关性。在本研究中,我们发现OSCC免疫相关预后模型的风险评分与CD4+T细胞和树突状细胞呈负相关,这表明该模型能较好地反映免疫细胞浸润的变化。

尽管本研究可以很好地预测OSCC患者预后,但这是一项回顾性研究,所有数据均来自于公共数据库,无法保证患者资料的完整性。另外还需要通过前瞻性研究和基础实验进一步研究IRGs影响OSCC发生、发展和转移的潜在机制。

综上所述,本研究综合分析了OSCC的IRGs表达数据和临床资料,确定了6个与OSCC预后相关的IRGs,并构建了一个可靠的模型来预测OSCC患者的预后。该预后模型能够一致、独立地预测OSCC患者的预后,有助于不同风险患者的个体化治疗,为OSCC的治疗和预后提供坚实的基础。

猜你喜欢
预测差异基因
无可预测
JT/T 782的2020版与2010版的差异分析
相似与差异
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
Frog whisperer
修改基因吉凶未卜
找句子差异
男女生的思维差异