黄佳怡,张文键,高蕾,刘玲珑
福建中医药大学,福建 福州 350122
肝癌是全球范围内高发的恶性肿瘤之一,每年约有90 万新发病例和83 万死亡病例[1]。肝癌发病隐匿,多数患者癌症早期未有明显的临床症状,但癌症进展迅猛,手术或药物等治疗效果均不佳,预后生存时间较短[2]。肝癌的发生发展是复杂的过程,涉及本体基因、体细胞突变、基因组不稳定和微环境等众多因素的共同参与[3-4]。随着对肝癌研究的不断深入,目前临床上肝癌的治疗主要以手术、放化疗和靶向药物综合治疗,但肝癌晚期患者预后仍然较差,因此迫切需要开展对肝癌包括发病机制及治疗靶点等的不断深入研究[5]。肿瘤微环境(TME)是指包括肿瘤细胞、免疫细胞、基质成分等,在肿瘤生长发挥重要的作用,与肿瘤的亚型和分级密切相关[6-7]。研究发现抑制肿瘤微环境免疫相关基因,可直接减缓肿瘤的生长。30%的早期肝癌患者可检测到免疫相关基因的表达升高,但25%患者未检测到明显的变化[8]。因此,肿瘤微环境相关基因的表达与肿瘤中免疫反应或免疫细胞等成分密切相关。对肝癌微环境相关基因做进一步的研究,将有助于推进相关靶向药物的研发和肝癌的临床治疗。本研究通过结合TCGA 数据库中肝癌转录组数据和ESTIMATE免疫/基质评分,挖掘与肝癌临床诊断和预后密切相关的肿瘤微环境相关基因。
1.1 数据来源和差异表达基因筛选 本实验从TCGA 数据库中下载369 例肝癌肿瘤样本(Illumina HiSeq 2000 RNA 测序平台)RNA表达谱数据和369 例患者相应的临床信息,包括年龄、性别、肿瘤分级、肿瘤分期、生存时间和生存状态。采用R 语言(3.5.3 版本)ESTIMATE 包[9]分析肿瘤微环境的基质评分和免疫评分。依据基质评分和免疫评分的中位值,分别分为高分组和低分组。用Limma包进行分析并筛选高、低分基质(或免疫)组之间的差异表达基因(DEGs)(筛选标准:|log2FC|≥1且校正P值<0.05)。
1.2 差异表达基因GO 和KEGG 分析 通过Cluster Profiler 包对DEGs 进行GO 和KEGG 富集分析,利用GO 分析了解DEGs 主要参与的细胞成分(BP)、分子功能(CC)生物过程(MF)生物学过程,利用KEGG 分析了解DEGs 主要参与的信号通路(P<0.05时为差异有统计学意义)。
1.3 PPI 网络构建 利用STRING 网站(version 11.0; https://string-db.org/)构建基因-基因之间互作网络关系网,并用Cytoscape 3.5.1 做网络可视化显示。采用Cytoscape 中MCODE(分子复合物检测)插件,通过拓扑原理分析寻找节点在10 及以上的连接密集网络并选定为重要模块,并取模块基因做后续分析。
1.4 模块基因临床价值的综合分析 利用GEPIA 网站(http://gepia.cancer-pku.cn/)[10],以肝癌基因表达中位数将患者分为高、低表达两组,比较两组患者的生存率。分析模块基因与患者生存时间的关系,筛选与肝癌患者预后显著相关的基因;分析模块基因与肝癌分期直接的相关关系。以肝癌数据集GSE94660作为验证数据集(下载自GEO数据库),数据集为21例肝癌及其癌旁正常肝脏组织的RNA-seq数据。筛选出与肝癌预后相关且肝癌中高表达的核心基因。TIMER(https://cistrome.shinyapps.io/timer/)是对TCGA 中32 种癌症肿瘤中不同淋巴细胞浸润情况与基因表达量之间相关性做系统分析的在线分析平台。利用TIMER数据库分析核心基因表达水平与不同肿瘤浸润淋巴细胞水平(包括肿瘤纯度、中性粒细胞、巨噬细胞、B细胞、CD4+T 细胞、CD8+T 细胞和DC 细胞)之间的相关关系。
1.5 统计学方法 应用R3.5.3 软件、Graph Pad 7.0 软件、Adobe illustrator 软件进行统计分析及图表绘制和排版。组间差异采用Student's t 检验,生存曲线(又称Kaplan-Meier 曲线)分析患者生存状况,采用Log-rank检验分析。以P<0.05为差异有统计学意义。
2.1 肝癌基质、免疫评分与病理特性及生存关系 从TCGA 数据库下载369 例肝癌患者的基因表达和临床数据,其中女性121 例(32.5%),男性248 例(67.47%)。ESTIMATE 评分显示肝癌患者的基质评分为-1 625.26~1 171.56 分,免疫评分为-866.23~3 146.39分。随着肝癌分级的增加,基质评分呈下降趋势(图1A,P=0.01),免疫评分呈升高趋势,但差异无统计学意义(图1B),且肝癌分期与基质和免疫评分无明显相关(图1C、1D)。高基质评分组和高免疫评分组具有更高的总生存率,差异具有统计学意义(图1E、1F)。
图1 肝癌免疫和基质评分与病理特点及生存预后之间的关系Figure 1 Relationship between immune/stromal scores and pathological characteristics,survival prognosis in HCC
2.2 筛选与基质、免疫评分相关的差异表达基因 高低基质(或免疫)评分组之间的DEG 见图2A、2B。高低基质评分组之间的差异基因有690个为上调基因和25个下调基因。高低免疫评分组之间的差异基因有539个上调基因和25个下调基因。韦恩分析发现高低基质评分和免疫评分组之间的DEGs中有329 个共同的DEGs,其中321个为上调基因,8个为下调基因(图2 C、2D)。并对共同的DEGs做进一步的分析。
图2 基于肝癌ESTIMATE评分基础上DEGs热图和韦恩图Figure 2 Difference gene expression(DEGs)in HCC based on ESTIMATE algorithm score
2.3 DEGs参与的生物过程及通路分析 对329个DEGs进行GO分析,发现其参与众多免疫相关生物过程如免疫细胞的激活、免疫反应和调节、趋化因子结合、C-C 趋化因子结合和活化等(图3A)。KEGG 通路富集分析显示细胞因子-细胞因子受体的相互作用、病毒蛋白与细胞因子的相互作用以及细胞因子受体的相互作用是高度富集的三条通路(图3B)。
图3 DEGs功能富集分析Figure 3 Significance enrichment of common DEGs in HCC
2.4 PPI网络构建及模块分析 利用STRING构建329 个DEGs 之间的PPI 网络,并利用Cytoscape 中MCODE 插件进一步构建功能模块,筛选得三个功能模块。依据其核心的节点分别命名为CCR7 模块、IL10模块和CD19 模块。CCR7模块(图4A)有19个节点和171 条边,相应的基因分别为CCR7、ADRA2A、CCL19、CCR2、CCR4、CCR5、CCR8、CXCR1、CXCR2、CXCR6、FPR1、GNG8、GPR18、LPAR1、LPAR5、P2RY12、P2RY13、PNOC 和S1PR4。IL10 模块(图4B)有14 个节点和61条边,相应的基因分别为IL10、CCL11、CCL22、CD13、CD1B、CD1C、CD40LG、CD69、CD80、IL2RA、IL6、IRF4、TLR7和TLR8。CD19模块(图4C)有21个节点和53 条边,相应的基因分别为CD19、BTK、BTLA、CD22、CR2、CYSLTR1、GPR132、GPR174、GPR65、GPR68、ICOS、IL21R、IL7R、LY75、PDCD1LG2、PLD4、PTPN22、SLAMF1、TNFRSF8、TRAF3IP2 和XCR1。通过对这些模块基因进一步功能分析发现,其参与的通路大部分与免疫反应和细胞因子受体相关。GO富集分析发现其主要生物过程为钙离子稳态、细胞调节、受体活性和趋化因子结合(图5A)。KEGG通路富集分析发现其主要信号通路为细胞因子-细胞因子受体相互作用和趋化因子信号通路(图5B)。
图4 DEGs基因之间PPI网络图中CCR7模块、IL10模块、CD19模块Figure 4 CCR7 module,IL10 module,and CD19 module in the PPI network between DEGs genes
图5 模块基因功能附近富集分析Figure 5 GO term and KEGG pathway analysis for 3 module DEGs in HCC
2.5 模块基因在肝癌临床诊断和预后中的价值 通过GEPIA 分析模块基因与肝癌患者预后的关系,采用Log-rank检验分析54个模块基因与患者总生存时间(OS)相关关系,并进一步利用GSE94660 数据集分析模块基因在肝癌肿瘤组织和癌旁组织中的表达情况,结果显示肿瘤样本中CCR5、CCR7、GPR18、IL7R、SLAMF1、TRAF3IP3、CD69、XCR1 基因mRNA 高表达患者有较好的预后,具有显著的相关性(图6,P<0.05),且CCR5、SLAMF1 和TRAF3IP3 的在肝癌中的表达明显高于癌旁组织,差异有统计学意义(图7,P<0.05)。CCR5、SLAMF1和TRAF3IP3为肝癌微环境相关且可用于临床诊断与预后的核心基因。
图6 筛选出的8个与肝癌临床OS密切相关的基因Figure 6 Survival analysis of 8 key genes for hepatocellular carcinoma
图7 GSE94660数据集验证8个基因在肝癌和癌旁组织中的表达情况Figure 7 Expression of 8 genes in HCC and paracancerous tissues verified by GSE94660 dataset
2.6 核心基因与免疫浸润细胞的相关性 TIMER分析发现,CCR5、SLAMF1 和TRAF3IP3 基因与肿瘤纯度均呈负相关关系,CCR5 与肝癌中除CD4+T 细胞外的其他免疫浸润细胞含量之间呈正相关关系,SLAMF1 与肝癌中除中性粒细胞外的其他免疫浸润细胞含量之间呈正相关关系,TRAF3IP3 和肿瘤中除中性粒细胞外的其他免疫浸润细胞含量之间呈正相关关系(图8)。
图8 CCR5、SLAMF1和TRAF3IP3基因与肝癌中免疫浸润细胞的相关性Figure 8 Correlation between CCR5,SLAMF1,TRAF3IP3 genes and immune infiltrating cells in HCC
肝癌发病过程涉及环境、基因变异等多因素和多信号通路等的共同调控,疾病早期不易发现,但病程进展快速,死亡率逐年攀升,因此早期诊断标志物和分子靶点等的研究迫在眉睫,将为后续肝癌的新药研发及临床运用带来新希望。近年来在肿瘤微环境的研究中发现非肿瘤成分在肿瘤的发生发展中发挥重要的作用,肿瘤微环境中免疫/基质成分是动态变化的,这些细微的改变往往预示着患者在抗癌治疗、复发与耐药等方面的不同反应,与肿瘤患者预后息息相关。ESTIMATE 算法基于免疫相关基因的表达情况计算出肿瘤组织的免疫评分和基质评分,并在前列腺癌[11]、胶质母细胞瘤[12]和结肠癌[13]的研究中发现患者的预后与ESTIMATE评分密切相关。
本研究中对比高、低免疫(基质)评分肝癌患者的生存期发现,高免疫和高基质评分组的肝癌患者总生存率明显高于低评分组的患者,且与患者肿瘤的等级或分期无关。通过比较高、低免疫(基质)评分肝癌样本的基因表达谱,筛选出329 个与肝癌基质和免疫相关的差异表达基因(DEGs)。进一步GO 功能富集分析显示,DEGs 在免疫细胞反应和基质相互作用的生物过程上富集,主要富集的生物过程是T 细胞活化、淋巴细胞的调节活化和淋巴细胞分化。KEGG 信号通路主要在免疫和炎症反应相关的通路上富集,其中前3位通路分别是细胞因子-细胞因子受体相互作用、趋化因子信号通路、病毒蛋白-细胞因子和细胞因子受体的相互作用。GO和KEGG富集分析结果均提示DEGs主要参与肿瘤微环境中免疫细胞和免疫反应等过程。
肿瘤微环境中,多种免疫细胞与肿瘤细胞互相作用,调节肿瘤生长和对肿瘤治疗如对靶向药物的反应性[14]。Sia等[8]研究中发现约25%的肝癌组织表达炎症反应标志物如PD-1 和PD-L1 分子并检测到IFN-γ信号通路的激活,这些肿瘤组织中的自身免疫反应过程与临床中免疫治疗过程相似,减缓或抑制肿瘤生长,患者的预后较好。这些研究结果均表明,微环境与肿瘤生长密切相关,对其相关基因的深入研究具有重要的意义。本研究对329 个肿瘤微环境相关DEGs 的PPI网络进一步分析,构建3个重要模块,并对54个模块基因进行功能富集分析,结果显示这些基因主要在趋化因子受体和细胞因子受体结合和活性相关的通路上富集。同时利用GSE94660数据集和TCGA患者生存数据分析54 个模块基因表达与患者生存以及在肝癌和癌旁中的表达情况,最终筛选出CCR5、SLAMF1 和TRAF3IP3 三个关键基因,这三个关键基因不仅与患者预后密切相关,且在癌中的表达量明显高于癌旁组织。
G蛋白偶联受体5(CCR5)是趋化因子受体,主要在淋巴细胞上表达,激活肝细胞纤维化促进纤维化进展[15-16]。抑制CCR5的表达,可明显改善非酒精性肝炎和肝纤维化患者肝纤维程度[17]。本研究中发现CCR5的表达与肝癌的免疫和基质评分密切相关,进一步研究发现CCR5 的表达与肿瘤中巨噬细胞、CD8+细胞、DC细胞密切相关。信号淋巴细胞激活分子家族成员(SLAMF1)编码CD150 的糖蛋白细胞表明受体,CD150表达于不同类型的免疫细胞上如活化的T淋巴细胞、B 淋巴细胞、树突细胞和单核细胞等,且参与体液免疫的调节[18-19]。SLAMF1 参与T 细胞和抗炎呈递细胞(APC)直接的细胞粘附和信号传导,如T细胞与B细胞的共刺激作用[20]。研究也发现,SLAMF1 也参与多种肿瘤的发生发展,参与恶性血液系统疾病如慢性淋巴细胞白血病和原发性纵膈B细胞淋巴瘤的发展,在中枢神经系统的肿瘤中也检测到SLMAF1 编码的CD150 高表达。我们的研究发现,SLAMF1 在肝癌中呈现高表达状态,这与肿瘤浸润淋巴细胞如巨噬细胞、B 细胞、T 细胞、DC 细胞的浸润水平呈正相关,且SLAMF1 高表达组患者预后良好。TRAF3 相互作用蛋白3(TRAF3IP3)又名T3JAM,早期研究发现其与肿瘤坏死因子相关因子3(TRAF3)特异性结合激活肾细胞中JNK 通路。后续研究发现其表达于多种免疫细胞,如NK细胞、B淋巴细胞和T淋巴细胞,并参与调节免疫细胞的分化和成熟[21-22]。在乳腺癌的研究中发现,TRAF3IP3 的表达与肿瘤血管形成有显着的相关性[23]。在黑色素瘤中TRAF3IP3 基因过表达具有致瘤性[24]。这与本研究一致,在肝癌中TRAF3IP3 在肝癌中高表达,且TRAF3IP3 与肿瘤中相关浸润淋巴细胞如T 细胞、B 细胞、DC 细胞具有明显的相关性。研究中发现CCR5、SLAMF1、TRAF3IP3 基因在肝癌中高表达,且与肝癌微环境中浸润淋巴细胞、患者预后具有显著的相关关系,推测这些基因可能参与肝癌微环境中免疫系统如免疫细胞等的激活和调节,但其在肝癌肿瘤微环境的具体作用机制尚未明确,进一步的研究将对肝癌的诊断及治疗具有一定的意义。
综上所述,本研究结合ESTIMATE 评分和生物信息学分析TCGA数据库中肝癌转录组数据,筛选出肿瘤微环境相关的基因CCR5、SLAMF1、TRAF3IP3 与肝癌预后和诊断显著相关,有望作为潜在的肝癌免疫治疗的新靶标,为肝癌患者治疗带来新的可能。本研究主要通过TCGA 数据来分析关键基因与肿瘤预后和免疫浸润等的关系,后续将在肿瘤样本中开展进一步的实验研究。