陈 国,田黎民,李晓平
(1.广东省汕头潮南民生医院肿瘤综合外科,汕头 515154;2.湖北恩施土家族苗族自治州中心医院病理科,恩施 445000;3.广东省江门市中心医院胃肠外科,江门 529000))
据统计,截至2020年美国每年结肠癌新发病例147 910例,死亡53 200例;我国结肠癌年新发病例约376 000例,死亡191 000例[1-2]。结肠癌已经成为最常见的消化道恶性肿瘤,严重威胁着人类健康。肠癌一旦发生区域淋巴结转移,则定义为Ⅲ期,而Ⅲ期肠癌的术后辅助治疗是基于5-氟尿嘧啶和奥沙利铂为基础的化疗方案。纵使接受了标准疗程的辅助治疗,仍有40%以上的患者出现复发转移[3-4]。分辨出Ⅲ期结肠癌患者中的高危患者、寻找潜在的治疗靶点具有重要意义。但目前针对Ⅲ期结肠癌的研究非常有限,本研究拟根据生物信息学方法,通过大数据平台筛选出影响Ⅲ期结肠癌患者预后的关键基因,以便为后续的实验室研究提供相应的靶基因。
下载并筛选Ⅲ期肠癌患者的转录组核糖核酸测序(RNA-seq)数据和临床预后信息。从TCGA(https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)数据库中收集所有结肠癌患者RNA-seq数据和相关临床数据信(肿瘤位置包括升结肠、横结肠、降结肠和乙状结肠)[5]。从中筛选出临床分期为Ⅲ期的患者,共筛选出126例Ⅲ期结肠癌的患者,包含126例结肠癌的癌组织和8例癌旁组织。
NetworkAnalyst(https://www.networkanalyst.ca)是一个专门用于转录组基因表达数据分析的在线网站[6]。在该网站中,以P<0.01以及|logFC|≥1为条件筛选出Ⅲ期结肠癌患者的癌组织和癌旁组织的差异表达基因。通过该网站绘制出描述差异基因表达情况的火山图。
对1.2中筛选出的差异基因进行功能富集分析和KEGG通路富集分析。具体步骤如下:首先,从NetworkAnalyst网站中得到差异表达基因的基因名称,通过Ensembl数据库,将所有差异表达基因的基因名装换为Gene symbol形式。其次,通过可视化数据分析网站(the Database for annotation,visualization and integrated discovery,DAVID)对差异基因进行功能分析(https://david.ncifcrf.gov/)[7]。P<0.01表示富集分析差异有统计学意义。基因本体论(gene ontology,GO)功能富集分析结果主要包括生物学的分子功能(molecular function,MF)、生物过程(biology process,BP)和细胞成分(cellular component,CC),而KEGG通路富集分析则用于分析差异表达基因的信号通路。
首先,利用蛋白质相互作用数据库(https://www.string-db.org/)构建之前筛选出的差异表达基因,并构建PPI网络图,将可信度≥0.7作为筛选条件[8];其次,利用Cytoscape软件将差异基因的蛋白质相互作用网络图可视化;最后,利用Cytoscape软件上筛选出PPI网络图上的核心模块和核心基因。
在RNA序列表中找到所有Ⅲ期结肠癌患者核心基因的表达值,计算每个核心基因的中位值并以此为临界值,把Ⅲ期结肠癌患者高表达组和低表达组,利用Graphpad软件绘制患者每个基因的Kaplan-Meier生存曲线,P≤0.05提示该基因的高低表达组中对生存影响具有统计学意义。
利用cBioPortal数据库(www.cbioportal.org)来显示基因突变的频率(基因的扩增、突变、拷贝数增加以及基因的缺失)[9],所有操作步骤均按照cBioPortal网站在线操作指南进行。
126例Ⅲ期结肠癌患者中,其中男性62例(49.21%),女性64例(50.79%);平均年龄为(65.32±13.88)岁;有淋巴脉管浸润者95例(75.40%);T分期中T2、T3、T4分别为10例(7.94%)、100例(79.37%)、16例(12.70%);N分期中N1、N2分别为77例(61.11%)、49例(38.89%);腺癌104例(82.54%),黏液癌22例(17.46%);临床分期中ⅢA、ⅢB、ⅢC期分别为31例(24.60%)、56例(44.44%)、39例(30.95%)。
通过筛选TCGA下载的结肠癌患者数据,我们获得了126例Ⅲ期结肠癌的RNA测序数据和相关临床随访信息;我们利用NetworkAnalyst在线网站进行差异基因分析,比较了126个结肠癌组织与8个癌旁正常组织之间差异表达基因,共获得991个差异表达基因(以P<0.01以及|logFC|≥1的筛选条件)。根据NetworkAnalyst网站这991个差异表达基因的表达情况以火山图的形式进行呈现,如图1所示。
图1 Ⅲ期结肠癌患者中差异表达基因
为更好地了解上述筛选出的991个差异表达基因的功能,利用David对991个差异表达基因进行了GO功能富集和KEGG通路富集分析。BP富集结果显示差异基因主要富集于化学突触传递、多巴胺能神经元分化和离子跨膜转运(图2a);CC结果表明,差异基因在胞外区、胞外间隙和核周体这些部位成分较为丰富(图2b);MF结果表明,差异基因主要富集于分子结构活性、延迟钾通道活动和丝氨酸肽链内切酶活性(图2c)。同时,KEGG通路富集分析表明,差异基因在环磷酸腺苷(cAMP)信号通路和神经活性配体-受体相互作用相关通路中功能较为活跃(图2d)。
图2 差异表达基因的GO和KEGG通路富集分析
PPI蛋白质相互作用网络能够用来说明蛋白质之间的相互作用,本研究中,利用STRING数据库来构建991个差异表达基因的PPI蛋白相互作用网络图(图3a),利用最小相互作用分数≥0.7的条件筛选出了532个候选基因;为了找到差异表达基因之间的相互关系,利用Cytoscape软件以节点分数=0.2,K值=2.0作为筛选条件,筛选出了候选基因中相互作用最为密切的一个模块(图3b),通过筛选获得20个核心的基因,包括NPY、CASR、NPY2R、PENK、CCL16、SST、HTR1D、CXCL5、CNR1、PYY、CXCR5、PPBP、INSL5、P2RY4、P2RY12、GALR1、GNG8、GNG13、CHRM2以及TAS1R1基因。
图3 蛋白互助网络图
分别计算上述20个基因在126例患者中的中位表达量,并以此作为介值,高于中位表达量的患者认为是高表达组,低于中位表达量的患者被认为是低表达组;据此将我们筛选出来的126例患者分为高表达组和低表达组。如图4所示,利用Kaplan-Meier生存曲线分析上述20个核心基因高表达组和低表达组的预后差异,P<0.05为差异有统计学意义。结果发现患者高表达CXCL5或GNG13基因的预后较差,提示这两个基因可能是结肠癌的促癌基因。
图4 关键预后基因生存曲线
通过cBioPortal数据库分析CXCL5和GNG13基因发生错义突变、深度缺失和扩增几种突变情况的频率。结果显示CXCL5基因的突变率为1.7%,有7个突变位点,其中4个发生在IL-8结构域;GNG13基因的突变率为0.8%,有1个突变位点,g-γ结构域,见图5。
图5 在cBioPortal数据库中检测结肠癌患者CXCL5和GNG13基因的变化
近年来,结肠癌的发病率逐年升高[10]。然而,结肠癌起病隐匿、进展迅速、容易对化疗药物抵抗等因素导致结肠癌患者预后较差[11]。作为一种多因素疾病,结肠癌的发病机制复杂且尚未研究清楚,吸烟、饮酒、肥胖、缺乏锻炼以及基因突变等因素均会导致疾病的发生[12]。临床上,Ⅲ期肠癌被定义为存在区域淋巴结转移而没有合并远处转移的患者,此类患者的治疗方案为根治手术联合化疗。根据患者的临床病理因素可以将结肠癌分为高危组和低危组,选择不同的治疗方案,患者的预后情况也存在着明显差异。André等[13]研究认为,高危型患者需要采取8个疗程的化疗方案治疗,低危型患者则仅需要采取4个疗程的XELOX化疗方案进行治疗。但是多种基因与结肠癌的发生有关,单纯采用临床病理因素划分结肠癌患者的危险性,忽略了基因因素对结肠癌患者发病的影响。研究[14]显示,KRAS、NARS以及BRAF基因突变与患者预后有关,且能够指导患者的肿瘤靶向治疗;BRAF V600E的突变状态能够对预后进行分层,指导临床治疗;错配修复蛋白(MMR)以及微卫星不稳定性(MSI)的检测能够用于筛选Lynch syndrome患者,指导患者的治疗。也有关于人类表皮生长受体因子(HER2)与结肠癌患者关系的研究[15]。这些都说明基因在结肠癌患者的发病以及治疗中的重要作用。
本研究利用大数据模式,采用生物信息学方法,通过TCGA数据库筛选到126例Ⅲ期结肠癌患者,通过癌组织和癌旁组织的差异性分析,筛选出了991个差异基因,通过功能富集分析和KEGG通路富集分析,发现主要富集于cAMP信号通路和神经活性配体-受体相互作用相关通路。刘明心等[16]认为,cAMP信号通路与机体的应激、炎症、免疫及肿瘤的发生发展密切相关,通过靶向cAMP/PKA/CRE信号通路,有助于逆转肿瘤的发生。瞿根义等[17]发现神经活性配体-受体通路与前列腺癌的发生发展具有密切相关性。因而多个研究提示了cAMP信号通路与神经活性配体-受体通路与肿瘤的发生发展具有相关性,但在Ⅲ期结肠癌中的作用上不明确,值得后续研究探讨。
本研究通过蛋白质相互作用网络及MCODE分析法,筛选出20个关键的差异基因。通过生存分析发现,高表达CXCL5和GNG13的Ⅲ期结肠癌患者预后较差,提示这两个基因可能是促癌基因。CXCL5是趋化因子家族分泌的信号蛋白。CXCL5作为一种促炎症和促癌分子,可以介导多种细胞行为,包括肿瘤细胞的迁移和侵袭以及中性粒细胞的转运。CXCL5与多种肿瘤的发生发展有关[18]。Yu等[19]发现间充质基质细胞(MSCs)分泌的CXCL5可促进乳腺癌的转移。Kawagoe等[20]发现血清CXCL5水平可作为结直肠癌患者的预后指标,CXCL5可促进结直肠癌转移,高水平的CXCL5可导致肿瘤复发和预后不良。血管生成在恶性肿瘤的发生发展中起着非常重要的作用,但CXCL5在Ⅲ期肠癌中仍缺乏相应研究,其内在的信号通路仍值得我们后续的实验室分析。GNG13是编码G蛋白亚基γ13的7-跨膜-螺旋G蛋白偶联受体的信号转导子。GNG13是一种γ亚单位,在视网膜、味觉和神经组织中均有表达,在味觉传导中起着关键作用。Ren等[21]发现,GNG13在多巴胺能突触信号通路中起重要作用,与本文的研究一致。GNG13是钙信号通路中的靶点与骨骼肌的发育有关,有助于维持体内平衡和再生。癌细胞的生长需要消耗大量的能量,钙离子保证了能量的供应,可能在一定程度上会促进肿瘤的进展。Yi等[22]推测GNG13可能通过细胞毒的抗癌作用抑制乳腺癌细胞。Sun等[23]发现GNG13是前列腺癌的中枢基因。查阅相应的中英文数据库,暂没有关于GNG13与结肠癌发生发展及预后的相关研究,提示了该基因是本研究首次发现并提出与Ⅲ期肠癌患者预后相关,因而在后续实验室研究中具有重要的研究价值。
当然,本研究具有一定的局限性。本研究是从生物信息学的角度发现了影响Ⅲ期肠癌患者的相关基因,仍需后续的实验研究进行功能验证及通路分析。
本研究通过生物信息学方法分析了公共数据库中Ⅲ期结肠癌患者转录组水平的mRNA表达情况及临床随访信息,发现CXCL5和GNG13可能是影响Ⅲ期结肠癌患者预后的促癌基因。