齐鲁,丁彦青,
1. 南方医科大学基础医学院病理学系,广州 510515;
2. 南方医科大学南方医院病理科,广州 510515
大肠癌早期症状不明显,发现时通常已发生转移,且转移是影响大肠癌患者预后的重要因素,是否发生转移与患者的生存时间密切相关。因此转移是大肠癌主要危害之一,筛选大肠癌转移相关信号调控网络中的关键调控点,对阐明大肠癌转移分子机制、寻找有效的药物治疗靶点有着重要意义。
在本课题组前期研究工作中,利用 GSEA[1](Gene set enrichment analysis)工具对具有 TNM(Tumor node metastasis)分期信息的大肠癌表达谱数据进行了功能富集分析,比较分析了早期T1、T2期和晚期M1期的大肠癌表达谱数据,GSEA富集类别选择 miRNA作用位点基因集以及转录因子结合位点基因集,最终筛选出了与大肠癌转移密切相关的miRNA及转录因子结合位点,对相关富集类中表达上调的基因取交集,获得在大肠癌晚期 M1期表达上调、且上游调控区域具有较多转移相关miRNA作用位点和转录因子结合位点的关键基因 CREB5(cAMP responsive element binding protein 5)[2]。
本课题组利用SAM3.01[3](Significance Analysis of Microarrays)对具有生存时间信息的大肠癌表达谱数据进行分析,筛选出与大肠癌患者生存时间相关的基因共235个,利用TFM-Explorer[4](The transcription factor matrix explorer)工具对235个基因进行转录因子结合位点富集分析,获得与大肠癌生存时间密切相关的转录因子结合位点,对转录因子结合位点所对应的基因取交集,获得含有生存相关转录因子结合位点较多的基因,将这些基因与早期转移大肠癌中表达上调的基因集取交集,得到与患者生存时间相关、受转录因子调控较多、且在大肠癌组织中表达上调的关键基因同样为CREB5[5,6]。
CREB5基因受到很多转移相关转录因子和miRNA以及生存相关转录因子的调控,且与大肠癌患者生存时间密切相关,因此CREB5基因可能为大肠癌转移相关信号调控网络中的关键调控点。
CREB5又称为CRE-BPA,属于环磷酸腺苷反应元件结合蛋白家族,定位于 7号染色体短臂,具有锌指结构和亮氨酸拉链结构域,是一种转录激活因子。CREB5 主要包含 4 种可变剪切体: α,β,γ,δ[7],并且其在黑猩猩(Pan troglodytes)、狗(Canis lupus familiaris)、牛(Bos taurus)、鼠(Rattus norvegicus)、鸡(Gallus gallus)、斑马鱼(Danio rerio)等物种中高度保守。CREB5能够与c-Jun和 ATF2组合成为异二聚体并与基因转录调控区域的环磷酸腺苷反应元件相结合,调控基因的表达[8]。CREB5基因的表达受很多因子的调控,此基因表达水平的变化对细胞信号调控网络有着重要影响,其在不同物种中高度保守以及具有较多的可变剪切体进一步说明了其功能的重要性。因此,本研究通过生物信息学方法分析CREB5在大肠癌转移作用中可能的调控机制,明确其可能调控的相关基因,进一步阐明大肠癌转移过程中细胞信号网络的变化机制。
CREB5基因表达受到很多转录因子及 miRNA的精密调控,为了分析CREB5基因的表达对大肠癌细胞信号调控网络的影响,本文对 NCBI[9]网站中GEO(Gene expression omnibus)数据库[10]的表达谱数据GSE2109进行GSEA分析。由于GSE2109数据包含2158个各类肿瘤组织数据,提取其中属于大肠癌的表达谱数据共 343例,这些表达谱数据均具有TNM等分期信息且此数据样本量较大。由于CREB5基因的表达值在不同状态的大肠癌患者中表达情况不同,为了阐明CREB5基因表达的高低对大肠癌表达谱的影响情况,将343例表达谱数据依据CREB5基因表达情况分为高低两组。对数据进行以下处理:首先将表达谱数据依据CREB5基因的表达值从高到低进行排序,然后将数据分成 3段,头尾两段分别包含114例大肠癌数据,中间段包含115例大肠癌数据,最后删除中间段数据。因此头段为CREB5基因高表达组,尾段为CREB5基因低表达组。使用GSEA分析工具对两组数据依据 KEGG[11](Kyoto encyclopedia of genes and genomes)通路、生物进程、分子功能及转录因子结合位点基因集进行富集分析,基因集版本为V4.0。
由于 CREB5能够与 c-Jun结合成为异二聚体共同调控基因的表达,而c-Jun蛋白又是AP-1的重要组成部分[12],因此CREB5的调控作用与AP-1密切相关。通过GSEA工具基于转录因子结合位点基因集进行富集分析,将富集结果中属于AP-1富集类的上调基因进行提取,然后与 KEGG通路富集结果中属于癌症通路(Pathways in cancer)富集类的上调基因取交集,得到既在CREB5基因高表达组中表达上调,又具有AP-1转录因子结合位点,且属于癌症通路的关键基因,对这些关键基因通过 GeneMANIA工具[13]进行共表达分析,验证这些基因的表达情况是否与CREB5基因表达相关联,并且分析这些基因所参与的分子功能,明确CREB5基因在大肠癌转移过程中可能的调控机制。
对343例大肠癌表达谱数据基于CREB5基因表达值而分成的高、低两组各114例数据进行GSEA富集分析,在生物进程基因集中,总共有 562个基因集,而CREB5基因高表达组有385个基因集表达上调,且 FDR小于 25%的基因集有 145个,而CREB5基因低表达组只有 177个基因集表达上调,且只有3个基因集的FDR小于25%。因此,CREB5基因高表达对大肠癌生物进程影响较大,且高表达组所参与的生物进程主要包括细胞迁移、血管生成、细胞增殖等与肿瘤发生和转移密切相关的分子事件(图1)。通过对分子功能富集分析,发现CREB5基因高表达组基因主要参与RHO、RAS、GTP酶、蛋白酪氨酸激酶等与肿瘤发生发展密切相关的分子功能(表 1),且 P值及错误发现率(FDR)均很低,说明结果可靠。而通过对两组数据进行转录因子结合位点基因集的富集分析可以发现,总共 572个基因集中,CREB5基因高表达组有479个基因集表达上调,且有422个基因集的FDR小于25%,而低表达组中只有93个基因集表达上调,且没有基因集的FDR小于25%,说明CREB5基因的高表达对大肠癌细胞的转录调控作用影响较大。在高表达富集类中,依据标准化富集分数排序,前20个转录因子结合位点中有7个为转录因子AP-1结合位点,说明由于CREB5基因的高表达而影响的许多基因均可能同时受到 AP-1的转录调控。由于c-Jun为转录因子AP-1的重要组成部分且能够与 CREB5结合成为异二聚体调控基因的表达,因此进一步说明了CREB5与AP-1在调控基因表达过程中有着密切的联系。同样,使用KEGG通路基因集进行富集分析,发现CREB5基因高表达组所参与的信号通路主要为癌症通路。为了验证上述结果的可靠性,使用另一表达谱数据GSE17536进行同样的分析,得出了相似的结论,因此进一步证实了CREB5基因在大肠癌的发生发展转移中起着重要作用。
图1 CREB5基因高表达组主要参与的分子事件
为了验证7个AP-1结合位点富集类中上调基因的调控区域确实具有AP-1结合位点,以及这些基因所关联的相关疾病情况,提取7个AP-1富集类中表达上调且不重复的基因共 219个,使用 WebGestalt工具[14]进行转录因子结合位点富集以及相关疾病富集分析(表2)。结果发现,转录因子结合位点富集结果主要为AP-1结合位点,而相关疾病富集结果也发现这些基因主要参与了上皮性肿瘤的发展和侵袭,说明这些基因与大肠癌的进展关系密切。由于 219个基因转录调控区域具有 AP-1结合位点,且在CREB5基因高表达组中表达上调,因此这些基因可能为CREB5所调控的重要基因。
由于219个基因可能受CREB5调控,且这些基因参与的相关疾病主要为上皮性肿瘤的发展和侵袭。为了进一步筛选这些基因中与大肠癌发生发展密切相关的基因,将 KEGG通路富集结果中属于癌症通路且起着富集作用的上调基因进行提取,得到在CREB5基因的高表达组中表达上调且属于癌症通路的基因共104个,然后将这些基因与具有AP-1结合位点的 219个基因取交集,获得交集基因共 16个,分别为 TGFBR2、TCF7、SUFU、STAT5B、PDGFRB、MMP9、MET、MAPK10、LAMC2、LAMC1、IL6、FIGF、FGF11、CSF1R、CDKN1A、AKT3。为了验证这些基因是否可能受 CREB5的调控,利用GeneMANIA工具将这16个基因连同CREB5基因进行共表达分析。结果表明,网络中 77.52%的基因均具有共表达关系,而 16个基因和 CREB5中,除了SUFU,其余基因均直接或者间接具有共表达关系(图2A),进一步验证了CREB5可能能够调控16个
分子功能基因数NOM p-值FDR q-值基因的表达。通过对网络中基因参与的分子功能分析可以发现,网络中得分最高的前几个分子功能均为调控细胞的运动和迁移,主要涉及 CSF1R、MMP9、PDGFRB、FIGF和IL6所构成的子网络(图2B),说明 CREB5可能是通过调控这些基因进而影响大肠癌细胞的迁移。
表1 CREB5基因高表达组参与的分子功能
表2 7个AP-1富集类中上调基因的转录因子及相关疾病富集分析
图2 CREB5及其可能调控的16个基因的共表达分析结果
大肠癌细胞在迁移过程中细胞内的许多信号分子均会发生一系列变化,这种变化相互影响和级联传递构成了细胞内复杂的信号调控网络。信号调控网络中存在着关键调控节点,调控节点在信号通路的收敛及放大的过程中具有十分重要的作用。明确信号调控网络中关键调控点的作用机制,对理解这些信号分子变化所引起的细胞生物学行为的变化有着重要意义。通过前期研究分析筛选,获得了可能在大肠癌转移过程中受到调控作用较多的转录因子CREB5,前期的研究发现在CREB5基因的上游调控区域富集着许多转录因子结合位点,而这些转录因子结合位点在大肠癌转移以及患者生存时间相关基因上游调控区域中出现频率较高。并且CREB5基因在进化上高度保守,具有较多的可变剪切体以及与大肠癌患者生存时间密切相关。且其生存曲线显示CREB5基因在低表达时患者生存率较高,但中表达时的生存曲线与高表达时相贴近,生存率均较低,说明 CREB5基因的表达对患者生存时间影响较大。由于CREB5基因的相关文献报道很少,为了阐明其在大肠癌转移过程中可能的作用机制,本研究将大肠癌表达谱数据根据CREB5基因的表达值分为高表达组和低表达组,基于两组数据基因表达的差异情况进行相关分子事件的富集分析,富集结果显示CREB5基因高表达组参与的分子事件多与肿瘤的发生发展密切相关。由于CREB5能够与c-Jun结合成为异二聚体,且转录因子结合位点富集结果显示AP-1结合位点富集程度最高,而c-Jun为AP-1的重要组成部分,因此具有AP-1结合位点的上调基因可能同时受CREB5所调控。为了进一步筛选这些上调基因中参与了肿瘤相关信号通路的基因,将这些基因与在癌症通路富集类中起着富集作用的上调基因取交集,得到了16个基因,这16个基因所构成的分子网络相关度最高的分子功能为细胞迁移,主要涉及CSF1R、MMP9、PDGFRB、FIGF和IL6这5个基因所构成的子网络。因此这 5个基因可能是CREB5在大肠癌转移过程中所调控的关键基因。本研究通过了生物信息学方法分析了大肠癌表达谱数据,发现 CREB5可能通过调控 CSF1R、MMP9、PDGFRB、FIGF和IL6这5个基因影响大肠癌细胞的迁移(图3)。因此,CREB5可能是大肠癌转移相关信号调控网络中的关键调控点,靶向此蛋白的药物有望能够在一定程度上抑制大肠癌转移。
图3 CREB5调控大肠癌转移机制模式图
[1]Subramanian A,Kuehn H,Gould J,Tamayo P,Mesirov JP.GSEA-P: a desktop application for gene set enrichment analysis. Bioinformatics,2007,23(23): 3251–3253.
[2]齐鲁,丁彦青. 大肠癌转移相关基因表达调控的生物信息学分析. 基因组学与应用生物学,2013,(1): 83–90.
[3]Tusher VG,Tibshirani R,Chu G. Significance analysis of microarrays applied to the ionizing radiation response.Proc Natl Acad Sci USA,2001,98(9): 5116–5121.
[4]Tonon L,Touzet H,Varre JS. TFM-Explorer: mining cis-regulatory regions in genomes. Nucleic Acids Res,2010,38(S2): W286–W292.
[5]Qi L,Ding YQ. Screening and regulatory network analysis of survival-related genes of patients with colorectal cancer.Sci China Life Sci,2014,57(5): 526–531.
[6]齐鲁,丁彦青. 大肠癌患者生存相关基因的筛选与网络调控分析. 中国科学(生命科学),2014,44(5): 481–487.
[7]Zu YL,Maekawa T,Nomura N,Nakata T,Ishii S. Regulation of trans-activating capacity of CRE-BPa by phorbol ester tumor promoter TPA. Oncogene,1993,8(10):2749–2758.
[8]Nomura N,Zu YL,Maekawa T,Tabata S,Akiyama T,Ishii S. Isolation and characterization of a novel member of the gene family encoding the cAMP response element-binding protein CRE-BP1. J Biol Chem,1993,268(6): 4259–4266.
[9]Jenuth JP. The NCBI. Publicly available tools and resources on the Web. Methods Mol Biol,2000,132:301–312.
[10]Barrett T,Troup DB,Wilhite SE,Ledoux P,Rudnev D,Evangelista C,Kim IF,Soboleva A,Tomashevsky M,Edgar R. NCBI GEO: mining tens of millions of expression profiles--database and tools update. Nucleic Acids Res,2007,35(S1): D760–D765.
[11]Kanehisa M,Goto S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res,2000,28(1): 27–30.
[12]Hess J,Angel P,Schorpp-Kistner M. AP-1 subunits: quarrel and harmony among siblings. J Cell Sci,2004,117(Pt 25): 5965–5973.
[13]Mostafavi S,Ray D,Warde-Farley D,Grouios C,Morris Q. GeneMANIA: a real-time multiple association network integration algorithm for predicting gene function. Genome Biol,2008,9(Suppl.1): S4.
[14]Zhang B,Kirov S,Snoddy J. WebGestalt: an integrated system for exploring gene sets in various biological contexts. Nucleic Acids Res,2005,33(S2): W741–W748.