冷 红,梁 斌,吴 斌
(西南医科大学附属医院乳腺外科,泸州 646000;*通讯作者,E-mail:wwbb129@sina.com)
乳腺癌目前已是我国女性发病率最高(16.51%)的恶性肿瘤[1],目前治疗主要是以手术、化疗、内分泌治疗、放疗及靶向治疗为一体的综合治疗,其中雌激素受体、孕激素受体和人表皮生长因子受体2均为阴性的三阴性乳腺癌因预后差、复发率、转移率和死亡率高、治疗手段缺乏而受到广泛关注。大量研究显示肿瘤的发生为多基因参与和多阶段协同作用的结果,而基因芯片作为一种能大规模、高通量检测生物遗传信息的技术,能检测和分析不同组织的差异表达基因。因此本研究利用公共基因芯片数据库(GEO)中的三阴性乳腺癌与非三阴性乳腺癌的基因芯片数据,对三阴性乳腺癌的相关基因进行挖掘及生物信息学分析。
从美国国立生物技术信息中心(NCBI)的公共基因芯片数据库(GEO)[2,3]下载编号GSE76275基因芯片数据,该芯片数据包含了198个三阴性乳腺癌样本数据(GSE76124),67个非三阴性乳腺癌样本数据(GSE7674),并均由GPL570实验平台(Affymetrix公司的HG-U133-Plus-2芯片)进行分析。
1.2.1 数据处理及差异基因分析 利用R统计软件对原始数据进行分析和处理。用RMA算法预处理样本,后使用limma软件包对三阴性乳腺癌及非三阴性乳腺癌基因芯片表达谱数据进行分析和处理,获得两者的差异表达基因。
1.2.2 GO功能富集分析及KEGG通路富集分析 应用DAVID在线数据库[3]中的GO功能及KEGG通路富集分析模块对筛选出的差异表达基因进行分析。其中GO功能分析包括细胞成分(cellular component,CC)、生物过程(biological process,BP)和分子功能(molecular function,MF)分析。
1.2.3 构建差异表达基因的蛋白-蛋白相互作用网络(PPI) 应用STRING在线数据库[4]对差异表达基因进行PPI分析。
1.2.4 Kaplan-Meier生存分析 应用Kaplan-Meier绘图仪生物信息学分析平台对部分差异基因进行生存分析。
根据设定的参数(差异表达倍数>1.0,P<0.05),用R软件对两组样本进行分析处理后,共发掘出298个差异表达基因,其中上调差异基因121个,下调差异基因177个(热图见图1,其中绿色为低表达基因,红色为高表达基因;火山图见图2,其中虚线上方红点为上调基因,下方红点为下调基因)。
绿色:基因低表达;红色:基因高表达
图2 差异表达基因火山图Figure 2 Volcano plot of the differentially expressed genes
通过DAVID在线数据库分析后,DEGs参与的主要生物过程有:有丝分裂、细胞增殖、正向调控细胞增殖、负向调控血小板源性生长因子受体信号通路、树突发育、肾脏发育;细胞成分有:细胞外隙、细胞外基质外来体、刷状缘膜、细胞外基质;分子功能有:钙离子结合、蛋白质同源二聚作用、受体结合、RNA聚合酶Ⅱ核心启动子序列特异性DNA结合(见表1)。
通过DAVID在线数据库分析,DEGs的信号通路主要集中在PPAR信号通路,富集基因数5,P=0.011 477。
表1 差异表达基因的GO功能分析,包括生物过程,细胞成分,分子功能Table 1 Gene ontology(GO) function analysis of differentially expressed genes involved in biological process, cellular component and molecular function
将差异表达基因上传至STRING在线数据库分析它们之间的相互作用,将结果导入Cytoscape,总共发现400组蛋白存在作用关系(见图3),运用MCODE插件得出三阴性与非三阴性乳腺癌相关差异表达基因编码的蛋白质之间的相互作用主要集中在21个蛋白,FOXM1、RAD51AP1、CDCA2、EZH2、NDC80、PRC1、PTTG1、ASPM、TTK、ANLN、BUB1B、CDC20、TPX2、CEP55、MELK、NCAPD2、DLGAP5、NUF2、MCM10、FAM64A、SKA1,均为上调基因所编码(见图4),而其他基因所编码的蛋白质之间相互作用较分散。
通过既往研究,将编码中心节点蛋白基因中NCAPD2、NUF2、SKA1、NDC80四个与乳腺癌研究较少的基因上传至Kaplan-Meier绘图仪生物信息学分析平台,结果显示这些基因的高表达与乳腺癌患者的不利总体存活相关(见图5)。
本研究从GEO数据库里获取三阴性及非三阴性乳腺癌的基因表达谱芯片数据,经过R语言处理数据,并结合DAVID、STRING、Kaplan-Meier等生物信息学方法对二者的差异表达基因进行分析,最后得到FOXM1、RAD51AP1、CDCA2、EZH2、NDC80、PRC1、PTTG1、ASPM、TTK、ANLN、BUB1B、CDC20、TPX2、CEP55、MELK、NCAPD2、DLGAP5、NUF2、MCM10、FAM64A、SKA1等核心基因,这些基因均为表达上调基因,主要参与正向调控细胞增殖,细胞增殖,有丝分裂,RNA聚合酶Ⅱ核心启动子序列特异性DNA结合,蛋白质同源二聚作用,树突发育调控及钙离子结合等生物功能。通过既往研究显示:FOXM1与三阴性乳腺癌细胞的增殖和侵袭性有关[5];EZHZ与三阴性乳腺癌细胞的迁移、侵袭性有关[6];FAM64A与BIRC5,CENPA被认为与三阴性乳腺癌的预后有关[7];MELK[8,9]、ASPM[10]、TTK[11,12]被认为可作为三阴性乳腺癌治疗靶点,且TTK考虑与三阴性乳腺癌的生存具有相关性[13];PRC1与FGF18,BCL2,MMP9及SERF1A可联合使用以评估乳腺癌预后[14];PTTG1能促进乳腺癌细胞生长[15]或可作为浸润性导管癌增殖指标[16],亦考虑与乳腺肿瘤分级[17]及乳腺癌内分泌治疗耐药[18]相关。ANLN[19]、TPX2[20]、CEP55[21]与乳腺癌细胞的增殖、迁移相关,且ANLN亦与患者的生存、预后相关[22,23],TPX2与乳腺癌转移相关[24];RAD51AP1考虑参与乳腺癌的形成[25];BUB1B被认为可应用于前哨淋巴结活检[26];CDC20与乳腺癌[27]、口腔鳞癌[28]及胃癌[29]等的预后相关,且可能与人体包括乳腺癌在内的多种肿瘤分期有关[30];CDCA2[31]可能参与肿瘤形成,DLGAP5与CDK1、MELK、NUSAP1及RRM2一起被认为与接受他莫昔芬治疗的雌激素受体阳性患者的预后有关[32];MCM10被认为是乳腺癌干细胞的特异基因[33];NCAPD2、NUF2、SKA1、NDC80等与乳腺肿瘤研究较少,但其高表达考虑与乳腺癌患者的不利总体存活相关,其中NUF2[34,35]、SKA1[36]、NDC80[37,38]等考虑与胰腺癌、肝癌、前列腺癌、直肠癌等肿瘤的生长有关,而NCAPD2与肿瘤研究甚少,有相关研究显示NCAPD2与帕金森病及小头畸形相关。NCAPD2,非SMC缩合蛋白I复合物亚基2,位于染色体12p13.31,在淋巴结、骨髓、脂肪等组织中普遍表达,其是参与染色体浓缩的大蛋白质复合物。其在三阴性乳腺癌中的功能角色尚无明确研究。
图中黄色为文中所说的21个中心节点蛋白,蓝色为剩余的蛋白
图4 蛋白互作网络的中心节点蛋白Figure 4 Central node protein of the protein-protein interaction network
图5 NCAPD2、NUF2、SKA1、NDC80对乳腺癌患者的生存分析Figure 5 Effect of NCAPD2,NUF2,SKA1,NDC80 on overall survival of breast cancer patients
综上所述,在对本文筛选到的差异基因如NCAPD2等这些分子生物功能及信号通路的进一步研究中,对三阴性乳腺癌的诊治将会有更多新的发现,虽然其在三阴性乳腺癌中的价值仍需通过大量的临床病例验证和体内外实验研究证实,但本文分析结果也为进一步的实验研究提供了重要的线索和参考信息。