王宏坤 郑沛鸣 郑绘霞
乳腺癌是全球发病率最高的女性恶性肿瘤,在我国每年约有30 万人确诊乳腺癌,而因乳腺癌死亡人数超过7 万人,死亡原因为发生侵袭、复发、转移或并发症等。乳腺癌具有肿瘤类型多样性及异质性的特点,虽然目前已有多种治疗手段,如针对HER-2 靶向药赫赛汀(Herceptin),但HER-2 阳性患者预后较差,有些患者即使应用赫赛汀治疗,效果并不理想。而相比HER-2 阳性乳腺癌,三阴性乳腺癌(Triple negative breast cancer,TNBC)则是预后最差的乳腺癌类型,目前为止尚无能够针对性治疗TNBC 的靶向药物,因此有必要探索乳腺癌新的治疗靶点和/或预后分子生物标志物,改善其在治疗及预后评估方面的不足。本研究旨在通过对TCGA、CPTAC 及HPA 数据库进行分析,探讨上皮细胞转化序列2(Epithelial cell transforming sequence 2,ECT2)在乳腺癌中的表达及临床意义。
1.1 数据来源通过访问TCGA 数据库门户网站cBioPortal(http://www.cbioportal.org)分析乳腺癌差异表达基因,访问HPA 网站(https://www.proteinatlas.org)分析ECT2 蛋白表达相关数据,访问UALCAN 网站(http://ualcan.path.uab.edu)分析CPTAC 蛋白组学数据库和TCGA 数据库中ECT2 表达与临床病理参数的关系,访问GEPIA2 工具网站(http://gepia2.cancer-pku.cn/#index)及Kaplan-Meier Plotter工具网站(https://kmplot.com/analysis)分析TCGA 数据库中ECT2 表达与乳腺癌生存期的关系。
1.2 数据分析方法
1.2.1 cBioPortal 分析TCGA 数据库 在cBioPortal主页选择乳腺癌TCGA 数据库,选择mRNA 得到乳腺癌火山图,找到ECT2 并标注,再次输入ECT2 后供本研究使用样本有996 例(带有突变和CNA 数据),找到癌基因图谱(Oncoprint),应用自带GISTIC分析其基因拷贝数改变并下载相关结果图。
1.2.2 UALCAN 分析TCGA 数据库 在UALCAN 主页面选择乳腺癌(第二次选择TNBC),在250 个常见基因中找到有ECT2 的热图,点击ECT2 得到ECT2在乳腺癌与正常组织中对照的表达图,下载相应结果图。点击下方菜单直接链接到CPTAC 数据库,分析ECT2 蛋白在乳腺癌中的表达情况,下载结果图,以P<0.05 为有统计学意义。
1.2.3 HPA 数据库分析ECT2 表达 打开HPA 主页,搜索框输入ECT2,找到ECT2 在正常组织和乳腺癌中的表达情况,下载相关结果图。
1.2.4 GEPIA2 和Kaplan-Meier Plotter 分 析TCGA 数 据库中ECT2 表达与乳腺癌生存期的关系 在GEPIA2和Kaplan-Meier Plotter 分析网站,找到Survival Analysis,输入ECT2,调整参数,下载Kaplan-Meier生存曲线图,包括总生存期(Overall survival,OS)和无病生存期(Disease-free survival,DFS)。
2.1 乳腺癌中差异表达基因分析cBioPortal 分析TCGA 数据库中乳腺癌差异表达基因共19 701个,高表达基因3 394 个,其中有意义的基因1 445个,将P 值由低到高排序,前20 个基因分别为ACTL6A、PDCD10、NFIL3、FNDC3B、MRPL47、MYNN、KPNA4、USB1、YEATS2、TES、PSAT1、CBX2、ECT2、NDUFB5、MFN1、GCNT2、TFRC、ATP11B、DESI2、MSANTD3,通过查阅文献,筛选出第13 个基因ECT2 有较多样本例数及文献支撑,具有一定的研究价值,由图1A 可见ECT2 在乳腺癌中的表达差异明显。ECT2 基因三维立体图及结构域分布图(见图1B、C)显示目前其突变位点较少,仅有3 处错义突变和2 处截断突变。GISTIC 分析结果显示,ECT2 改变以扩增为主(见图1D),其中34 例发生改变,发生率为3.4%(34/996)。对发生改变与未发生改变ECT2 mRNA 表达进行统计学分析,结果显示二者之间比较有显著性差异(P<0.001),见图1E。分析不同类型乳腺癌ECT2基因突变情况(见图1F),结果显示乳腺浸润性导管癌中扩增和获得频率最高,其余类型较低,依次为乳腺浸润性小叶癌、乳腺浸润性癌、乳腺浸润性混合型黏液癌、浸润性乳头状癌、化生性乳腺癌。
图1 乳腺癌差异表达基因
2.2 ECT2 基因在乳腺癌中表达热图分析UALCAN分析热图显示前250 个基因在乳腺癌中的表达,上部分为过表达基因热图,下部分为低表达基因热图,过表达基因热图中找到ECT2 表达的图谱下载,然后再次打开TNBC 热图,找到ECT2 所在热图,见图2A、B,图中颜色由蓝变红,逐渐呈现过表达趋势。从图2C、D 中可知TNBC 样本数高于HER-2阳性样本数,而从颜色结果看,TNBC 样本中ECT2表达阳性率高于HER-2 阳性样本。
图2 乳腺癌中ECT2 表达热图
2.3 HPA 数据库分析ECT2 表达HPA 数据库分析显示ECT2 在大多数正常组织中均有不同程度的表达,包括脑皮质、甲状腺、消化道、肝胆胰、骨髓及免疫细胞(见图3A),其中在正常乳腺组织中的平均表达量为11.8TPM;ECT2 在肿瘤中的表达主要见于肺癌、结直肠癌、肝癌、乳腺癌、宫颈癌、卵巢癌以及胶质瘤和恶性黑色素瘤等(见图3B),其中乳腺癌样本1 075 例,平均表达量为9.3FPKM,但未显示具体的乳腺癌亚型表达情况。
图3 ECT2 在正常组织及泛癌中的表达情况
2.4 CPTAC 数据库分析ECT2 蛋白在乳腺癌中的表达CPTAC 蛋白组学数据库样本例数较少,选择正常组织18 例,原发乳腺癌125 例,统计学分析显示,ECT2 蛋白表达在两者之间比较有显著性差异(P<0.001),见图4A;125 例肿瘤组织中luminal 型64 例,HER-2 阳性型10 例,TNBC 型16 例,ECT2在这三种类型中的表达显著高于正常组织,尤其在TNBC 中表达差异更显著(P<0.001),见图4B;组织学分型比较结果显示,仅浸润性导管癌与正常组织比较有显著性差异(P<0.001),见图4C,其他类型与正常组织比较无显著性差异(P>0.05);乳腺癌分期比较结果显示,样本中未发现Ⅳ期患者,ECT2 在Ⅱ期和Ⅲ期中的表达显著高于正常组织(P<0.001),见图4D,而Ⅰ期与正常组织比较无显著性差异(P>0.05)。
图4 ECT2 蛋白在正常组织及乳腺癌中的表达
2.5 UALCAN 分析TCGA 数据库中ECT2 在乳腺癌中的表达对TCGA 数据库进行分析,结果显示ECT2 在114 例正常乳腺组织和1 097 例原发乳腺癌中比较,有显著性差异(P<0.001),见图5A;1 097例中luminal 型566 例,HER-2 阳性型37 例,TNBC型116 例,这三种类型与正常组织ECT2 表达比较均有显著性差异(P<0.001),见图5B;组织学亚型比较结果显示,除例数较少的化生性癌和特殊类型癌外,其余亚型与正常组织比较均有显著性差异(P<0.001),见图5C;由于ECT2 在TNBC 中表达较高,对TNBC 各亚型[基底样亚型BL1 和BL2、免疫调节亚型(IM)、管腔雄激素受体亚型(LAR)、间充质干细胞样亚型(MSL)、间充质亚型(M)以及不确定的亚型(UNS)]与正常组织中ECT2 表达进行比较,结果显示均有显著性差异(P<0.05),见图5D。从临床病理参数结果分析,ECT2 表达与年龄分布、绝经期前后、淋巴结转移及肿瘤分期均有关(P<0.001),见图5E~H。
图5 ECT2 在正常组织及乳腺癌中的表达
2.6 ECT2 基因表达与乳腺癌生存期关系分析通过GEPIA2 分析TCGA 数据库中ECT2 表达与乳腺癌生存期的关系,共1 070 例乳腺癌,将ECT2 表达分为高表达和低表达,并将数据整合,高、低表达的患者设为相同例数,均为535 例,由此得出OS 和DFS 曲线图,结果显示ECT2 表达与乳腺癌患者OS及DFS 均无相关性(P>0.05),见图6A、B。
图6 ECT2 高表达及低表达乳腺癌患者生存曲线
经过以上分析发现,生存曲线均有多个交叉,因此又采用Kaplan-Meier Plotter 网站再次进行logrank 检验的生存分析,见图7A、B。经过log-rank检验的生存曲线显示,ECT2 基因表达与乳腺癌OS(ECT2 高表达939 例,低表达940 例)及DFS(ECT2高表达1382 例,低表达1383 例)均有关,ECT2 高表达患者生存期显著缩短。
图7 Log-rank 检验ECT2 高表达及低表达乳腺癌患者生存曲线
癌症基因组图谱(TCGA)是由美国国家癌症研究所和国家人类基因组研究所共同合作的研究项目。TCGA 采用基因组测序技术,将人类全部癌症的基因组变异图谱绘制出来,用以全面评估系统探索人类癌症所涉及的整个基因组变化谱的可行性。该项目对2 万多种原发癌症进行了分子表征分析,并对常见的33 种癌症类型匹配了正常对照。TCGA 数据库样本量大,数据质量高,误差小,组学丰富,每个肿瘤样本均有全面的遗传数据记录,包括DNA 序列,转录信息(RNA-seq、基因芯片、小RNA-seq),表观遗传修饰(甲基化)及相关信息,是研究人类肿瘤的重要工具[1~3]。
HPA 是利用转录组学和蛋白质组学技术研究人类不同组织和器官中的蛋白表达情况,在RNA和蛋白水平应用免疫检测技术(包括免疫印迹、免疫荧光和免疫组化-组织芯片)详细检测了每一种蛋白在48 种人类正常组织、20 种肿瘤组织和64 个细胞系中的表达情况,数据还在不断更新中。目前已经提供约2.6 万种人类蛋白质的组织和细胞数据。HPA 中的图像注释可以捕捉不同细胞系、组织或组织状态下亚细胞位置的变化,应用HPA 数据库可以非常方便地查询和研究蛋白编码基因在正常组织/器官和肿瘤组织中的表达情况,也可以查询基因在不同肿瘤样品中的蛋白表达情况[4],为研究基因蛋白在肿瘤中的表达提供了重要依据。
CPTAC 整合了基因组和蛋白组的数据,为从蛋白质层面进行探索和研究提供了丰富资源。它通过应用大规模蛋白质组学、基因组学数据促进对癌症分子机制的了解,包括识别蛋白质亚型、基因拷贝数的改变与蛋白质丰度的关联、蛋白翻译后修饰及与其相关的信号通路等。CPTAC 主要以自行收集公开发表的蛋白质组学测序数据和与其对应的基因组学测序数据为主,还包括部分源自TCGA项目的蛋白质组学数据,其基于质谱的蛋白质定量技术可同时比较2~8 种不同样品中蛋白质的相对含量或绝对含量。CPTAC 结合肿瘤与配对正常组织基因蛋白组学的整合分析,能够进一步阐明驱动疾病表型的基因突变,清晰阐释肿瘤病理生理学变化,为探索疾病个性化、精准化的临床治疗策略提供依据[5,6]。
尽管多数乳腺癌患者尤其是TNBC 患者采取了多种治疗策略,但仍有部分患者预后较差。越来越多的证据表明ECT2 在功能上是一种致癌因子,通过参与细胞周期的调控来促进多种癌症的发生发展,包括乳腺癌[7~9]。本研究通过多数据库多组学数据分析,筛选出ECT2 基因,从拷贝数变异、基因蛋白表达及生存分析等方面探索ECT2 在乳腺癌中的作用,为乳腺癌靶向治疗及预后分子标志物的研究提供思路,为深入研究ECT2 的作用机制及功能提供依据。cBioPortal 具有探索、可视化和分析多维度癌症基因组数据的功能,整合了癌细胞系百科全书(Cancer cell line encyclopedia,CCLE)和TCGA的数据集,本研究选取TCGA 乳腺癌数据库分析了乳腺癌差异表达基因,结果显示ECT2 基因拷贝数及mRNA 表达均存在显著性差异,并且在浸润性导管癌中表达最高,主要以扩增和获得为主。随后应用UALCAN 网站选择乳腺癌,找到前250 个基因中ECT2 的表达位置,并且与TNBC、其他乳腺癌类型及HER-2 阳性型进行比较,结果显示ECT2 在TNBC 中的表达显著高于正常组织、其他乳腺癌类型以及HER-2 阳性型。以上两种不同的分析方法均证明ECT2 为乳腺癌的差异表达基因,并且更倾向于在TNBC 中表达。对ECT2 在乳腺和其他组织中表达情况进行比较,从HPA 数据库分析结果可知,ECT2 在大多数正常组织细胞中均有不同程度的表达,在多种恶性肿瘤中同样有不同程度的表达,如肺癌、胃癌、结直肠癌、头颈部癌、卵巢癌、宫颈癌等,除在癌组织中广泛表达外,在胶质瘤及恶性黑色素瘤中也有不同程度的表达,在乳腺癌中其表达量居中,但未能显示详细的乳腺癌类型。研究显示,ECT2 广泛表达于各种组织和细胞中,包括小鼠胚胎组织、特发性肺纤维化的人肺上皮细胞、胆管癌细胞、非小细胞肺癌细胞及胶质瘤等[10~14]。由此可见,ECT2 可能是胚胎发育过程中即存在的细胞因子,正常组织及肿瘤组织中均能检测到ECT2表达,而其表达的高低可能决定了肿瘤的形成。提示这种内源性ECT2 在肿瘤形成过程中具有非常关键的促进作用。
经过TCGA 和HPA 数据库验证ECT2 在乳腺癌中的表达,本研究又对ECT2 表达与乳腺癌临床病理特征的关系进行分析。首先从CPTAC 数据库中分析ECT2 在乳腺癌中的表达,可知ECT2 在正常组织和乳腺癌中的表达有显著性差异,而且与分子分型有关,ECT2 在TNBC 中的表达与正常组织比较差异更大,其次为Luminal 型和HER-2 型,也可能与例数较少有关;组织学分型中仅浸润性导管癌与正常组织比较有差异,其余由于例数不足未发现差异性;肿瘤分期显示Ⅱ、Ⅲ期ECT2 表达均高于正常组织。这些结果均提示ECT2 表达对乳腺癌的发生发展具有一定的作用。由于CPTAC 蛋白组学数据较少,存在一定的局限性,因此又对TCGA 数据库进行了研究,选择乳腺癌进行比较分析,除得到以上结果外,还显示ECT2 表达与肿瘤分期、年龄分布、绝经期前后、淋巴结转移有关,推测ECT2不但参与乳腺癌的发生发展,还可能与乳腺癌尤其是TNBC 的预后以及靶向治疗有关。根据文献报道,除乳腺癌外,ECT2 在其他癌症中也有表达,而且ECT2 高表达患者均显示较差的预后,可能是癌症患者的独立预后指标,甚至可能成为肿瘤潜在的治疗靶点[15~18],包括胶质瘤[19]。因此对ECT2 在乳腺癌中表达与生存期的关系进行了分析,单纯GEPIA2 分析结果显示ECT2 表达与乳腺癌预后无相关性,但其中生存曲线交叉明显,表明存在较多混杂因素,又应用Kaplan-Meier Plotter 网站进行去除混杂因素的log-rank 检验分析,结果显示ECT2高表达患者与低表达患者相比,OS 及DFS 均较短,表明ECT2 高表达患者预后较差。实际上仅使用基因组数据预测肿瘤预后不够全面,还需结合蛋白质组学数据,提高对癌症病因和进展的认识,从而改善对肿瘤预后的评估。本研究从各数据库中获知ECT2 蛋白表达研究甚少,目前尚未显示ECT2 蛋白表达与乳腺癌预后的关系,因此在蛋白组学方面还需要更多的研究探索。
本研究应用多个数据库、多个分析工具进行多组学高通量分析,发现ECT2 在乳腺癌中呈差异表达,在浸润性导管癌中表达较高,在TNBC 中相对高表达,并且与肿瘤分期、年龄分布、绝经期前后及淋巴结转移等临床病理参数有关,是乳腺癌发生发展中的促进因素,而且ECT2 高表达的患者预后较差,为乳腺癌的靶向治疗及预后评估提供了参考依据。通过本研究结果可从分子水平了解ECT2 在乳腺癌中的表达情况,为进一步的机制研究提供理论支持。