毛昀,蔡亚芳,谢飞宇,薛鹏,朱世杰
1 中国中医科学院望京医院,北京100102;2 北京中医药大学研究生院
乳腺癌是全球女性发病率最高的恶性肿瘤,全球新诊断为乳腺癌患者人数占女性新发恶性肿瘤的24.2%,病死率占女性恶性肿瘤病死率的15%[1]。早期乳腺癌常常因症状不明显而被忽视,大部分患者在确诊时为中晚期,出现骨、肺、脑等部位的转移[2]。研究[3]显示,溶骨性骨转移为晚期乳腺癌的常见并发症,多伴有疼痛、病理性骨折等骨相关事件,严重影响患者生活质量。目前对晚期乳腺癌的转移机制有了一定的探索。研究[4]发现,乳腺癌细胞分泌的Dkk1蛋白表达水平的高低能够调控肿瘤细胞转移到不同的靶器官,Dkk1蛋白处于高表达状态时肿瘤细胞倾向于转移到骨,而Dkk1蛋白处于低表达状态时肿瘤细胞倾向于转移至肺。近年来,生物信息学广泛应用于基因组学的研究,这有助于探索恶性肿瘤的发病机制。本研究收集GEO数据库中乳腺癌相关数据,利用生物信息学对相关基因进行筛选并构建转移性乳腺癌患者的预后预测模型,为乳腺癌转移患者的个体化治疗策略提供依据。
1.1 转移性乳腺癌组织基因表达数据集的选取与收集 利用NCBI平台的GEO数据库(http://www.ncbi.nlm.nih.gov/geo/)进行基因芯片筛选,关键词设置为“转移性乳腺癌”,下载有关数据集芯片GSE124648[5]。目标芯片纳入标准为数据集应有正常乳腺组织标本、Ⅰ~Ⅲ期乳腺癌组织标本以及Ⅳ期转移性乳腺癌组织标本,并有生存状态和生存时间等数据,排除细胞株和动物实验数据。GSE124648整合GSE124647、GSE129551、GSE124646等多个数据集的数据,并已进行标准化,包含10例正常乳腺组织标本、138例Ⅰ~Ⅲ期乳腺癌原发灶组织(HR+/HER2-)标本和140例Ⅳ期转移性乳腺癌组织(HR+/HER2-)标本。140例Ⅳ期乳腺癌女性患者的平均年龄为55(32~82)岁,平均生存时间为24(0.16~126)个月,包含骨、肝、皮肤、肺、软组织等部位的转移。
1.2 转移性乳腺癌组织差异表达基因(DEGs)的筛选及基因本体(GO)功能富集、京都基因和基因组百科全书(KEGG)信号通路分析 确定目标芯片后,利用在线工具GEO2R[6]分别寻找转移性乳腺癌组织与乳腺癌原发灶组织、转移性乳腺癌组织与正常乳腺组织之间的DEGs,利用Venny 2.1在线工具筛选上述DEGs的交集,找出转移性乳腺癌组织特异性DEGs。筛选标准为:错误发现率(FDR)<0.01,|log FC|>1.5(FC,差异倍数),并将目标基因探针名称转化为标准基因名称。通过DAVID[7](https://david.ncifcrf.gov/)网站在线分析转移性乳腺癌组织特异性DEGs的基因簇和信号通路,以人源基因为背景进行GO功能富集、KEGG信号通路分析,明确转移性乳腺癌作用位点和信号通路。
1.3 转移性乳腺癌患者预后相关关键基因的筛选 将140例Ⅳ期乳腺癌患者数据集随机分为训练集(72例)和测试集(68例)两个队列,训练集用于构建转移性乳腺癌患者的预后预测模型,测试集用于检验预后预测模型的预测效能。将转移性乳腺癌组织DEGs结合72例训练集样本中的生存数据通过R语言“survival”函数包进行单因素COX分析,筛选出与患者预后显著相关的基因。将单因素COX分析得到的结果纳入LASSO回归分析,LASSO回归通过构建惩罚函数对自变量的回归系数进行压缩控制,实现基因数据的降维,进而获得与转移性乳腺癌患者预后相关度更高的基因。随后将LASSO回归分析得到的基因通过多因素COX分析,得到与患者预后相关的关键基因。
1.4 转移性乳腺癌患者预后预测模型的构建及验证
1.4.1 训练集转移性乳腺癌患者预后预测模型的构建 通过LASSO&COX回归分析确定每个与预后相关关键基因的回归系数,从而构建出训练集转移性乳腺癌患者预后预测模型[8]:风险值=β1Exp1+β2Exp2+……+βnExpn。其中Exp为基因表达量,β指基因的多因素COX回归分析中的回归系数,N为与患者预后相关的基因数量。根据公式计算出训练集每例患者的风险值,然后取风险值的中位数为截断值,依据截断值将训练集患者区分为高风险组和低风险组,采用R语言“survival”包进行高、低风险组的Kaplan-Meier生存曲线分析,以“survival ROC”包绘制ROC曲线对预后预测模型进行预测效能评价。
1.4.2 测试集转移性乳腺癌患者预后预测模型的验证 为验证预后预测模型的准确性,本研究以训练集构建的预后预测模型计算出测试集(68例)每例患者的风险值,取风险值的中位数为截断值,将测试集患者分为高风险组和低风险组,采用R语言“survival”包进行高、低风险组的Kaplan-Meier生存曲线分析,以“survival ROC”包绘制ROC曲线对预后预测模型进行预测效能评价。
2.1 转移性乳腺癌组织DEGs的筛选及GO功能富集、KEGG信号通路分析结果 转移性乳腺癌组织与乳腺癌原发灶组织之间存在421个DEGs,转移性乳腺癌组织与正常乳腺组织之间存在1114个DEGs,其中287个DEGs为两者共表达基因,属于转移性乳腺癌组织DEGs,包含29个高表达基因、258个低表达基因。|log FC|最大的30个基因分别为HBA、HBG、HBB、ALAS2、HBD、GAS1、CTGF、S100A8、KRT14、MFAP5、COL6A1、FBN1、SPON1、NID1、PPBP、IGH、EMILIN1、DKK3、ADAM12、DCN、COL5A2、SERPINE1、COL10A1、IGFBP7、POSTN、COL6A2、FBLN1、COL3A1、COL4A1和LAMB1。GO功能富集结果显示,转移性乳腺癌组织特异性DEGs在生物学过程中包括胶原蛋白分解代谢过程、血管生成、细胞黏附、细胞外基质分解、成纤维细胞增殖的调节、骨化等,在细胞组分中包括细胞外基质、胞外区、细胞外间隙、内质网腔等,在分子功能中包括细胞外基质结构成分、与整合素绑定、与钙离子结合、与细胞外基质结合、与胶原结合等。KEGG信号通路分析结果显示,DEGs主要涉及到细胞增殖、迁移、细胞外基质、免疫炎症等方面,如黏着斑、细胞外基质及受体相互作用、PI3K-Akt信号通路、癌症的途径、p53信号通路、雌激素信号通路、MAPK信号通路等。
2.2 转移性乳腺癌患者预后相关关键基因的筛选结果 训练集的单因素COX回归分析结果显示,DEGs中有15个基因可能与患者预后相关,分别为PTPRB、MET、ZBTB20、LHFP、LAMA4、RNF144A、RARRES1、GEM、MMP7、NFIB、NFAT5、OLFML3、EGFR、SERPINB5和MAP4。随后LASSO、多因素COX回归分析发现,EGFR、GEM、PTPRB、RARRES1、LAMA4、NFAT5、LHFP等7个基因是转移性乳腺癌患者预后相关关键基因(P<0.05),可作为独立预后因素,其中LAMA4、LHFP基因是乳腺癌患者转移的保护因素,而EGFR、GEM、PTPRB、RARRES1、NFAT5基因是转移性乳腺癌患者的危险因素。
2.3 转移性乳腺癌患者预后预测模型的构建及验证结果
2.3.1 训练集转移性乳腺癌患者预后预测模型的构建结果 通过LASSO&COX回归模型构建由7个预后相关关键基因组成的转移性乳腺癌患者预后预测模型:风险值=(0.279×EGFR)+(0.704×GEM)+(0.326×PTPRB)+(0.138×RARRES1)+(-0.570×LAMA4)+(0.262×NFAT5)+(-0.555×LHFP)。根据公式计算出训练集每例患者的风险值,取风险值的中位数1.22为截断值,将72例患者分为高风险组(风险值>1.22,36例)和低风险组(风险值<1.22,36例)。Kaplan-Meier生存曲线分析结果显示,高风险组患者的中位生存时间明显低于低风险组患者,分别为18.22个月和49.97个月(P<0.001),见图1。ROC对预后预测模型3年生存率的预测效能评价结果显示,转移性乳腺癌患者3年生存率的曲线下面积为0.787,见图2,表明该模型可用于乳腺癌转移患者预后的评估。
图2 ROC对训练集患者预后预测模型3年生存率的预测效能
图1 训练集转移性乳腺癌转移患者高、低风险组Kaplan-Meier生存曲线
2.3.2 测试集转移性乳腺癌患者预后预测模型的验证结果 测试集68例患者中,高风险组38例、低风险组30例。Kaplan-Meier生存曲线分析结果显示,高风险组患者的中位生存时间明显低于低风险组患者,分别为17.48个月和47.34个月(P<0.05)。ROC对预后预测模型3年生存率的预测效能评价结果显示,转移性乳腺癌患者3年生存率的曲线下面积为0.785,表明该模型在乳腺癌转移患者预后评估中具有良好的预测效能。
乳腺癌的转移是一个复杂的过程,可通过Paget的“种子与土壤”[9]理论进行阐述:肿瘤细胞在肿瘤组织局部侵袭、渗透入血管,随之进入循环系统和/或淋巴细胞播散,渗入远隔器官或组织,导致微转移灶的发生,最终出现一系列转移瘤的症状和体征,分子机制涉及上皮细胞间充质转化、细胞外基质降解、组织缺氧、血管生成等多个环节。
本研究通过GEO数据库检索获得GSE124648数据集,分析获得287个乳腺癌转移相关的DEGs,包含编码基质蛋白的基因(COL1A2、COL15A1、COL11A1等)、趋化因子及其受体基因(CXCL12、CXCL14、CXCR2等)、基质金属蛋白酶基因(MMP2、MMP7、MMP14等),通过GO功能富集和KEGG信号通路分析发现,DEGs涉及的作用机制包括乳腺癌细胞增殖和迁移、细胞外基质调节降解、血管生成等方面。在细胞增殖和迁移方面,趋化因子在转移形成中具有重要作用,如CXCL12促进肿瘤细胞向靶向器官归巢,而骨及骨髓系统表达CXCR4,CXCL12/CXCR4轴协同促进乳腺癌细胞种植于骨,肿瘤细胞经历定植、休眠、再活化、增殖与侵袭等四个阶段,加速骨溶解与骨吸收过程,进入“骨恶性循环”状态[10]。本研究亦发现,多个趋化因子及其受体基因呈异常表达状态。此外,最近研究[11]显示,E-钙黏蛋白在乳腺癌的转移过程中具有重要作用,在不同情况下扮演不同的角色。在乳腺癌早期,E-钙黏蛋白的缺乏有利于癌细胞的增殖,促进肿瘤在局部快速生长,但转移能力较弱;而转移瘤或循环肿瘤细胞常高表达E-钙黏蛋白,其作用机制为E-钙黏蛋白能够限制活性氧介导的细胞凋亡作用,促进癌细胞的存活,从而加速浸润性导管癌的转移进程。细胞外基质是肿瘤组织的重要组成部分,包含成纤维细胞(CAF)、脂肪细胞等,而肿瘤细胞亦分泌各类生长因子,两者相互影响促进乳腺癌细胞的生长、侵袭和转移[9]。研究[12,13]显示,乳腺癌组织中CAF高表达的MMP-9通过激活TGF-β/SMAD通路显著增强癌细胞的侵袭性;亦能够通过高表达MMP-2、MMP7等基因直接降解细胞外基质,从而促进乳腺癌细胞侵入血液和淋巴管系统等。
本研究发现,EGFR、GEM、PTPRB、RARRES1和NFAT5的表达水平与预后呈负相关,属于乳腺癌转移的危险因素。EGFR是存在于细胞膜表面的酪氨酸激酶受体,在乳腺癌转移过程中占有重要地位[14];15%~30%乳腺癌患者中存在EGFR过表达的现象,这部分患者预后较差[15]。GEM是在人类外周血T细胞中被发现的小GTP结合蛋白,能够影响肌动蛋白的细胞骨架重塑和细胞的黏附功能、导致黏着斑数量的减少[16]。研究[17]表明,GEM在膀胱癌和神经母细胞瘤中呈异常表达状态。在恶性肿瘤中,PTPRB的过表达能够减少波形蛋白的分泌、促进E-钙黏蛋白的表达,并有利于肿瘤细胞的上皮间充质转化,从而促进肿瘤的侵袭和转移,亦能够诱导新生血管的形成[18]。RARRES1在三阴性乳腺癌中是抑癌基因,但在部分乳腺癌患者中呈高表达状态,并与较差的临床结局存在相关性,其机制可能是通过促进致癌基因Axl的表达,达到促进乳腺癌的生长和侵袭的目的[19,20]。活化T 细胞核因子(NFAT)家族包括NFAT1、NFAT2、NFAT3、NFAT4和NFAT5,能够促进肿瘤的发生、血管形成等,在浸润性导管癌中过表达的主要是NFAT1和NFAT5两种亚型,其中NFAT5够调节乳腺癌上皮细胞的侵袭、迁移。本研究发现,LAMA4和LHFP的表达水平与患者的预后呈正比,发挥着保护作用。研究[21]显示,LAMA4广泛分布于间充质来源的组织和某些上皮基底部,过表达的LAMA4预示着ER阴性患者的无复发生存率较差,但在HR+/HER2-乳腺癌人群中的研究较少。本研究结果表明,LAMA4是保护性因素,该结论尚需进一步实验验证。关于LHFP与肿瘤的相关性研究较少。有研究[22]指出,LHFP是HMGIC在脂肪瘤中的易位伴侣基因。
本研究通过LASSO&COX回归模型分析287个DEGs与转移性乳腺癌患者预后的相关性,通过训练集构建了由7个基因组成的预后预测模型。依照该模型计算每例患者的风险值,发现风险评分越高的患者预后越差,并成功地在训练集中将乳腺癌转移患者分为高风险组和低风险组。采用Kaplan-Meier生存曲线分析的结果表明,高风险组患者中位生存时间明显低于低风险组患者;而训练集的3年生存率AUC为0.787亦表明该模型可用于乳腺癌转移患者预后的评估,该点同样在测试集中得到证实,说明该模型具有较好的预测效能。
综上所述,本研究通过GEO数据库中的芯片数据深入挖掘DEGs,探索相关基因在转移性乳腺癌发生过程中的作用,并筛选出EGFR、GEM、PTPRB、RARRES1、LAMA4、NFAT5、LHFP等7个基因与患者的预后具有密切关系,基于上述7个基因构建的预后预测模型能够为晚期乳腺癌患者的个体化治疗策略提供一定依据。