徐 鹤 徐剑英 史文杰
(1 江苏省徐州市第一人民医院甲乳外科,徐州市 221005,电子邮箱:553683567@qq.com;2 中山大学肿瘤防治中心肿瘤内科,广东省广州市 510060;3 广西中医药大学附属桂林市中医医院乳腺科,桂林市 541002)
尽管乳腺癌早期筛查和治疗的技术在不断进步,但乳腺癌仍是全球女性癌症死亡的主要原因[1]。三阴性乳腺癌(triple negative breast cancer,TNBC)发病率占所有乳腺癌发病率的12%~17%[1],与非TNBC相比,TNBC缺乏特异性的雌激素受体、孕激素受体以及人表皮生长因子受体2(human epidermal growth factor receptor 2,HER2)受体,这使TNBC患者使用传统化疗方案后临床获益收效甚微[2]。因此,寻找积极有效的生物学靶点是治疗TNBC的关键。
2010年,Prat等[3]进行基于基因表达谱的TNBC聚类分析,并鉴定出了TNBC的claudin-low分子亚型。随后,2011年Lehmann等[4]在此基础上进一步分析发现TNBC可分为6种亚型,包括基底细胞1型和2型、免疫调节亚型、间充质型、间充质-干细胞型以及管腔/雄激素受体(luminal androgen receptor,LAR)亚型,进一步开发和应用针对6种亚型的靶向药物后,TNBC患者的临床预后得到了明显提升。LAR亚型作为TNBC的亚型之一,较其他亚型具有较为满意的临床预后。然而,由于肿瘤本身的异质性,尽管研究者已经尝试开发多种靶向药物,但是将这些药物应用于LAR亚型患者时,不同患者的临床获益率相差甚远[5]。因此,为了实现该疾病的精准治疗,对于此类患者,识别全新的生物学靶点以指导患者进行风险再分层显得尤为重要。
本文基于多尺度嵌入式基因共表达网络分析(multiscale embedded gene co-expression network analysis,MEGENA)技术,运用生物信息学的方法鉴定出TNBC中LAR亚型患者的全新生物学靶点,并分析其与预后的关系,为指导该疾病实现分类而治的精准诊疗提供参考。
1.1 数据来源和预处理 从TCGA数据库(https://portal.gdc.cancer.gov/)中下载乳腺癌患者转录组测序数据及其所对应的临床样本文件。根据患者的年龄、生存资料、临床分期以及表达谱数据是否完整进行筛选,最终纳入710例患者进行后续分析,其中TNBC 113例(15.9%),非TNBC 597例(84.1%)。对所有原始测序数据进行TPM标准化处理。此外,从GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)中下载验证数据集GSE76245和Shao数据集,并对数据集进行TPM标准化处理。
1.2 差异表达基因分析的筛选 为了避免后续分析结果出现偏移和数据冗余,首先对TNBC患者和非TNBC组患者的组织样本测序数据进行差异表达基因分析。这一步骤通过使用R软件的edger包进行筛选,限制条件为|log2FC|>2,调整后P值<0.05。
1.3 多尺度嵌入式基因共表达网络分析 使用MEGENA包(https://cran.uni-muenster.de/web/packages/MEGENA/MEGENA.pdf)对差异表达的上调和下调基因进行分析,并设置相关的筛选条件:模块差异的FDR.cutoff=0.05,模块聚类的P值=0.05,核心模块的筛选标准为模块的Hub.pval=0.05。利用这一限制条件识别出TNBC患者表达谱的聚类模块数目以及核心模块,进一步对核心模块进行生物学功能鉴定。最后,根据核心模块中基因与基因之间平均连接度大于8个节点的标准定义基因权重,使用MEGENA包中的多尺度核心基因分析方法(multiscale Hub analysis,MHA)进行核心基因筛选。所有模块基因中,某一个基因与其他基因的关联度得分最高,该基因即为核心基因。
1.4 核心基因验证 在识别到核心模块的核心基因后,为了检验模块聚类效能,首先使用GSE76245数据集对模块的核心基因进行外部表达验证,包括与核心基因共表达的基因、核心基因与相关基因表达的相关性、不同亚型TNBC患者中核心基因的表达差异;并使用在线工具UALCAN(http://ualcan.path.uab.edu/index.html)进行基于TCGA数据库的内部表达验证;然后使用CCLE数据库(https://portals.broadinstitute.org/ccle)进行泛癌细胞系及乳腺癌细胞系的表达验证。
1.5 预后分析 选取Shao数据集验证核心基因与LAR亚型患者临床预后的关系。将数据集进行TPM标准化处理后,对数据集中包含的50例LAR亚型患者的测序数据进行批量单因素Cox回归分析,选取单因素分析中有统计学意义的基因以及研究者认为临床上有意义的指标作为协变量进行多因素Cox回归分析。其中,使用R包survminer(https://cran.rstudio.com/web/packages/survminer/index.html)确定核心基因诊断LAR亚型患者复发的最佳截断值,使用受试者工作特征曲线获取年龄和肿瘤大小等临床指标诊断复发的最佳截断值。并根据最佳截断值将LAR亚型患者分为低表达者和高表达者,然后通过Kaplan-Meier 法绘制生存曲线,比较核心基因不同表达情况下LAR亚型患者的3年和5年疾病复发风险。
1.6 统计学分析 采用R软件(Version 4.0.1)进行统计分析,其中采用Pearson检验进行相关性分析,采用Wilcoxon检验分析GSE76245数据集亚组间的差异,采用Kruskal-Wallis检验分析泛癌细胞系组间的表达差异,采用Cox回归模型进行单因素和多因素分析,采用log-rank检验比较组间的复发风险差异。以P<0.05表示差异具有统计学意义。
2.1 入组患者的基本特征 非TNBC患者、TNBC患者年龄分别为28~90(59.53±13.23)岁、29~90(54.68±12.08)岁;TNBC患者均为女性,但有8例非TNBC患者为男性;无论是TNBC还是非TNBC患者,浸润性导管癌都是最常见的病理组织学类型,且肿瘤分期以Ⅰ期和Ⅱ期为主。见表1。
表1 非TNBC患者和TNBC患者的基本特征
2.2 差异表达基因的筛选结果以及MEGENA分析结果 与非TNBC患者相比,TNBC患者中存在1903个差异表达上调基因和1021个差异表达下调基因。使用MEGENA包对1903差异表达上调基因进行分析,结果提示,这些基因被聚类为21个模块,其中C3模块是核心模块;使用MHA对筛选到的核心模块进行功能预测和核心基因筛选,结果提示该核心模块可能与雄激素受体具有相关性,模块中的催乳素诱导蛋白(prolactin-induced protein,PIP)基因权重最大,因此被定义为模块中的核心基因,见图1A。
图1 核心模块和核心基因的筛选以及核心基因的外部数据集表达验证结果注:图A 显示了C3核心模块及模块中基因;图B显示了数据集GSE76124中与PIP基因共表达的基因;图C提示数据集GSE76124中PIP基因与雄激素受体基因的表达具有相关性;图D显示数据集GSE76124中PIP基因在不同亚型TNBC中的表达情况,其中BLIA为基底样免疫激活亚型,BLIS为基底样免疫抑制亚型,LAR为管腔雄激素受体亚型,MES为间充质亚型。
2.3 核心基因的验证结果 数据集GSE76245验证结果提示,PIP基因与多种雄激素受体相关的基因存在共表达,且其表达水平与雄激素受体表达水平呈正相关(r=0.73,P<0.001),见图1B和图1C;与其他亚型TNBC患者相比,LAR亚型TNBC患者的PIP基因表达量增加(均P<0.05),见图1D。TCGA在线数据库的分析结果同样支持这一结论,该基因在TNBC的LAR亚型中表达显著高于其他亚型,见图2。
图2 基于TCGA数据库数据来源的PIP基因在不同亚型TNBC中的表达差异(A)和分布差异(B)注:图A的纵坐标为PIP基因的表达量;横坐标为TNBC的不同亚型,其中BL1为基底细胞1型,BL2为基底细胞2型,IM为免疫亚型,LAR为管腔雄激素受体亚型,MSL为间充质干细胞亚型,M为间充质亚型,UNS为未知亚型。图B表中数据为PIP基因表达的TPM值。
采用CCLE数据库进一步验证,其中,对泛癌细胞系中PIP基因表达差异的分析结果提示,乳腺癌细胞系中PIP基因的表达显著高于其他癌细胞系;提取乳腺癌细胞系进行亚组分析,结果显示PIP基因在MDAMB453_BREAST乳腺癌细胞系(雄激素受体阳性)中的表达高于其他乳腺癌细胞系(P=1.3×10-16)。见图3。
图3 基于CCLE数据库分析的PIP基因在泛癌细胞系和乳腺癌细胞系亚组的表达注:图A的纵坐标为PIP基因的表达量,横坐标为泛癌中不同细胞系名称。
2.4 预后分析 单因素分析结果提示,PIP等71个基因可能是影响LAR亚型TNBC患者预后的危险因素,其中与本研究的MEGENA结果有交集的基因仅有PIP,故将其与临床上认为有意义的指标作为自变量进行多因素分析。最终纳入年龄(“年龄<45岁”=1,“年龄≥45岁”=0)、PIP表达量(“PIP相对表达量<3.45”=1,“PIP相对表达量≥3.45”=0)、肿瘤大小(“肿瘤<2.8 mm”=1,“肿瘤≥2.8 mm=0”)、化疗方案(使用紫杉醇方案=1,未使用紫杉醇方案=0)作为协变量,以复发状态(疾病未复发=0,疾病复发=1)作为因变量,进行多因素Cox回归分析。结果显示,除年龄<45岁、肿瘤≥2.8 mm、未使用紫杉醇方案化疗外,PIP基因表达量降低也是LAR亚型TNBC患者预后的独立危险因素(均P<0.05),见表2。进一步通过Kaplan-Meier法绘制复发风险曲线,结果显示,PIP基因相对表达量<3.45的LAR亚型患者的3年和5年疾病累计复发风险概率均高于PIP基因相对表达量≥3.45者(P=0.005、P=0.009),见图4。
表2 多因素Cox回归分析结果
图4 不同PIP基因表达水平的LAR亚型患者3年、5年复发风险曲线
与其他类型的TNBC相比,尽管LAR亚型具有明确的治疗靶点,但是患者的临床预后却存在显著差异,因此筛选治疗获益显著的优势人群,指导患者风险分层是LAR亚型研究的热点和难点。
生物信息学的发展促进了生命领域的全新变革,研究者利用多种生物信息学方法挖掘出乳腺肿瘤的多个生物学靶点,为乳腺肿瘤的精准治疗提供了参考依据。例如,2019年Qiu等[6]利用加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)法揭示了与乳腺癌发生发展相关的生物学靶点基因(KRT8、KRT19、KPNA2和ECT2);2020年,Shi等[7]利用差异基因法识别到乳腺癌预后相关靶点,并据此提出乳腺癌的风险分层策略;Urbaniak等[8]利用蛋白互作网络分析预测乳腺癌的全新生物学标志物,揭示了乳腺癌发生相关蛋白之间可能存在的相互作用机制。MEGENA技术是基于拓扑结构理论构建的嵌入式共表达网络,可以较好地避免网络链接交叉问题,与传统的WGCNA相比,它可以实现单个网络中共存聚类,用以清晰地展示复杂网络的多次度层次效应。与差异基因法相比,WGCNA同样展示出极大的优势,因为差异基因法本质上是一种平均表达量的对比分析,仅能展示样本间的平均差异,这一结果可能会受到极值的影响,从而导致结果产生偏倚;而MEGENA技术是通过计算基因与基因之间的平均连接度来进行聚类,并不依赖于不同样本的表达差异,可以避免样本极值对于预测结果的影响。蛋白互作网络分析是基于实验验证结果构建的共表达网络,因此,不能进行新靶点的筛选和识别;与蛋白互作网络分析不同的是,MEGENA识别的核心基因是根据平均连接度来定义的,其核心是一种预测分析,也更有可能会识别到全新的生物学标志物。因此,本研究利用MEGENA进行分析,最终筛选出TNBC中的差异表达基因PIP,LAR亚型TNBC的特异性生物学靶点PIP,并利用内部数据集和外部数据集对该基因在LAR亚型TNBC中的表达情况进行验证。
PIP基因位于7号染色体长臂3区4带(7q34),编码含146个氨基酸残基组成的前体蛋白,成熟产物为17kD的单链糖蛋白[9]。在前期研究中,我们利用UALCAN数据库分析了乳腺癌和癌旁组织中PIP基因的表达差异,发现PIP基因在正常乳腺组织中呈高表达,而在乳腺癌组织中呈低表达(相关分析结果:ualcan.path.uab.edu/cgi-bin/TCGAExResultNew2.pl?genenam=PIP&ctype=BRCA),这提示该基因表达下调可能促进乳腺癌的发生。然而本研究结果显示,与其他亚型TNBC患者相比,LAR亚型TNBC患者的PIP基因表达量增加,表明PIP基因在不同亚型TNBC中的表达存在差异,即其在LAR亚型TNBC中的表达下调并不明显,而呈特异性的高表达。有研究表明,该基因与雄激素受体表达具有较强的相关性,主要原因是该基因在转录水平会招募雄激素受体到自身启动子序列,促进雄激素受体易位到细胞核,从而刺激雄激素依赖性基因的表达[10]。因此,在雄激素受体阳性的LAR亚型TNBC中,PIP基因呈特异性高表达。这或可为开发新的靶点用于TNBC的精准治疗提供理论依据。
此外,有研究显示,敲除人乳腺癌细胞T47D和MDA-MB-453的PIP基因后,抑制PIP表达可增强乳腺癌细胞的增殖和迁移潜能[11],这提示低表达的PIP可能与乳腺癌细胞的高侵袭性有关。另一方面,PIP基因在乳腺癌患者临床预后中的价值同样不可忽略,Jablonska等[12]研究发现,与PIP基因低表达的患者相比,PIP基因高表达的乳腺癌患者可获得更长的无病生存期。在本研究中,我们通过Shao数据集进行预后分析,发现PIP基因表达量降低是LAR亚型TNBC患者预后的独立危险因素,低表达的LAR亚型患者的3年和5年疾病累计复发风险概率均高于高表达者(均P<0.05),与上述研究的结论相似。因此,如该基因作为LAR亚型TNBC的治疗靶点,建议开发该基因的激动剂,以使得患者获得更好的临床预后。
总之,我们利用生物信息学方法筛选出LAR亚型TNBC的生物学靶点PIP,与其他TNBC亚型相比,LAR亚型TNBC中PIP基因呈特异性高表达;由于PIP基因表达下调与乳腺癌的发生、发展有关,因此PIP基因表达下调的LAR亚型TNBC患者预后更差,更易复发。这或可为今后实现该疾病分类而治的精准诊疗提供参考。