基于生物信息学分析S100P基因在乳腺癌中的表达及临床意义

2022-11-17 02:51康,白丽,2*
大理大学学报 2022年10期
关键词:共表达通路乳腺癌

许 康,白 丽,2*

(1.大理大学基础医学院,云南 大理 671000;2.云南省昆虫生物医药研发重点实验室,云南 大理 671000)

根据国际癌症研究机构编制的GLOBOCAN 2020统计,乳腺癌已超越肺癌成为全球第一大癌症(占比11.7%)〔1〕。在乳腺癌的治疗方法上,目前主要是手术治疗结合化疗,但对于转移性乳腺癌来说仍需其他治疗手段改善患者生存率,新的治疗方法包括信号通路抑制剂、节律化疗、抗体-药物结合系统、纳米颗粒等的研究都还处于起步阶段〔2-3〕。乳腺癌重要的预后标志物主要是腋窝淋巴结转移数量、肿瘤大小和肿瘤分级,但这些标志物不足以对现今提倡个性化治疗的乳腺癌患者进行有针对性的治疗,特别是对于早期乳腺癌患者〔3〕。因此,筛选影响乳腺癌疾病进展及预后的标记分子对乳腺癌患者治疗的多样性和改善预后有重要临床意义。S100钙结合蛋白P(S100 calcium binding protein P,S100P)是S100钙结合蛋白家族成员之一,除在胚胎发育过程中发挥作用外,还参与癌症的发生发展、侵袭和转移〔4〕。在乳腺癌早期通常有S100P的表达,参与调节乳腺癌侵袭和转移的Fos相关抗原2(Fosrelated antigen 2,Fra-2)可上调S100P的表达,并增加乳腺癌的侵袭性〔5〕。乳腺癌分为原位癌(非浸润癌)和浸润癌,因原位癌易于治疗、预后好,不是乳腺癌研究的重点,且各数据库只收录浸润癌相关数据,故本研究通过生物信息学方法分析S100P在乳腺浸润癌(breast invasive carcinoma,BRCA)中的表达及其共表达基因的生物学功能,探讨S100P基因作为预后判断的价值,为以S100P基因为靶点的临床治疗提供依据。

1 材料和方法

1.1 数据来源本研究数据来源于GEPIA数据库(http://gepia.cancer-pku.cn)、UALCAN数 据 库(http://ualcan.path.uab.edu)、KM Plotter数 据 库(https://kmplot.com/analysis/)、LinkedOmics数 据 库(http://www.linkedomics.org)和STRING数 据 库(https://cn.string-db.org/)。

1.2 数据获取

1.2.1 GEPIA数据库GEPIA数据库基于TCGA和GTEX的9 736个肿瘤样本和8 587个正常样本,可进行泛癌分析、差异表达分析、相关性分析、患者生存分析等〔6〕。该数据库在本研究中用于挖掘S100P基因的泛癌表达以及分析在BRCA和正常乳腺组织中的表达差异。泛癌分析筛选条件为:“概述”“基因:S100P”“数据集:全部”。S100P基因在BRCA与正常组织表达差异筛选条件为“箱式图”“基因:S100P”“数据集:BRCA”。

1.2.2 UALCAN数据库UALCAN数据库基于TCGA 31种癌症类型的RNA-seq和临床数据,可进行TCGA数据深度分析〔7〕。利用UALCAN数据库分析S100P与BRCA淋巴结转移分期的关系。“输入基因名称:S100P”“TCGA数据集:BRCA”“分析链接:表达”。

1.2.3 KM Plotter数据库KM Plotter数据库能够使用基因组学、转录组学、蛋白质组学或代谢组学数据进行单变量和多变量COX回归分析,并绘制KM生存曲线〔8〕。利用KM Plotter数据库评估S100P在乳腺癌中的预后价值。筛选条件为:“乳腺癌”“开始乳腺癌KM绘图”“输入基因名称:S100P”“患者分组依据:自动选择最佳值”“生存率:依次选择无复发生存(relapse free survive,RFS)、总生存时间(overallsurvival,OS)、远端无转移生存(distalmetastasisfree survival,DMFS)、进展后生存(post-progression survival,PPS)”“绘制Kaplan-Meier曲线”。

1.2.4 LinkedOmics数据库LinkedOmics数据库包含TCGA和临床蛋白质组肿瘤分析协会的多组学数据和临床数据,是第一个多组学数据库〔9〕。通过LinkedOmics数据库分析S100P相关性基因,并进行GO富集分析和KEGG通路注释与富集分析。相关性分析:“选择癌症类型:BRCA”“选择检索数据集:根据数据类型选择RNAseq”“选择检索数据集属性:S100P”“选择目标数据集:根据数据类型选择RNAseq”“选择统计方法:皮尔逊相关检验”。GO和KEGG富集分析:“链接释义:基因集富集分析(GSEA)”“富集分析:依次选择生物学过程、细胞成分、分子功能、KEGG通路”。

1.2.5 STRING数据库STRING数据库可整合蛋白质之间物理相互作用和功能上的关联,创建清晰明了的蛋白质相互作用关联网络〔10〕。利用STRING数据库分析S100P与其他蛋白质的相互作用。“蛋白名称:S100P”“物种:智人”。

1.3 统计方法采用数据库默认统计方法。S100P泛癌分析以及在癌组织和正常组织差异表达分析采用单因素方差分析;皮尔逊相关法分析基因表达相关性;生存分析采用Log-rank检验。P<0.05为差异有统计学意义。

2 结果

2.1 S100P基因在常见肿瘤组织和正常组织中的表达利用GEPIA数据库分析了S100P基因在肿瘤组织和正常组织中的表达情况,结果表明,S100P基因在14种肿瘤中存在差异表达。其中,在BRCA、宫颈鳞状细胞癌和宫颈腺癌、结肠腺癌、肝细胞肝癌、肺腺癌、胰腺癌、直肠腺癌、子宫体子宫内膜癌、子宫癌肉瘤中高表达,差异有统计学意义(P<0.001);在弥漫性大B细胞淋巴瘤、前列腺癌、皮肤黑色素瘤、甲状腺癌、胸腺癌中低表达,差异有统计学意义(P<0.001)。

2.2 S100P基因在BRCA组织和正常乳腺组织中的表达差异对GEPIA数据库中1 085例BRCA组织和291例正常乳腺组织S100P在mRNA水平的表达差异进行分析,结果表明,S100P基因在BRCA组织中的表达高于正常乳腺组织,差异有统计学意义(P<0.05)。见图1。

2.3 S100P表达水平与淋巴结转移分期相关性S100P的表达水平在BRCA不同淋巴结转移分期中存在差异,在N0、N1、N2、N3分期中的表达均高于正常组织,差异有统计学意义(P<0.01),且N0与N1,N1与N2,N2与N3之间差异均具有统计学意义(P<0.05)。见图2。

2.4 S100P在乳腺癌预后判断中的价值采用KM Plotter数据库在线分析S100P在乳腺癌预后判断中的价值。结果发现S100P低表达组OS为120.00月,明显高于S100P高表达组的59.15月(P<0.001)。见图3A。进一步分析发现,S100P低表达组RFS、DMFS、PPS均高于S100P高表达组(P<0.001)。见图3B~D。

2.5 S100P共表达基因及GO功能富集分析、KEGG信号通路分析用LinkedOmics数据库分析得到与S100P表达相关基因共6 485个,其中,正相关基因3 207个,负相关基因3 278个。(P<0.05,FDR<0.01)。与S100P正相关和负相关的前10个主要基因见表1。通过生物学过程富集分析发现,S100P共表达基因主要参与粒细胞活化、线粒体基因表达、糖基化、白细胞迁移、前体代谢物和能量的产生、表皮发育、形成细胞外结构组织等生物学过程,而形成纤毛组织、染色质共价修饰等活动受抑制。见表2。细胞成分富集分析显示,S100P共表达基因主要与囊泡腔、线粒体内膜、分泌颗粒膜、内质网腔等细胞成分有关,而在睫状部、突触膜等成分低表达。见表3。分子功能富集分析表明,与S100P共表达基因相关的分子功能包括电子转移活性、作用于还原型烟酰胺腺嘌呤二核苷酸的氧化还原酶活性、细胞黏附分子结合、丝氨酸水解酶活性等,但组蛋白结合活性受抑制。见表4。KEGG信号通路分析发现S100P共表达基因主要参与蛋白酶体、溶酶体、代谢通路、白细胞介素17(interleukin-17,IL-17)信号通路以及一些自身免疫病,如系统性红斑狼疮、类风湿性关节炎等的相关信号通路的调控。见表5。

表1 S100P前10个共表达正、负相关基因

表2 S100P共表达基因的生物学过程富集分析结果

表3 S100P共表达基因的细胞成分富集分析结果

表4 S100P共表达基因的分子功能富集分析结果

表5 S100P共表达基因的KEGG信号通路富集分析结果

2.6 S100P相互作用蛋白分析使用STRING数据库构建S100P相互作用蛋白网络,结果显示共19个蛋白与S100P相关,平均聚类系数为0.831(P<0.001),相互作用的蛋白分别是晚期糖基化终末产物受体(advanced glycation end product receptor,AGER)、钙周期素结合蛋白(calcyclin-binding protein,CACYBP)、戴 帽 蛋 白α1(capping actin protein of muscle z-line alpha subunit 1,CAPZA1)、绒毛蛋白/埃兹蛋白(villin 2/ezrin,EZR)、含FXYD结构域的离子通道调节蛋白3(FXYD domaincontaining ion transport regulator 3,FXYD3)、白细胞介素11(interleukin-11,IL-11)、含IQ基序的GTP酶激活蛋白1(IQ motif containing GTPase activating protein 1,IQGAP1)、肌球蛋白重链9(myosin heavy chain 9,MYH9)、核仁和纺锤体相关蛋白1(nucleolar and spindle-associated protein 1,NUSAP1)、鸟 氨 酸 脱 羧 酶 抗 酶1(ornithine decarboxylase antizyme 1,OAZ1)、核糖体蛋白S9(ribosomal protein S9,RPS9)、S100钙结合蛋白A1(S100 calcium binding protein A1,S100A1)、S100钙结 合 蛋 白B(S100 calcium binding protein B,S100B)、S100P结合蛋白(S100P binding protein,S100PBP)、S100钙 结 合 蛋 白Z(S100 calcium binding protein Z,S100Z)、二 胺 乙 酰 转 移 酶1(diamine acetyltransferase 1,SAT1)、小核核糖核蛋白F(small nuclear ribonucleoprotein F,SNRPF)、MIS12着丝粒合成装配分子伴侣(SGT1 homolog,MIS12 kinetochore complex assembly cochaperone,SUGT1)、细胞肿瘤抗原p53(cellular tumor antigen p53,TP53)。

3 讨论

乳腺癌是一种异质性疾病,恶性程度高,且发病率逐年增高,年轻女性患三阴性乳腺癌(triple negative breast cancer,TNBC)的风险逐年增加〔11〕。乳腺癌预后普遍较差,恶性程度最高的TNBC患者OS为1年,而其他亚型的乳腺癌晚期患者OS约为5年〔2〕。近年来,许多研究致力于寻找和验证乳腺癌诊断和预后标志物,成功应用于临床的包括Oncotype DX、MammaPrint和uPA/PAI-1等多基因检测,但存在价格昂贵、缺乏长期随访验证等问题〔3〕。因此探寻新的标志物,建立简单廉价的检测方法是乳腺癌预后监测的一个重要目标。

S100P是S100蛋白家族成员,是由95个氨基酸构成的二聚体蛋白,氨基端和羧基端的EF-Hand结构域为Ca2+结合位点,已被证实在多种肿瘤中表达〔5〕。研究〔12〕表明,胰腺癌细胞分泌的细胞因子促进S100P在瘤周淋巴管中淋巴管内皮细胞(lymphatic endothelial cells,LECs)的表达,通过S100P/RAGE信号通路促进LECs的迁移和环状化学排斥剂诱导的缺陷(circular chemorepellentinduced defects,CCID),其中CCID是球形癌细胞在LECs单层中形成的大的无细胞区域,结果说明S100P与胰腺癌淋巴结转移密切相关。另一项研究〔13〕发现,S100P参与E-钙黏蛋白在胃癌中的黏附和肿瘤抑制功能,促进E-钙黏蛋白阴性的胃癌细胞存活,增强其侵袭能力,导致胃癌发生发展。

本研究通过GEPIA数据库分析S100P基因在常见肿瘤组织与正常组织中的表达情况,结果显示S100P基因在多种肿瘤中差异表达,这与当前S100P基因在各种肿瘤中的研究结果相同,表明S100P基因在肿瘤中差异表达的现象较普遍。进一步分析乳腺癌中S100P mRNA水平的表达差异,肿瘤组织明显高于正常组织。为了验证这种差异表达是否与疾病进展有关联,本研究利用UALCAN数据库分析S100P基因与不同淋巴结转移分期的相关性,发现N0与N1,N1与N2,N2与N3之间表达存在差异,提示S100P基因可能与乳腺癌淋巴结转移相关。在乳腺癌血清S100P的研究〔14〕中发现,转移性乳腺癌患者血清S100P水平升高,这与本研究结果一致。为了探讨S100P在乳腺癌中的预后价值,本研究采用KM Plotter在线绘图工具进行生存分析,结果发现S100P低表达组OS、RFS、DMFS、PPS均明显高于S100P高表达组,提示S100P在乳腺癌中的高表达与预后不良相关。

为了进一步探究S100P参与的分子调控网络,本研究通过LinkedOmics数据库分析S100P共表达基因及GO功能富集分析、KEGG信号通路分析,发现与S100P表达正相关基因有3 207个,负相关基因有3 278个。GO功能富集分析结果显示S100P主要表达于线粒体内膜、囊泡腔等结构,主要参与糖基化、线粒体基因表达、粒细胞活化等生物学活动,并调节一些酶的活性。KEGG信号通路分析发现S100P主要参与蛋白酶体、IL-17信号通路、溶酶体等信号通路以及一些自身免疫病相关信号通路。蛋白酶体是泛素-蛋白酶体系统(ubiquitin–proteasome system,UPS)的重要组成部分,肿瘤细胞可上调UPS,对肿瘤抑制蛋白进行降解,避免自身凋亡〔15〕。在IL-17介导的炎症反应中,一些炎症介质能刺激功能失调的髓样细胞募集,形成利于血管生成和免疫抑制的肿瘤环境,从而促进肿瘤的生长和转移,IL-17通过多种机制参与肿瘤的早期形成阶段,尤其是炎症驱动的肿瘤类型〔16〕。S100P可能是UPS和IL-17通路的潜在靶点。

本研究通过STRING数据库分析构建了S100P蛋白质相互作用网络,发现有19个蛋白与S100P存在相互作用,包括AGER、CACYBP、CAPZA1、EZR、FXYD3、IL-11、IQGAP1、MYH9、NUSAP1、OAZ1、RPS9、S100A1、S100B、S100PBP、S100Z、SAT1、SNRPF、SUGT1、TP53。这些蛋白中绝大多数与肿瘤相关,但是否与S100P共同影响乳腺癌生物学特性,还有待进一步研究与验证。

本研究基于多种生物信息学分析工具探讨S100P基因在乳腺癌中的表达及意义。S100P基因在乳腺癌中高表达,与乳腺癌淋巴结转移相关,并影响患者预后,且S100P与多种蛋白质共同作用影响乳腺癌的生物学特性。S100P基因可能作为乳腺癌的潜在靶点,具有一定预后价值。

猜你喜欢
共表达通路乳腺癌
绝经了,是否就离乳腺癌越来越远呢?
SO2引起巨峰葡萄采后落粒的共表达网络和转录调控分析
UdhA和博伊丁假丝酵母xylI基因共表达对木糖醇发酵的影响
中医治疗乳腺癌的研究进展
小檗碱治疗非酒精性脂肪肝病相关通路的研究进展
Wnt/β-catenin信号转导通路在瘢痕疙瘩形成中的作用机制研究
高世代回交玉米矮秆种质的转录组分析
白芍总苷调控Sirt1/Foxo1通路对慢性心力衰竭大鼠的保护作用研究
别逗了,乳腺癌可不分男女老少!
两种半纤维素酶在毕赤酵母中的共表达