王雨娜,吴冬桂,赵 贝
(1.大理大学基础医学院,云南 大理 671000;2.珠海市人民医院外科,广东 珠海 519000)
胰腺癌(pancreatic adenocarcinoma,PAAD)[1]是全球癌症死亡的主要原因,患者生存率不到7%。在欧美等发达国家,胰腺癌的发病率和死亡率最高。胰腺癌可能由遗传性生殖系或癌症相关基因的体细胞获得性突变引起,突变也会导致癌症进展和转移,对基因肿瘤水平的研究分析寻找胰腺癌的潜在治疗靶点为治疗预防胰腺癌的发生发展提供了有力的发展方向。前梯度蛋白2(recombinant anterior gradient 2,AGR2)是一种原癌基因[2],最近的研究表明[3-5],AGR2 的高表达与各种人类癌细胞系的细胞增殖、转移和耐药性有关。此外,AGR2 的高表达也被证明是胰腺癌存活率低的预测因素。为此,本研究基于生物信息学分析,重点探究AGR2 与胰腺癌的密切关系,以期为未来的医学发展提供指导方向。
1.1 利用GEO 数据库挖掘AGR2 基因 GEO 是一个基因表达数据仓库和在线资源,用于从任何物种或人造的来源检索基因表达数据,本研究原始数据均从GEO 数据库下载并通过R 3.2.2 集成。
1.2 利用Oncomine 数据库分析AGR2 在胰腺癌与非瘤组织的相关性 在Oncomine 数据库中设定筛选和挖掘数据的条件:①Gene:AGR2;②Analysis Type:Cancer vs.Normal;③Cancer Type:Pancreatic Carcinoma;④Data Type:mRNA;⑤Sample Type:Clinical Specimen;⑥临界值设定条件(Pvalue<1E-4,fold change 2,gene rank=top 10%,data type=all)。
1.3 在GEPIA2 数据库分析AGR2 基因在各肿瘤组织中的表达 GEPIA2(http://gepia2.cancer-pku.cn/)是一个常用的交互式网站,用于绘制给定基因的表达谱。GEPIA 包含来自TCGA 和GTEx 数据库的9736 个肿瘤和8587 个正常组织,根据基因表达水平进行生存分析,本研究通过GEPIA2 获取AGR2在各种肿瘤中的表达情况。
1.4 通过GEPIA2 分析胰腺癌中AGR2 与相似基因的相关度 据报道与胰腺癌相关的基因有S100P、C-K-RAS、CDC25B、HER,在数据库GEPIA2 对这些基因与AGR2 基因的相关性进行统计学分析。
1.5 AGR2 在胰腺癌患者中的生存曲线 通过GEPIA2采用Kaplan-Meier 法构建AGR2 在胰腺癌中的生存曲线,探究AGR2 的mRNA 表达量与胰腺癌患者预后的关系。
1.6 AGR2 mRNA 表达水平与胰腺癌患者病理分期的关系 在GEPIA 数据库(http://gepia.cancer-pku.cn/)中设定筛选和挖掘数据的条件为:①选择Stage plot;②Gene:AGR2;③Cancer name:PAAD(pancreatic adenocarcinoma)。
1.7 通过The Human Protein Atlas 数据库获取AGR2在正常胰腺与胰腺癌的免疫组化 利用The Human Protein Atlas 数据库获得AGR2 基因在人正常胰腺组织的表达情况与在异常胰腺癌组织中的表达情况。
1.8 利用String 数据库分析与AGR2 相互作用的蛋白网络 通过String 数据库获取AGR2 的蛋白互作网络,分析AGR2 与其他蛋白之间的关系;设定条件为:AGR2 选择克隆号为No:HPA007912 的抗体对1 例正常胰腺组织和11 例胰腺癌组织的AGR2 蛋白表达程度进行分析。
1.9 GeneMANIA 分析AGR2 在胰腺癌的蛋白表达分析图谱 执行GeneMANIA 以构建最重要的激酶靶标AGR2 的蛋白质-蛋白质相互作用(PPI)网络。
1.10 UALCAN 分析 根据患者的肿瘤分期和淋巴结转移状态分析正常组织和癌组织中AGR2 的表达情况。
1.11 统计学分析 采用t检验分析正常组织与胰腺癌组织中的表达差异,采用Kaplan-Meier 模型和Logrank 法检验进行生存分析,采用Pearson 法进行基因表达的相关性分析。P<0.05 为差异有统计学意义,P<0.01 为统计学意义显著。
2.1 AGR2 基因结构及数据集表达情况 GEO 数据库是一个储存芯片、二代测序以及其他高通量测序数据的数据库,利用该数据库,可知AGR2 位于7号染色体;HGNC 数据库显示,该基因编码内质网(ER)蛋白的二硫键异构酶(PDI)家族成员,该蛋白催化蛋白质折叠和硫醇-二硫键交换反应。AGR2 编码的蛋白质具有N 端ER 信号序列、催化活性硫氧还蛋白结构域和C 端ER 保留序列。这种蛋白质在细胞迁移、转化和转移中发挥作用,是一种p53 抑制剂。作为ER 定位的分子伴侣,它在富含半胱氨酸的跨膜受体和富含半胱氨酸的肠糖蛋白粘蛋白的折叠、运输和组装中发挥作用;该基因与炎症性肠病和癌症进展有关,见图1。
图1 AGR2 染色体定位及基因数据图谱
2.2 AGR2 在胰腺癌中的表达情况 通过Oncomine数据库分析可知,AGR2 基因在胰腺癌中呈现高表达状态;AGR2 mRNA 在胰腺癌研究芯片中的表达情况显示,AGR2 均在胰腺癌中现高表达状态,差异有统计学意义(P<0.05),见图2。
图2 AGR2 mRNA 在胰腺癌中的表达情况
2.3 AGR2 在各种癌症中的表达情况 通过GEPIA2数据库分析AGR2 基因在各肿瘤组织中的表达如下:从高到低的表达情况依次为胃腺癌(STAD)、结肠癌(COAD)、直肠腺癌(READ)、胰腺癌(PAAD)、肺腺癌(LUAD)、乳腺癌(BRCA)、前列腺癌(PRAD)、食管癌(ESCA)等,见图3。
图3 AGR2 在各种癌症中的表达情况
2.4 在胰腺癌中与AGR2 的相关基因分析 通过GEPIA2 分析报道过的相关基因,得出与AGR2 基因表达相关性最高的4 个基因,分别为S100P、CDC25B、C-K-Ras、HER3,以上4 个基因均与AGR2 基因的表达呈正相关,即AGR2 基因的表达量越高,相关基因的表达量也随之升高,见图4。
图4 AGR2 mRNA 与其相关基因在胰腺癌组织中表达情况
2.5 AGR2 与胰腺癌患者预后的相关性 AGR2 mRNA的表达与胰腺癌患者的总生存率(overall survival,OS)和无病生存率(disease free survival,DFS)无相关性,见图5。
图5 AGR2 与胰腺癌患者预后的相关性
2.6 AGR2 在不同分期胰腺癌中的表达 GEPIA2 结果显示,不同病理分期的胰腺癌AGR2 mRNA 表达水平比较,差异有统计学意义(P<0.05),见图6。
图6 AGR2 mRNA 在不同分期胰腺癌中表达情况
2.7 AGR2 在正常胰腺组织与胰腺癌组织的免疫组化 分析AGR2 蛋白在1 例正常胰腺组织和11 例典型胰腺癌组织中的表达情况,结果显示6 例胰腺癌组织中AGR2 蛋白表达及抗体染色程度为“高度”水平;3 例为“中度”水平;2 例为“低度”水平,见图7。
图7 AGR2 在正常胰腺组织和胰腺癌组织中的免疫组化
2.8 与AGR2 相互作用的蛋白网络 通过String 数据库分析得到AGR2 基因相互作用的蛋白分别有TFF1、SPDEF、AGR3、TFF3、FOXA1、P4HB、RUB VBL、HSPA5、LYPD3、RUVBL2,节点数:11,边数:25,平均节点度:4.55,局部聚类系数:0.752,预期边缘数:11,PPI 富集P值:0.000 286,此网络具有比预期更多的交互性,见图8。
图8 与AGR2 相互作用的蛋白网络
2.9 基于GeneMANIA 构建AGR2 蛋白的PPI 网络PPI 网络和功能分析表明,AGE2 富集的基因组主要负责蛋白泛素化的正向调控、Wnt 通路的调控以及共表达蛋白组靶向,见图9。
图9 AGR2 蛋白的PPI 网络
2.10 AGR2 甲基化分析 根据AGR2 在胰腺癌中不同样本,胰腺癌的不同癌症分期阶段,患者种族差异、患者年龄、饮酒史以及淋巴结转移情况综合分析出以下数据,其中Beta(β)值表示从未甲基化(0)到完全甲基化(1)的DNA 甲基化水平,不同的β 值截止值已被认为表明高甲基化(β 值:0.5~0.7)或低甲基化(β值:0.25~0.3),见图10。
图10 AGR2 甲基化分析
图10 AGR2 甲基化分析(续)
目前,胰腺癌是全球癌症死亡的主要原因,其全球负担在过去的25 年中增加了1 倍以上,尽管这一增长在很大程度上是由于全球人口老龄化引起的,但胰腺癌存在一些可改变的关键风险因素,例如吸烟、肥胖、糖尿病和酒精摄入[6-9]。这些风险因素的患病率在全球许多地区正在增加,因此也导致胰腺癌的发病率增加,但由于潜在患病率和预防策略的差异,这些风险因素的相对贡献在全球范围内有所不同。遗传因素虽然不能直接改变,但却是胰腺癌风险的重要组成部分,包括遗传性癌症基因的致病变异、与遗传性胰腺炎相关的基因,以及在全基因组关联研究中发现的常见变异。鉴定胰腺癌的遗传变化不仅可以深入了解该病的病因,还可以为指导早期检测提供参考[10-12]。因此,探究胰腺癌发生发展的分子机制并确定其早期诊断的分子标志物至关重要。
AGR 家族由3 个成员组成,即TXNDC12(AGR1)、AGR2 和AGR3。AGR2 蛋白是AGR 家族中研究最多的蛋白质。此外,AGR2 广泛涉及人类疾病,特别是癌症[13,14]。在人类癌症模型中,AGR2 在多种癌症类型中高度表达,其表达升高与癌细胞适应性增加有关[15,16]。如AGR2 过表达可促进癌细胞增殖和转移以及促进细胞存活,在许多癌症类型中ER 应激可导致AGR2 的表达增加。
Oncomine 是基于网络的数据库和数据挖掘平台,是系统地管理、分析和提供所有公共癌症微阵列数据的数据库,其差异表达分析将大多数主要类型的癌症与各自的正常组织以及各种癌症亚型进行比较,基于临床和病理学的分析可供探索选定基因或多个基因的查询和数据可视化[17,18]。GEPIA2具有198 619 种isoforms(功能上相似的蛋白质,具有相似但不完全相同的氨基酸序列,由不同基因编码,或由去除不同外显子的相同基因的RNA 转录本编码)和84 种癌症亚型,可将基因表达量化从基因水平扩展到转录水平,并支持特定癌症亚型的分析和亚型之间的比较[19]。此外,GEPIA2 还采用了受单细胞测序研究启发的基因特征量化分析技术,并提供定制分析,用户可以上传自己的RNA-seq 数据并将其与TCGA 和GTEx 样本进行比较[23]。人类蛋白质图谱已对59 种组织中的超过15 313 种蛋白质进行了基于免疫组织化学的蛋白质组学可视化。在每个组织中,病理学家已经对许多不同细胞类型的染色模式进行了评分。因此,有大量的可视化蛋白质组学数据可用于将基因或蛋白质列表分类为特定的细胞类型。STRING 数据库[20]是专用于全生物体蛋白质关联网络的几个在线资源之一,STRING 数据库旨在将重点放在覆盖范围(适用于数千个基因组测序生物)、证据来源的完整性(例如包括自动文本挖掘)和可用性功能(例如定制、富集检测和程序访问)[21]。本研究主要利用上述数据库挖掘AGR2 在胰腺癌中的表达情况及其与患者预后的相关性。本研究结果显示,AGR2 基因在胰腺癌癌组织中的表达水平高于正常组织(P<0.05),AGR2 基因高表达与患者的病理分期有关(P<0.05);AGR2 共表达基因分析显示,S100P、CDC25B、C-KRAS、HER3 等基因与AGR2 基因表达呈正相关。这些均提示AGR2 基因在胰腺癌发生发展过程中可作为促癌因子发挥作用,同时亦可作为胰腺癌的预后指标。本研究还显示,AGR2 基因主要负责蛋白质泛素化的正向调控、Wnt 通路的调控以及与共表达蛋白组靶向有关,推测AGR2 可能通过调控以上途径来调节细胞周期,从而促进肿瘤细胞增殖。此外,本研究还发现与AGR2 正相关的共表达基因,这些基因可为后续研究提供参考。
综上所述,AGR2 基因在胰腺癌中呈高表达,与胰腺癌的发生发展及预后存在一定关系,有望成为胰腺癌预后评估和治疗的潜在靶点。