李雨晴,詹 妮,鲁鹤臻,李海南,何成彦*,于 庭*
(1.吉林大学第二医院,吉林 长春130041;2.吉林大学中日联谊医院,吉林 长春130033;3.天津市人民医院)
结直肠癌(colorectal cancer,CRC)[1]是一种常见的大肠黏膜上皮恶性肿瘤,发病率和死亡率高[2],是全球相关癌症死亡的主要原因之一[3]。在美国,2020年报告了近15万例结直肠癌病例和超过5万死亡病例,预计到2030年,结直肠癌将有超过220万新发病例和110万死亡病例[4]。由于结直肠癌患者的早期症状比较隐匿,多数患者确诊时已处于中晚期,死亡率较高[5]。研究表明,早期诊断的肿瘤更有可能治愈[6],因此早期诊断成为了预后良好的重点。真核翻译起始因子2A(Eukaryotic translation initiation factor 2A,EIF2A)[7-8]是一种细胞内蛋白,分子量为65 kDa,于20世纪70年代初第一个被描述为能够刺激起始甲基t-RNA i与40S核糖体亚基结合的翻译起始因子[9-11],EIF2A m RNA由15或16个外显子组成,该基因位于3号染色体上[8]。研究表明,EIF2A是近年关注到的与肿瘤进展有关的因子,其不仅能调节细胞的翻译,还能促进肿瘤细胞的增殖及迁移。为此,本研究基于二维色谱与质谱联用技术及生物信息学分析,进行重点探究EIF2A与结直肠癌的关系,对基因及蛋白肿瘤水平进行研究分析,以期为结直肠癌的临床诊治和预后评估提供一个新的方向。
1.1利用二维色谱与质谱联用技术筛选结直肠癌组织与配对癌旁组织中的差异蛋白,癌组织及癌旁组织中同一蛋白的丰度通过图谱数来衡量。本研究所用的标本来源于在吉林大学第二医院和吉林大学中日联谊医院接受手术治疗的结直肠癌患者手术切除的新鲜结直肠癌组织和配对癌旁组织,共16对,标本的采集时间段为2019年1月到2022年12月,研究经医院医学伦理委员会批准,且相关患者均签署了知情同意书,并且保证术前未经任何方式治疗。
1.2 统计学分析SEQUEST算法计算二维色谱与质谱联用的图谱数据,采用t检验分析结直肠癌组织与正常组织中的表达差异,采用Pearson法进行EIF2A基因表达相关性分析。P<0.05 为差异有统计学意义。
1.3 借助GEO数据库挖掘EIF2A基因GEO是一个基因表达数据库和在线资源,可用于检索任何物种或人造来源基因的表达数据,本研究的原始数据均从 GEO 数据库下载并通过R 4.2.2集成。
1.4 通过Timer数据库在线分析EIF2A基因在各肿瘤组织中的表达Timer数据库是系统分析不同癌症类型的免疫浸润的综合资源库,其中Diff Exp模块探索肿瘤与正常组织的差异蛋白表达。
1.5利用GEPIA2数据库获取EIF2A在结直肠癌组织中的表达情况及与EIF2A表达相关性高的基因,根据基因表达水平进行生存分析。
1.6 基于UALCAN 数据库根据患者的肿瘤分期和淋巴结转移状态分析正常组织和癌组织中EIF2A的表达情况UALCAN是一个全面的、用户友好的、交互式的网络资源,用于分析癌症组学数据。
1.7 通过The Human Protein Atlas(HPA)数据库探究EIF2A基因在人正常结直肠组织的表达情况与在结直肠癌组织中的表达情况人类蛋白质图谱包含正常组织和癌症组织通过免疫组织化学获得的组织学切片图像。
1.8 利用String 数据库分析与EIF2A相互作用的蛋白网络String数据库是一个搜寻蛋白质之间相互作用的数据库[12],可应用于2031个物种,包含960万种蛋白和1380万种蛋白质之间的相互作用。
2.1本实验的癌组织及癌旁组织中的同一蛋白的丰度通过图谱的数来衡量,两个样品中蛋白图谱数比值≥1且蛋白图谱数差值≥72是差异蛋白的满足条件。以此为标准,此研究检测出包括IMA1、SETD3、KDM1A、CPR56等30个上调蛋白,MYH11、SYNM、TPM1、CNN1等23个下调蛋白。EIF2A为其中的一个上调蛋白,质谱图结果,见图1。
图1 EIF2A质谱图结果
2.2 EIF2A基因结构及数据集的表达情况EIF2A基因编码真核翻译起始因子,催化嘌呤霉素敏感的80 s预起始复合物的形成和低浓度Mg2+下聚(U)定向合成多苯丙氨酸。利用GEO数据库可得知EIF2A基因位于3号染色体,该基因编码细胞内蛋白,见图2。
图2 EIF2A染色体定位及基因数据图谱
2.3 EIF2A在各肿瘤组织中的表达情况通过Timer数据库分析EIF2A在各肿瘤组织中的表达情况可知,EIF2A在多种癌组织和癌旁组织中存在差异表达,且在癌组织中表达上调。其中EIF2A在结肠癌和直肠腺癌中均高表达(P<0.001和P<0.05),见图3。
图3 EIF2A在各肿瘤组织中的表达情况
2.4 在结直肠癌组织中EIF2A的表达情况及相关基因分析通过GEPIA2数据库分析可知EIF2A在结肠癌及直肠癌组织中均呈上调表达,见图4。根据GEPIA2数据库已经分析过的相关基因,得出与EIF2A基因表达相关性最高的4个基因,分别为NMD3、SLC33A1、U2SURP、CNBP,以上 4 个基因均与EIF2A基因的表达呈正相关,即EIF2A基因的表达量越高,相关基因的表达量也随之升高,见图5。EIF2A mRNA的表达与结直肠癌患者的总生存率(overall survival,OS)和无病生存率(disease free survival,DFS)无相关性,见图6。
图4 EIF2A在结直肠癌组织中的表达情况
注:图A~D分别为NMD3、SLC33A1、U2SURP及CNBP与EIF2A mRNA 表达水平的关系
注:A:EIF2A mRNA表达量与结直肠癌患者OS的关系;B:EIF2A mRNA表达量与结直肠癌患者DFS的关系
2.5 蛋白质表达分析根据EIF2A在结直肠癌中的不同样本、结直肠癌的不同癌症分期阶段、患者年龄及患者种族差异综合分析出以下数据,EIF2A主要参与蛋白质翻译,与结直肠癌的临床病理特征具有相关性,推测EIF2A可能通过调控不同条件下的肿瘤细胞周期从而促进肿瘤细胞增殖,进而影响患者预后。其中Z值表示给定癌症类型样本中位数的标准偏差,见图7。
2.6 EIF2A在结直肠癌组织中蛋白层面的表达情况对HPA数据库中收集的免疫组织化学图片进行分析,EIF2A蛋白在正常结直肠组织和典型结直肠癌组织中的表达情况,结果显示EIF2A在结直肠癌组织中高度表达,见图8。
图8 EIF2A蛋白在结直肠癌中的表达情况
2.7 与EIF2A相互作用的蛋白网络通过String数据库分析得到EIF2A基因相互作用的蛋白分别有EIF2S1、EIF2S2、EIF2S3、EIF2S3L、RPS6、RPS7、RPS10、RPS13、RPS19、YWHAE。这10个关联蛋白均属于蛋白质编码基因,其中与邻近正常组织相比,属于核糖体蛋白质S19E家族的RPS19在结直肠癌表达水平较高。该蛋白网络节点数:11个,边数:411,平均节点度:7.45,平均局部聚类系数:0.934,期望边数:13,PPI富集P值:9.62e-10,此网络具有比预期更多的交互性,见图9。
图9 与EIF2A相互作用的蛋白网络
结直肠癌是最常见的癌症类型之一,是在结肠上皮中连续获得明确的基因突变后发生的一种异质性疾病,其特征是多种分子改变,这些改变决定不同信号通路的失调,导致肿瘤发生、发展和侵袭。多种遗传因素与结直肠癌的发生相关,包括BRAF突变、微卫星不稳定性(MSI)、KRAS突变和PIK3CA突变[3],不同遗传水平上肿瘤间和肿瘤内的高度变异性凸显了肿瘤复杂的分子生物学,而这又影响了肿瘤对治疗的应答和患者生存期。虽然结直肠癌是一种可预防的疾病[13],但在美国和全球范围内,它仍然是癌症死亡的第二大原因[14-15],约20%的患者以转移性结直肠癌为初始临床表现[16]。此外,高达50%的局限性疾病患者最终会发生转移,终生风险约为4%~5%[17]。
真核生物蛋白质合成起始是一个复杂的过程[9],需要12种以上的起始因子,包含30多种多肽链。EIF2A蛋白N端为具有S1型寡核苷酸/寡糖结合折叠子(OB)结构域和α螺旋结构域,C端为α折叠结构域,α亚基为调节亚基和功能位点,研究表明,EIF2A通过MHC-1类分子参与抗原提呈、应激反应和肿瘤的发生[18],具有调节肿瘤细胞增殖的作用,在人类癌症模型中,EIF2A在多种癌症类型中高度表达,其表达的升高可能与癌细胞适应性增加有关,这些均提示EIF2A基因在肿瘤的发生发展过程中可能作为促癌因子发挥作用,然而,EIF2A在细胞功能中的作用仍然是一个谜[19]。
综上所述,EIF2A蛋白是结直肠癌组织与癌旁组织的差异蛋白,在结直肠癌中呈现高表达,与结直肠癌的发生发展存在一定的关系,有望成为结直肠癌的预后评估和临床诊治的有效靶点。但本文仅仅通过二维色谱与质谱联用技术筛选差异蛋白及生物信息学方法进行初步分析,仍有待后续实验进一步证实。