刘梦媛,郑 翔,许永杰,王进京,冯姗姗,张志敏,吴明松,李学英
(1.遵义医科大学 医学遗传学教研室,贵州 遵义 563099;2.贵州省人民医院 检验科,贵州 贵阳 550002;3.遵义医科大学附属医院 病理科,贵州 遵义 563099;4.遵义医科大学 贵州省普通高等学校口腔疾病研究特色重点实验室暨遵义市口腔疾病研究重点实验室,贵州 遵义 563006)
2018年全球癌症统计数据显示肺癌发病率居第二,死亡率居第一[1]。在我国,肺癌也是最主要的致死癌症之一[2],严重威胁着人类的健康。肺癌分为非小细胞肺癌(Non-small cell lung cancer,NSCLC)和小细胞肺癌(Small cell lung cancer,SCLC),其中NSCLC约占肺癌的80%~85%,肺腺癌和肺鳞癌是NSCLC的两种主要病理亚型,是肺癌相关死亡的主要原因之一。随着手术、放疗、化疗等治疗方法的进步,肺癌预后得到改善,但5年生存率仍不高[3-4]。因此,识别肺癌的潜在生物标志物,进一步探索肺癌发病的分子机制是一项紧迫而具有挑战性的任务。本课题组前期研究发现ERGIC3异常高表达也促进非小细胞肺癌细胞增殖和迁移,但ERGIC3基因的作用机制及其与LUAD病理特征的相关性尚未研究。本研究旨在通过多个数据库验证ERGIC3在LUAD中的表达及其与肿瘤病理特征及预后的关系,为LUAD的预后及发展机制的研究提供新的思路。
内质网高尔基中间隔室蛋白3(Endoplasmic reticulum-Golgi intermediate compartment 3,ERGIC3)又称Erv46、ERp43,定位于染色体20q11.22,包括14个外显子。所编码的蛋白质的分子量为43.2kDa,是由 383个氨基酸残基组成的II型跨膜蛋白,也是ERGIC膜蛋白家族成员之一,作为COPII囊泡的成分[5],介导分泌性蛋白从糙面内质网到顺面高尔基网的运输,还有助于新合成的蛋白质的折叠、糖基化[6]。抑制ERGIC3表达可影响细胞生长和内质网应激诱导的细胞死亡[7-8]。此外,ERGIC3是一新的肿瘤相关基因,在多种肿瘤中异常高表达,可促进非小细胞肺癌[7,9-12]生长,且在肝癌[13]中异常高表达,但ERGIC3在肺腺癌中的作用机制及与生存预后的关系尚需进一步探索。众所周知,肿瘤的发病机制极为复杂,高通量测序技术在复杂疾病中的应用具有独特优势。尤其在肿瘤组织中,肿瘤细胞、免疫细胞和其它类型细胞之间,构成了复杂的微环境,为肿瘤的发生发展、预防治疗提供了重要的环境基础。
癌症基因组图谱(The cancer genome atlas,TCGA)计划通过基因芯片技术、高通量基因组测序,结合多维数据整合分析方法,将人类34种类型癌症的基因表达水平及基因组变异图谱绘制出来,获得了海量数据。这些数据使对癌症分子遗传学的了解进程加快,为精准医疗和个体化治疗奠定了坚实的基础,开启了癌症研究的新时代[14-15],也极大地推动了生物信息学与医学的相互发展。生物信息学是多学科交叉,以互联网为媒介,数据库为载体,收集、整理和分析DNA和蛋白质等的学科,从分子层面揭示疾病潜在的作用方式和发生机制。通过生信分析筛选出与疾病相关的潜在基因、miRNA和信号通路等,为临床上对该疾病的早期诊断和治疗提供科学依据。因此,本研究基于TCGA公共数据集,利用生物信息学方法,挖掘ERGIC3在肺腺癌免疫微环境中的作用及其预后价值,以期为深入探索ERGIC3在肺腺癌中的作用机制提供依据。
1.1 ERGIC3表达水平分析 通过TIMER 1.0(http://timer.cistrome.org/)[16]识别ERGIC3在泛癌中的表达,UALCAN(http://ualcan.path.uab.edu/)用于评价ERGIC3在肺腺癌中的表达及与临床病理信息的相关性。The Human Protein Atlas(HPA)(https://www.proteinatlas.org/)[17-18]被用来比较ERGIC3在LUAD及正常肺组织中的蛋白质水平的表达差异。
1.2 生存预后分析 基于Kaplan-Meier plotter(https://kmplot.com/analysis/index.php?p=service&cancer=lung)按照默认参数对ERGIC3进行单因素生存分析。以总生存期(Overall survival,OS)、首次进展生存期(first progression,FP)和进展后生存期(Post-progression survival,PPS)为生存分析的指标。
1.3 蛋白互作和GO富集分析 使用 STRING(http://www.string-db.org)数据库预测与ERGIC3相互作用的蛋白,并通过WEB-based GEneSeTAnaLysis Toolkit (WebGestalt)(http://www.webgestalt.org/)[19]网站对与ERGIC3互作的基因进行功能富集分析。
1.4 免疫浸润分析 通过TIMER 1.0(http://timer.cistrome.org/)[16]检测ERGIC3表达与LUAD中6种免疫细胞(B细胞、CD8+T细胞、CD4+T细胞、巨噬细胞、中性粒细胞和树突状细胞)的浸润水平的相关性。
1.5 microRNA预测 应用TargetScan(http://www.targetscan.org/vert_72/)、starbase(https://starbase.sysu.edu.cn/)和miRDB(http://mirdb.org/)3个在线数据库预测可能靶向ERGIC3的microRNA,并通过Venny2.1.0(https://bioinfogp.cnb.csic.es/tools/venny/index.html)对上述3个网站预测的microRNA取交集。
1.6 统计学分析 差异表达、蛋白网络、免疫浸润和microRNA预测等采用在线分析工具分析。生存数据采用log-rank检验,P<0.05认为差异有统计学意义。
2.1 ERGIC3在肺腺癌中显著高表达 使用TIMER获得ERGIC3在多种肿瘤中的差异表达结果,ERGIC3在LUAD中表达差异明显(见图1A)。应用UALCAN对TCGA的515个肺腺癌组织和59个对照肺组织样本数据进行分析,发现ERGIC3在肺腺癌中的mRNA水平高表达,而在肺组织中低表达(P<0.05,见图1B)。为验证这一趋势,检测HPA免疫组织化学染色结果,可以看到ERGIC3在肺腺癌组织中染色强度多为中强阳性,而在正常肺组织中表达极弱或阴性(见图1C)。从这些数据可以预测,ERGIC3的表达升高可能促进肺腺癌生长。
A:ERGIC3在泛癌中的表达水平;B:ERGIC3在肺腺癌中表达明显增高; C:ERGIC3在LUAD组织和正常肺组织中的免疫组化分析结果。
2.2 ERGIC3表达与肺腺癌临床病理特征的相关性 通过UALCAN分析ERGIC3的表达与肺腺癌临床特征的相关性发现,与正常组相比,ERGIC3在患者不同性别(见图2A)、吸烟习惯(见图2B)、年龄(见图2C)和种族(见图2D);各个分期(见图2E);肿瘤不同组织学类型(见图2F);转移淋巴结(见图2G)和TP53突变肿瘤组织中(见图2H)均高表达。有趣的是,在烟龄小于15年的患者中ERGIC3的表达高于烟龄大于15年的患者(P<0.05), 在性别上,男女性患者肿瘤组织中ERGIC3表达量升高(P<0.05),男性高于女性(P<0.05)。而ERGIC3在不同年龄和种族等的肺腺癌组织表达无差异(P>0.05)。
A:ERGIC3在患者不同性别;B:吸烟习惯;C:年龄;D:种族;E:各个分期;F:肿瘤不同组织学类型;G:转移淋巴结;H:TP53突变肿瘤组织中的表达情况。
2.3 ERGIC3在肺腺癌中的预后价值 为了探讨ERGIC3对肺腺癌生存期的影响,我们应用Kaplan-meier构建模型,评估了ERGIC3在肺腺癌中的预后价值。结果显示,ERGIC3的高表达水平与肺腺癌患者不良的总体生存率(n=1 927)有关,中位生存期约为75个月,5年生存率约为50%(见图3A)。此外,ERGIC3高表达的肺腺癌患者首次进展生存期(n=982)(见图3B)和进展后生存期(n=344)(见图3C)相对于低表达的肺腺癌患者更短,中位生存期分别约为60个月和15个月,5年生存率分别约为50%和15%(见图3B、C)。提示ERGIC3与肺腺癌的发生发展密切相关,且ERGIC3表达上调与肺腺癌患者预后不良相关。
A:ERGIC3高表达或低表达与总生存期;B:首次进展生存期;C:进展后生存期的关系。
2.4 ERGIC3的蛋白互作及可能的生物学功能 为了进一步研究肺腺癌中ERGIC3的潜在生物学功能,利用STRING数据库鉴定到10个与ERGIC3相互作用的蛋白质,分别是ERGIC2、SEC13、SEC63、RER1、SURF4、MAGT1、GTPBP3、COG3、VPS45和PHF3(见图4A)。筛选出与ERGIC3有互作关系的基因后,对基因相关的功能进行注释,以条形图形式集中展示了ERGIC3相关基因在GO的3个层次下富集条目的分布,分别是生物过程(见图4B)、细胞组分(见图4C)和分子功能(见图4D)。这些基因在生物过程条目下主要富集在Localization、Metabolic process、Biological regulation、Cellular component organization和Response to stimulus(见图4B)。在细胞组分条目中主要是Endomembrane system、Membrane、Endoplasmic reticulum、Golgi apparatus和Vesicle显著富集(见图4C),而在分子功能条目中主要是Protein binding、Transporter activity、Ion binding、Structural molecule activity和Nucleic acid binding是分组中的显著富集项(见图4D)。以上提示,ERGIC3参与的功能集中在分子合成、转运、修饰、定位和细胞应激,这些细胞功能主要在细胞的内膜系统中进行,说明ERGIC3相关基因在蛋白质从内质网到高尔基复合体的运输中发挥了重要作用。
A:ERGIC3的蛋白互作关系,网络节点是蛋白质,边表示蛋白质之间的相互作用;B~D:与ERGIC3相关基因的GO功能富集分析。
2.5 ERGIC3差异表达与免疫浸润的相关性分析 本课题组前期研究表明,ERGIC3在肝癌中是一个免疫相关基因,于是我们采用TIMER 1.0算法评估了ERGIC3表达量与肺腺癌中免疫细胞浸润水平的相关性。结果显示,ERGIC3的表达与肿瘤细胞纯度呈微弱的正相关(r=0.18,P<0.05)。ERGIC3水平与CD8+T细胞浸润水平(r=-0.164,P<0.05)、CD4+T细胞浸润水平(r=-0.163,P<0.05)、巨噬细胞浸润水平(r=-0.136,P<0.05)、嗜中性粒细胞浸润水平(r=-0.223,P<0.05)和树突状细胞浸润水平(r=-0.222,P<0.05)呈负相关。有趣的是,B 细胞浸润水平(r=-0.086,P>0.05)与ERGIC3的表达无显著相关性(见图5)。
图5 在肺腺癌中ERGIC3的表达与肿瘤纯度和免疫细胞浸润水平的相关性
2.6 以E RGIC3为靶点的microRNA预测 很多癌症相关基因受microRNA调控,microRNA在肿瘤的发生发展中起到重要作用[20]。我们通过TargetScan、starbase和miRDB 3个网站预测与ERGIC3 mRNA 的3’-UTR相互作用的潜在microRNA。在TargetScan中鉴定出57个microRNA,starbase和miRDB分别预测到10个和6个microRNA。Venny2.1.0对上述3个网站预测的microRNA取交集,结果显示,只有hsa-miR-4731-5p是TargetScan、starbase和miRDB的共同元素。可见,ERGIC3可能通过microRNA途径调控肺腺癌细胞的病理生理学功能。
图6 3种生物信息学算法预测的microRNA数量
ERGIC3是ERGIC膜蛋白家族成员之一,主要参与蛋白质的囊泡运输[5-6,8,21]。GO富集分析结果显示ERGIC3相关基因主要富集在细胞内膜系统、内质网、高尔基复合体和囊泡等方面,这与先前报道相符合。囊泡运输对于细胞的生理过程至关重要, 其运输障碍与肿瘤发生发展密切相关[22]。通过分析我们认为异常表达的ERGIC3可能通过调节蛋白质如血管内皮生长因子(Vascular endothelial growth factor,VEGF)[10]的细胞内运输来影响肺腺癌细胞增殖和迁移。我们通过大数据研究,新发现ERGIC3还参与到了肺腺癌免疫微环境的调控。
近年来,肿瘤免疫疗法获得了发展势头,通过增强T细胞活性来调节T细胞反应的药物已经在广泛的实体肿瘤中显示出了临床疗效[23]。免疫检查点抑制剂如程序性细胞死亡蛋白1(Programmed cell death protein1,PD-1)/程序性细胞死亡蛋白配体1(Programmed cell death protein ligand1,PD-L1)抑制剂为肺癌、肾癌和其他类型的肿瘤带来更多的生存获益,并已被批准用于某些癌症的治疗[23]。为进一步阐明肺腺癌中ERGIC3的免疫功能,使用TIMER算法计算免疫细胞群的丰度,ERGIC3的表达水平与CD8+T细胞、CD4+T细胞、巨噬细胞、嗜中性粒细胞和树突状细胞呈负相关,而与B细胞无关。研究表明各种免疫细胞对肺癌细胞的生长均有显著影响[24-25],比如M2型的巨噬细胞通过促进肿瘤血管形成参与肿瘤的增殖转移等[26]。提示ERGIC3在LUAD发生发展的病理生理学中,其高表达抑制了上述免疫细胞进入肿瘤组织,从而抑制免疫细胞对肿瘤细胞的清除作用,进而调控肿瘤细胞的恶性生物学过程。
microRNA在转录后水平通过靶向不同的基因参与癌症的发生和进展[20,27]。本研究借助TargetScan、starbase和miRDB及Venny2.1.0发现hsa-miR-4731-5p可能是以ERGIC3为靶点的新的microRNA。先前研究发现miR-490-3p通过靶向ERGIC3调节肝癌细胞生长和上皮向间质转化 (Epithelial-mesenchymal transition, EMT)[13],然而,并没有发现miR-490-3p显著影响NSCLC细胞中ERGIC3的表达[9],可见,ERGIC3在不同癌症中的调控机制可能不同。此外,文献表明miR-203a下调诱导NSCLC细胞中ERGIC3过表达[9]。hsa-miR-4731-5p[28],尤其是miR-203a[29]是潜在的肺腺癌的肿瘤标志物,可能为肺腺癌的早期诊断和预后评估增加新成员。
总之,该研究除了进一步证明ERGIC3在肺腺癌中高表达、与肺腺癌细胞的增殖转移有关外,新发现为ERGIC3在肺腺癌的免疫调节中的潜在作用,以及与ERGIC3调控相关的microRNA在肺腺癌的发病机制与潜在预后生物标志物的开发具有重要意义。