郑州大学公共卫生学院尘肺病教研室,河南 郑州 450000
肺纤维化是一种慢性、进行性和具有破坏性的肺间质性疾病。在我国,肺纤维化的发生常与环境和职业、高龄、吸烟等因素相关。各种致病因素导致肺泡结构破坏、炎症细胞的浸润、成纤维细胞增殖和分化、细胞外基质(extracellular matrix,ECM)异常沉积,从而造成正常肺组织破坏,肺功能受损[1]。肺纤维化的预后极差,治愈率非常低,确诊后患者的平均存活期只有3~5年[2]。近年来,随着研究的不断深入,发现肺上皮细胞的上皮-间质转分化(epithelial-mesenchymal transition,EMT)在肺纤维化发生过程中具有重要的作用[3-4]。EMT 是指上皮细胞失去细胞紧密排列、缺乏运动能力、具有基底极性等上皮细胞特性,进而转化为具有细胞连接疏松,获得迁移能力以及丧失细胞极性的间质细胞特性,它参与了肺纤维化相关疾病的发生发展[5]。转化生长因子-β(transforming growth factor-β,TGF-β)是一种促进纤维化的细胞因子,是导致EMT发生的主要诱导剂,它能够通过TGF-β1/Smads通路、丝裂原活化蛋白激酶(mitogen-activated protein kinase,MAPK)通路和Wnt 通路等多个信号通路诱导肺部EMT 的发生[6]。A549 细胞保留了Ⅱ型肺泡上皮细胞的重要特征,TGF-β 能够激活A549 细胞并诱导其EMT 的发生,而这种转变伴随着与肺纤维化进展有关的功能变化[7]。TGF-β 诱导A549 细胞发生EMT 的体外模型已经成为研究肺纤维化相关EMT 的常用体外模型[8]。因此,探究TGF-β 刺激A549 细胞相关EMT 过程中差异表达基因,能够帮助了解肺纤维化相关EMT 过程中起到关键作用的基因,本研究选取基因表达综合数据库(Gene Expression Omnibus,GEO)中的基因芯片数据集GSE17708,通过生物信息学的方法对EMT过程中的差异表达基因进行筛选,而后找出EMT 过程相关的关键基因(Hub 基因)并进行相应实验验证,以检验这些Hub基因的差异表达与芯片中的趋势是否一致,从而进一步认识EMT 在肺纤维化过程的作用,为肺纤维化相关EMT 的研究提供参考。
芯片数据集来自美国国立信息中心(National Center for Biotechnology Information,NCBI)创立的GEO 数据库(https://www.ncbi.nlm.nih.gov/geo)中的数据集GSE17708,该芯片被纳入研究的原因:①包含多个时间点的数据,非单一时间点的测序数据;②该数据集中的样本多为3 个重复样本,可靠性较强。芯片信息平台为GPL570[HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array。该数据集包含26个样本,分为9组,即用5 ng·mL-1TGF-β刺激A549细胞0、0.5、1、2、4、8、16、24、72 h。除2 h 组只有2 个重复外,其他组均为3 个重复样本。5 ng·mL-1TGF-β 刺激A549细胞时间小于24 h,倒置相差显微镜下观察到A549 细胞并未发生明显形态学上的变化。考虑到刺激时间较短,其诱发EMT 过程并不理想,因此本研究选择0、24、72 h 三组,共9个样本。
运用Perl 语言将探针名称转化为基因名称,随后采用R 语言中的limma 包,以校正后的P<0.05 和log2基因表达值倍数变化(log2FC)的绝对值>1 为筛选条件,分别筛选出TGF-β 刺激A549 细胞24、72 h 与对照组(0 h)相比的差异表达基因,随后通过FunRich(http://www.funrich.org/)软件进行交集分析得到共同的差异表达基因。
采用DAVID 6.8(https://david.ncifcrf.gov)对差异表达基因进行GO 富集分析和KEGG 信号通路分析。GO 富集分析从生物学途径、细胞组分、分子功能三个方面对基因进行分类注释,KEGG 信号通路用以寻找EMT 相关重要的信号通路。
运用相互作用基因库检索工具(search tool for the retrieval of interacting genes,STRING)数据库(https://string-db.org)构建差异表达基因的PPI 网络,以中等可信度(交互作用评分>0.4)作为筛选的标准[9]。随后采用Cytoscape V3.7.1 对差异表达基因的PPI网络进行可视化,并选取其中的CytoHubba 插件通过采用最大团性中心(maximal clique centrality,MCC)方法将评分较高的基因作为Hub 基因[10-11]。
A549 细胞购买于中国科学院细胞库。将细胞培养在含体积分数为10%的胎牛血清、100 mg·L-1链霉素以及1.0×105U·L-1青霉素的RIPM 1640(美国Thermo)完全培养基中,放置在体积分数为5%的二氧化碳、37℃恒温无菌细胞培养箱中。A549 细胞以2×105个每孔铺于6 孔板中,实验分为对照组和TGF-β 处理组,用5 ng·mL-1TGF-β 分别刺激24、48、72 h 后采用Trizol试剂(日本TaKaRa)提取总RNA,采用PrimeScript™RT reagent Kit with gDNA Eraser 试剂盒(日本TaKaRa)进行反转录,并用TB Green™ Premix Ex Taq™ II试剂盒(日本TaKaRa)进行实时荧光定量,用以验证EMT 相关转分化指标和Hub 基因。EMT 相关转分化指标选择上皮细胞的标志物E-钙黏蛋白(E-cadherin,E-cad)和间质细胞的标志物波形蛋白(vimentin,VIM),用以判断TGF-β 刺激A549 细胞后是否诱发了EMT。首先,qRTPCR 检测24 h 和72 h 转分化指标以及THBS1、COL4A1、COL5A1、COL4A2、FGG、SERPINE1、LAMC2、IGFBP5的表达。而后,qRT-PCR 检测48 h 转分化指标和THBS1、COL4A1、COL5A1、COL4A2、FGG、SERPINE1、LAMC2的表达。引物由上海生工生物有限公司合成,引物序列如表1。数据采用2-ΔΔCt法进行处理,并采用SPSS 21.0分析数据,检验水准为α=0.05(双侧)。
表1 qRT-PCR引物序列Table 1 qRT-PCR primer sequence
TGF-β刺激A549细胞24 h,共筛选出差异表达基因67个,其中上调47个,下调20个,热图如图1A所示。刺激72 h,共筛选出差异表达基因100 个,其中上调48个,下调52个,热图见图1B。分别取24 h和72 h上调表达基因以及下调表达基因的交集,去除3个非编码基因等未在数据库中识别的基因名称,最终得到差异表达基因55个,其中上调35个,下调20个,见表2。
对上述得到的55 个差异表达基因进行GO 富集分析,结果显示:55 个差异表达基因主要参与的生物学途径包括胶原蛋白分解代谢的过程、细胞迁移正调控、生长负调节、内皮细胞凋亡过程的负调控以及ECM 组织;细胞组分的富集结果显示55 个差异表达基因集中在胞外区和细胞外间隙;分子功能的富集显示差异表达基因主要具有ECM 结构组成、肝素结合、磷脂酰丝氨酸绑定、酶抑制剂的活动、纤连蛋白结合功能。见图2。
图1 差异表达基因热图Figure 1 Heat map of differentially expressed genes
表2 共表达的差异表达基因Table 2 Co-expressed differentially expressed genes
图2 差异表达基因的GO 功能注释Figure 2 GO functional annotation of differentially expressed genes
对差异表达基因进行KEGG 信号通路分析如图3所示。结果显示,55 个差异表达基因主要参与的信号通路包括ECM 受体相互作用、阿米巴类感染、黏着斑的形成、PI3K-Akt 信号通路、矿物质吸收、血小板激活、补体及凝血级联反应、小细胞肺癌。
图3 差异表达基因的KEGG信号通路Figure 3 KEGG signaling pathway of differentially expressed genes
STRING 数据库(https://string-db.org)用于构建差异表达基因的蛋白互作网络,除去涣散的链接以及孤立点,绘制PPI网络,如图4所示。网络中共包含27个差异表达基因,表达上调的差异表达基因为18 个,表达下调的基因为9 个。采用的CytoHubba 插件中的MCC 法筛选PPI 网络中的Hub 基因,其结果如图5所示。评分较高的基因分别为THBS1、COL4A1、COL5A1、COL4A2、FGG、SERPINE1、LAMC2、IGFBP5。
图4 差异表达基因的PPI网络Figure 4 PPI network of differentially expressed genes
图5 Hub基因相关的PPI网络Figure 5 PPI network of hub genes
首先,通过qRT-PCR 测定了EMT 相关转分化指标的表达。E-cad 的表达在24、72 h 均下调,VIM 表达在24、72 h 均上调(如图6)。这说明TGF-β 刺激A549细胞后发生了EMT 的过程。随后,qRT-PCR 结果显示IGFBP5在A549 细胞中的丰度较低,并且与对照组相比,TGF-β刺激A549细胞24 h和72 h的差异并不明显。因此,对上述前7个Hub基因的表达情况进行了验证,除了FGG在24 h 表达上调与芯片结果不符,其他基因的表达趋势均与芯片数据一致(如图6)。除此之外,进一步检测TGF-β 刺激A549 细胞48 h 时EMT 相关转分化指标的表达和上述7 个Hub 基因的表达情况(如图6)。
图6 qRT-PCR 验证EMT相关转分化基因和Hub 基因Figure 6 qRT-PCR verification of EMT-related transition genes and hub genes
肺纤维化是一种慢性、进行性和具有破坏性的肺间质性疾病。环境和职业、高龄、吸烟等因素都会影响肺纤维化的发生。肺纤维化预后差,治愈率低,发病原因并不明确。随着研究的不断深入,上皮间质转化被证实在肺纤维化的发生过程中具有重要的作用[18]。而TGF-β 是导致EMT 的主要诱导剂[19]。因此本研究选用TGF-β 处理的肺泡Ⅱ型上皮细胞的基因芯片数据,以此来筛选肺纤维化相关EMT 过程中具有差异表达的基因。
本研究共筛选和验证了7 个差异表达基因—THBS1、COL4A1、COL5A1、COL4A2、FGG、LAMC2、SERPINE1。THBS1是血小板反应蛋白家族中的一员,它是一种多功能蛋白,具有不同的功能和结构域且具有多种生物活性。在组织生物发生和重塑中,THBS1调节细胞表型和细胞外结构,是被识别的第一构件[20]。已有文献报道THBS1是TGF-β的主要生理激活剂,它是EMT的有效激发剂[21-23]。研究表明,在结直肠癌中,THBS1通过增强癌细胞EMT促进它的迁移和侵袭[24]。而在另一项关于黑色素瘤研究中发现,THBS1 能够激活TGF-β1 来促进黑色素瘤的EMT[25]。由此可见,THBS1在EMT 的过程中发挥着重要的作用,这一点在本研究中得到了相应的证实。
IV 型胶原蛋白是基底膜中最丰富和必需的成分。基底膜是ECM 的一种特殊形式,由IV 型胶原蛋白、层粘连蛋白、纤连蛋白组成[26]。在某些器官的纤维化病变中可见IV 型胶原蛋白异常沉积,如在特发性间质肺炎的早期纤维化过程中,IV型胶原蛋白被证实具有异常的沉积,并能够促进成纤维细胞迁移以及增加黏着斑激酶的磷酸化[27]。在EMT 相关研究中,COL4A1被证实参与EMT 过程。研究表明在膀胱尿路上皮癌中,COL4A1 链激活细胞内蛋白激酶B(protein kinase B,PKB,也称AKT)信号传导途径从而触发EMT[28]。COL4A2链在EMT中的作用并未见相关报道,但在本研究中发现COL4A2链的上调趋势明显。随着生物信息学的发展,更多与EMT相关的Hub基因可能被筛选出来,而COL4A1链和COL4A2链可能会在EMT相关研究中的重要意义。V型胶原蛋白是肺中的次要胶原,被隔离在I型胶原(主要的肺胶原)的原纤维中[29]。它被认为是正常肺中的一种隔离抗原,位于血管周围和支气管周围的结缔组织中。先前的研究表明特发性肺纤维化期间肺中V 型胶原蛋白过表达,并且V 型胶原蛋白相关的免疫反应在肺纤维化的发病机理中起关键作用[30]。在一项关于闭塞性细支气管炎研究中表明,白细胞介素17(interleukin 17,IL17)能够让作为自身抗原的COL5A1表达上调,从而导致其异常沉积,促进EMT的发生[31]。而在另一项研究中发现在特发性肺纤维化患者的肺中,miR-185和miR-186除了能够调节COL5A1,还可以防止TGF-β诱导的V型胶原蛋白表达和EMT[32]。因此IV 型和Ⅴ型胶原蛋白都可能在肺纤维化相关的EMT中发挥重要作用。
纤维蛋白原是一种二聚体蛋白,由三对分别称为α、β 和γ 的多肽链组成,分别由纤维蛋白原α 链(FGA)、纤维蛋白原β链(FGB)和纤维蛋白原γ链(FGG)三种不同的基因编码。FGG参与纤维蛋白原的形成和功能的调节。纤维蛋白原在血液凝固、纤维蛋白溶解、细胞和基质相互作用、炎症和伤口愈合中起重要作用[33]。在肝细胞癌中,FGG 通过激活EMT 增强肝细胞癌细胞的迁移和侵袭[13]。
层粘连蛋白是重要的ECM 的组成成分之一,主要在神经视网膜、骨骼或上皮细胞的ECM 中积累。层粘连蛋白5是由α3(LAMA3)、β3(LAMB3)和γ2(LAMC2)三种亚基构成。在ECM 中,层粘连蛋白5 由上皮细胞特异性表达,并与细胞表面整联蛋白相互作用[34]。LAMC2 仅存在于层粘连蛋白5 中,它作为层粘连蛋白5 分子中的独特链,在层粘连蛋白5 的生理功能中起主要作用[35]。在胰腺癌的发生过程中,LAMC2 被发现与胰腺癌细胞EMT有关[36]。在肺癌中,LAMC2通过诱导EMT 促进肺腺癌细胞中的迁移、侵袭和转移[37]。在胆管癌中,LAMC2 表达增加时,胆管癌组织中的EMT被激活[38]。由此可见LAMC2 与EMT 过程具有相关性。
SERPINE1 也称为纤溶酶原激活物抑制剂1 型,是参与ECM 重组和细胞黏附的重要调控蛋白,它是丝氨酸蛋白酶抑制剂超家族的成员,是纤溶酶原激活系统的主要调节剂[39]。上皮性卵巢癌中,增加的SERPINE1 表达能够诱导上EMT,而SERPINE1 的低甲基化也参与了这一过程[40]。而在缺氧诱导的乳腺癌细胞EMT 过程中SERPINE1 表达增加[41]。同样,在胃癌中SERPINE1 能够通过调节EMT 促进肿瘤细胞的增殖、迁移和侵袭[42]。但其在肺纤维相关EMT 中是否具有重要作用未见相关报道,可能由于目前肺纤维化相关的EMT 研究还处在一个探索状态,需要借助测序技术等生物信息学的手段去发现更多起到关键作用的基因。此外,在A549 细胞中的IGFBP5的丰度较低,并且TGF-β 刺激A549 细胞24 h 和72 h 后与对照组相比差异并不明显,这可能是IGFBP5的丰度较低对检测的准确度造成了影响。
综上,本研究从TGF-β刺激A549细胞的芯片数据中筛选并验证了出了7个Hub基因。THBS1、COL4A1、COL5A1、COL4A2、LAMC2、SERPINE1均具有差异表达并且趋势与芯片结果一致,FGG基因在72 h与芯片结果一致,但在TGF-β刺激A549细胞24 h时的趋势与芯片结果不一致。在24 h时,芯片中FGG基因的log2FC仅为-1.07,下调并不明显,这可能是实验结果与芯片趋势不符的重要原因。这些基因能够帮助发现更多在肺纤维化EMT过程中起关键作用的基因。然而,本研究并没有涉及深层次的机制探索,没有发掘Hub基因之间的潜在关联。但是,对于了解在EMT的过程中起到调控作用的基因具有参考意义。