孙百尔,钱佳燕
(1 南通大学附属医院呼吸与危重症医学科,南通 226001;2 江苏省南通市第一老年病医院呼吸与危重症医学科)
肺癌是世界上最常见的恶性肿瘤之一,已成为中国城市人群恶性肿瘤的首位死因[1]。非小细胞肺癌(non-small cell lung cancer,NSCLC)作为肺癌的主要类型,约占所有患者的80%,尽管在早期预后和治疗方面取得了显著成绩,但NSCLC 的5 年生存率并不乐观(30%~40%)[2]。因此,探索NSCLC 的分子机制以开发更有效的治疗方法具有重要意义。
近年来,大量生物信息学技术被应用于临床研究,随着越来越多的高通量测序技术和微阵列芯片的发布[3],这些技术被用于识别可能与NSCLC 的致癌性和进展有关的差异表达基因(differentially expressed genes,DEGs),这为NSCLC 的诊断和更有效的治疗策略提供了更多潜在靶点。为避免来自单个微阵列基因表达数据集的假阳性结果,本研究从基因表达综合数据库(gene expression omnibus,GEO)数据库下载了3 个原始基因表达谱数据集寻找DEGs。此外,还进行了基因本体论(gene ontology,GO)和京都基因和基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)通路富集分析,并构建了蛋白质-蛋白质相互作用(protein-protein interaction,PPI)网络,以了解生成和基因组的分子机制。此外通过R 语言和各种在线工具来识别NSCLC 中潜在的核心基因,对感兴趣的目标基因进行包括癌症基因组图谱(the cancer genome atlas,TCGA)在内的多个数据库验证以及Logistic 回归分析,同时预测上游调控该目标基因的微小RNA(microRNA,miRNA),并对该miRNA进行相应的分析。
1.1 芯片数据来源 从GEO 数据库(https://www.ncbi.nlm.nih.gov/geo/)中获得3 个基因表达谱(GSE10929、GSE33532 和GSE18842)。纳入标准:(1)样本包括两组NSCLC 组织和非肿瘤组织;(2)样本量>60 例;(3)最近更新(2019—2021 年);(4)基于GPL570 平台的样品。GSE10929 的阵列数据包括非裔美国人和欧洲裔美国人NSCLC StageⅠ~Ⅲ期66 例患者的配对样品。GSE30219 由德国StageⅠ~Ⅱ期NSCLC 组织80个样本和非肿瘤组织20 个样本组成。GSE19804 由西班牙的91 个样本组成,包括NSCLC 46 个样本和非肿瘤组织45 个样本。使用GEO2R 在NSCLC 组织和非肿瘤组织之间鉴定DEGs。
1.2 识别DEGs 使用R 语言limma package 包[4]识别各数据集NSCLC 组织与非肿瘤组织间的DEGs。截断标准为|log2差异倍数(fold-change,FC)|>1.5,矫正P<0.05。再利用Venny2.1.0(https://bioinfogp.cnb.csic.es/tools/venny/)将GSE10929、GSE33532 和GSE18842这3 个数据集的DEGs 取交集。
1.3 DEGs 的GO 功能和KEGG 通路富集分析 使用clusterProfiler 包[5]对所鉴定的DEGs 进行GO和KEGG 富集分析。GO 和KEGG 被用于从基因组信息了解和模拟细胞或生物体的高阶功能行为。基因的GO 分析涉及生物学过程(biological process,BP)、细胞组成(cellular component,CC)和分子功能(molecular function,MF)3 个方面。以富集因子作为截断标准,表示差异有统计学意义。并筛选出前20 个GO 条款和KEGG 路径。
1.4 PPI 网络的构建和Hub 基因筛选 通过交互作用基因检索工具STRING(https://cn.string-db.org)构建DEGs 的PPI 网络,以交互作用得分0.40 为阈值,将没有连接的节点从网络中删除。将DEGs 导入Cytoscape[6]进行可视化分析,通过Cytoscape MCODE插件创建PPI 网络中的模块筛选出评分最高的模块,并使用R 包clusterProfiler 对该模块进行富集分析。用插件CytoHubba 进行Hub 基因分析,选取马修斯相关系数(Matthews correlation coefficient,MCC)获取前10个核心基因。
1.5 关键基因的表达验证 利用Kaplan-Meier Plotter(http://kmplot.com/private/)[7]数据库分析核心基因在NSCLC 组织和非肿瘤组织中的表达水平,并绘制核心基因的Kaplan-Meier 生存曲线。利用GEPIA(http://gepia.cancer-pku.cn/)和HPA(https://www.proteinatlas.org/)获取目标基因的mRNA 和蛋白水平表达差异情况,并使用Kaplan-Meier Plotter 和GEPIA 数据库对目标基因进行生存曲线的亚组分析。对TCGA 数据库下载的肺腺癌患者临床数据进行分析[8],以ladinin-1(LAD1)表达作为目标基因做单变量Logistic 回归分析。
1.6 LAD1 和microRNAs 关系预测 使用线数据库TargetScan8.0(http://www.targetscan.org/vert_80/)[9]预测与LAD1 相互作用的miRNAs,并用Kaplan-Meier Plotter 绘制miRNA 的生存曲线。
1.7 组织来源和蛋白质印迹分析 本研究经南通大学附属医院伦理委员会批准(批准号:2021-L142),所有患者均签署正式知情同意书。在南通大学附属医院2022 年5 月行NSCLC 切除术的患者中获得7对NSCLC 及癌旁非肿瘤组织样本,术前均未接受放疗或化疗。所有标本均按照道德和法律标准匿名处理。使用含有1%蛋白酶抑制剂的RIPA 裂解缓冲液从NSCLC 组织和非肿瘤组织中提取总蛋白。如前所述[10],通过电泳将不同分子量的蛋白分开,将含不同分子量蛋白的电泳胶转印到PVDF 膜上,用5%的脱脂奶粉封闭2 h,在4 ℃孵育一抗(LAD1 为1∶500;GAPDH 为1∶1 000)过夜。转印后的PVDF 膜用HRP标记的抗鼠二抗(1∶1 000)在37 ℃条件下孵育2 h。最后使用电化学发光仪观察取图。
2.1 NSCLC 和非肿瘤组织的DEGs 及其GO 和KEGG 通路富集分析 通过对基因芯片GSE10929、GSE33532 和GSE18842 进行DEGs 分析并取3 个数据集的交集,得到289 个DEGs,其中上调基因和下调基因分别为157 个和132 个(图1A)。采用R 包clusterProfiler 对得到的289 个DEGs 进行GO 和KEGG 通路富集分析(图1B),涉及的KEGG 通路有细胞周期、疟疾、IL-17 信号通路、补体和凝血级联、肾素分泌;BP 方面包括有丝核分裂、姐妹染色单体分离、染色体分离、有丝分裂姐妹染色单体分离、细胞外结构组织,CC 提示这些基因大多参与含有细胞外基质的胶原蛋白、浓缩染色体、着丝粒区、染色体着丝粒区域、染色体区域等,MF 的变化主要集中在细胞外基质结构成分、金属肽链内断酶活性、糖胺聚糖绑定、肝素结合等。
图1 筛选核心基因
2.2 PPI 网络的构建及模块分析 289 个DEGs 的PPI 网络由284 个节点、379 条边组成,平均局部聚类系数为0.485(PPI 富集P<0.001)(图1C)。然后将所得数据导入Cytoscape 中,利用MCODE 插件从差异基因蛋白互作网络中获得共检测到8 个模块和相关Hub 基因的功能集群;选取积分最高的1 个模块,包括53 个节点和1 322 条边(图1D)。另外通过插件CytoHubba 筛选前10 个的核心基因,包括DLGAP5、NCAPG、CCNB1、KIF11、KIAA0101、RRM2、TTK、UBE2C、LAD1、MAD2L1(图1E)。
2.3 核心基因LAD1 分析 使用Kaplan-Meier Plotter 对10 个核心基因进行总体生存分析,结果显示上述基因在NSCLC 组织高表达组的生存时间均低于低表达组(均P<0.001)。经过查阅文献,发现除LAD1 之外,其余的基因均已有较为深入的研究,因此将目标基因锁定在了LAD1,基于GEPIA 和HPA数据库发现其在mRNA 水平和蛋白水平表达均有差异(图2A~B);同时对临床收取的7 对NSCLC 及癌旁组织样品进行蛋白印迹分析验证,结果显示LAD1蛋白在NSCLC 组织中的表达高于癌旁组织(图2C);基于Kaplan-Meier Plotter 和GEPIA 数据库LAD1高表达在肺腺癌中低生存率(均P<0.010),但其在肺鳞癌差异无统计学意义(P=0.054、0.670)(图3A~D)。因此利用TCGA 数据库下载的肺腺癌患者临床数据做进一步的分析,以LAD1 表达作为分类因变量的单变量Logistic 回归分析,LAD1 表达增加与T 分期(P<0.011)、N 分期(P<0.015)、病理分期(P<0.001)显著相关,与远处转移、性别、年龄、吸烟无关(表1)。
表1 TCGA 数据库患者Logistic 回归分析LAD1 表达与临床病理变量的关系
图2 LAD1 的差异表达
图3 LAD1、miR-124-3p 的生存曲线数据库及miR-124-3p 结合位点的预测结果
2.4 LAD1 与miRNA 相互作用预测结果 通过TargetScan 数据库预测到miR-124-3p 直接与LAD1 mRNA 的3'UTR 结合,是LAD1 转录后的调节因子(图3E)。
2.5 miR-124-3p 在NSCLC 中的表达水平与生存预后分析 为分析miR-124-3p 与NSCLC 生存预后之间的关系,Kaplan-Meier Plotter 数据库分析结果发现,miR-124-3p 肺腺癌和肺鳞癌中的表达与生存期时间呈正相关,其中肺腺癌差异有统计学意义(P=0.009,图3F),但肺鳞癌组差异无统计学意义(P=0.410,图3G)。随后对肺腺癌患者进行性别亚组分析,发现miR-124-3p 在女性肺腺癌中差异有统计学意义(P=0.048,图3H),而其在男性患者中差异无统计学意义(P=0.100,图3I)。
肺癌的发生发展是一个复杂的过程,涉及多个基因和细胞通路的改变。找到这些枢纽基因并了解它们在NSCLC 分子机制中的作用对于提高诊断和治疗水平至关重要[11]。随着微阵列和高通量技术的发展,疾病相关基因的鉴定和基因功能预测得到应用。本研究中,分析了3 个GEO 数据集,确定了289个DEGs,包括74 个上调基因和275 个下调基因。KEGG 通路富集分析表明前5 名的差异基因主要涉及细胞周期、疟疾、IL-17 信号通路、补体和凝血级联、肾素分泌。细胞周期与肿瘤的增殖和凋亡密切相关[12]。流行病学研究[13]表明,疟疾的发病率与结直肠癌、乳腺癌和肺癌的死亡率呈负相关。IL-17 是一种有效的促炎细胞因子,已被证明与多种恶性肿瘤的形成、生长和转移密切相关。IL-17 可直接作用于组织干细胞以促进组织修复和肿瘤发生,并刺激IL-17/IL-17R 免疫反应相互作用,从而在肿瘤微环境中发挥调节肿瘤生长和转移中的作用[14]。凝血级联反应的激活与肿瘤发展有关,然而,凝血蛋白促进肿瘤发生的确切机制尚不完全清楚,可能与纤维蛋白的肿瘤周围沉积以及止血因子的改变有关,因此有利于细胞增殖、血管生成和转移[15]。据报道,肿瘤中存在局部肾素-血管紧张素系统(renin-angiotensin system,RAS),影响各种免疫细胞和间质细胞并影响肿瘤免疫反应[16]。因此,鉴定出的DEGs 可能在NSCLC的发生和发展中发挥作用。
为探索NSCLC 的分子机制,构建了NSCLC 相关的PPI 网络。PPI 网络和模块分析鉴定出的10 个核心基因中,CCNB1、RRM2、NCAPG、DLGAP5、MAD2L1、TTK、UBE2C、KIF11、KIAA0101、LAD1。生存分析表明,这些中枢基因的上调与较差的总体生存率有关。通过Pubmed 文献检索显示NSCLC 与枢纽基因LAD1 的研究较少,仅在一篇鉴别良性肺结节与肺腺癌的蛋白质组学特征的研究[17]中揭示,与良性肺结节和正常组织相比LAD1 在肺腺癌中显着升高。但LAD1 与NSCLC 中的临床病理参数、预后的关系及其机制尚未见报道。LAD1是一种蛋白质,最初被称为哺乳动物表皮细胞基底膜的胶原锚丝蛋白。研究[18]发现LAD1 在乳腺上皮细胞中的胞质定位。喉癌组织的蛋白质组学分析表明LAD1蛋白在转移组织中特异性富集,但在配对的相邻正常组织和原发性肿瘤组织中不富集[19]。此外,在乳腺癌患者的大型临床数据集中的分析表明,高表达的LAD1 转录本与乳腺癌患者的不良预后相关[18]。在小鼠甲状腺癌模型中发现,BRAFV600E 突变可诱导LAD1 转录物的表达,类似的,与正常组织相比,在携带BRAF、RET 和RAS 等基因致癌突变的人类甲状腺癌中,LAD1 转录物的表达亦升高[20],揭示了LAD1 表达与致癌信号通路之间的分子联系。
本研究通过公共数据库挖掘,发现LAD1 在不同肺肿瘤中mRNA 水平和蛋白水平表达均有差异;并收集7 对NSCLC 临床样本进行蛋白印迹的表达差异验证;基于Kaplan-Meier Plotter 和GEPIA 数据库分析显示LAD1 高表达组在肺腺癌中预后较差,但其在肺鳞癌中差异无统计学意义;并基于TCGA 数据库下载的肺腺癌患者临床数据做进一步的分析,以LAD1 表达作为分类因变量的单变量做Logistic 回归分析显示,LAD1 表达增加与T 分期(P<0.011)、N分期(P<0.015)、病理分期(P<0.001)显著相关;还通过TargetScan 数据库预测到miR-124-3p 直接与LAD1 mRNA 的3'UTR 结合,是LAD1 转录后的调节因子。
为进一步了解LAD1 参与肺腺癌的发生发展的分子机制,预测了调控LAD1 的转录后调节因子miRNAs,其为一类单链非编码内源性RNA 分子,可通过诱导mRNA 降解或通过与mRNA 的3'-UTR的互补结合而抑制mRNA[21]。预测结果显示miR-124-3p 可直接与LAD1 mRNA 的3'UTR 结合[9]。研究[21-23]表明miR-124-3p 主要被表征为一种肿瘤抑制因子,可调节多种癌症的肿瘤发生和进展,例如肝细胞癌、胃癌、膀胱癌、卵巢癌和白血病。其在多篇肺癌研究[24-26]中均低表达,为验证NSCLC 中miR-124-3p 与LAD1 的关系,本研究通过Kaplan-Meier plotter 数据库检索了miR-124-3p 在NSCLC 中的表达与生存预后,结果显示miR-124-3p 在肺鳞癌组织中的低表达组生存期短于非肿瘤组织组(P=0.009);而其在肺腺癌差异无统计学意义,但随后的亚组分析,其在女性肺腺癌组,低表达组生存期短于非肿瘤组织组(P=0.048)。由此得出miR-124-3p 调控的LAD1很可能是女性肺腺癌潜在的治疗靶点。但本研究还有不足之处:首先,基于公共数据库中已经报道的数据,数据库分析数据所用统计方法的准确性和选择可能会影响研究结果的解释。其次,数据库中的样本数量不断受到扩展,这会影响本研究的结果。第三,缺少深入的机制研究,计划收集样本进行功能实验来证实肺腺癌中miR-124-3p 对LAD1 的调控机制。