李成长 徐久成
(河南师范大学 1生命科学学院细胞分化与调控省部共建国家重点实验室培育基地,河南 新乡 453007;2计算机与信息工程学院智慧商务与物联网技术河南省工程实验室;3新乡医学院基础医学院生理学与病理生理学系)
美国肺癌的5年生存率不超过17.4%〔1,2〕。肺腺癌是最常见类型的肺癌〔3〕,一项肺癌发病类型方面的流行病学研究显示,肺腺癌的发病率为40%,大细胞肺癌为9%,肺鳞癌为25%,小细胞肺癌为24%〔4〕。肺腺癌治疗手段主要包括:手术切除、放疗、化疗、激素疗法和分子靶向疗法,在肺癌发病早期手术切除的治疗效果比较好,但该病早期症状不明显,易被忽视,确诊时常处于晚期。晚期肺腺癌的治疗手段比较有限,分子靶向疗法是一个重要选择,但由于缺乏有效的分子靶点,目前大多数药物的治疗效果还不能令患者满意。
Pan等〔5〕研究发现在中国肺腺癌患者中表皮生长因子受体(EGFR)的Del19肽突变(估计频率为40%)导致中国肺腺癌患者患病,EGFR可能是免疫治疗的特异性靶标。Hu等〔6〕研究发现EGFR突变的晚期肺腺癌患者给予酪氨酸激酶抑制剂可有效延长患者生存时间。上皮-间质细胞转化与肺腺癌细胞的耐药性密切相关,Han等〔7〕研究表明miR-146b通过靶向蛋白酪氨酸磷酸酶(PTP)1B逆转人肺腺癌细胞的上皮-间质转化,进而抑制该型肿瘤的耐药性。尽管相关研究已发现多种肺腺癌治疗的潜在分子靶标,但有关治疗该病的高效分子靶标相对较少。这也吸引多个研究领域的学者参与寻找癌症潜在分子靶标的研究中,相关方法较多,既有传统的实验方法,又有基于机器学习的特征选择方法〔8~12〕。本文试图利用生物信息学方法寻找肺腺癌发病的关键基因,为该病的分子靶向治疗提供理论依据。
1.1基因表达数据的选取 检索GEO数据库,选取肺腺癌基因表达谱数据集:GSE31210。该基因表达谱来源于日本国家癌症中心研究所的基因芯片肺肿瘤表达情况的检测结果,共包含226个肺腺肿瘤组织样本和20个正常肺组织样本。
1.2基于GEO2R获取显著差异表达基因 为方便研究人员对GEO数据库的基因芯片数据进行分析,GEO提供了基于R语言的差异基因数据分析工具GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/),该工具利用R语言的GEOquery、Biobase和limma工具包比较数据库中的两组样本,发现并鉴别不同实验条件下表达有显著性差异的基因。本文利用GEO2R对上述基因表达谱数据集GSE31210中226个肿瘤样本和20个正常样本的基因数据进行差异分析,采用参数默认分析数据,差异表达基因(DEGs)的选择标准为:adj.P值<0.05且 |log2FC|>2。基于R语言绘制火山图(Volcano plots)可视化显著差异表达的基因。
1.3基因本体论(GO)与京都基因与基因组百科全书(KEGG)功能富集分析 GO分析主要包括GO注释和GO富集分析。GO富集分析主要包括生物过程、细胞组成和分子功能三个方面的内容,常用于高通量数据DEGs 的生物学功能的分析。作为一个综合数据库,KEGG包含16个子数据库,其中之一就是KEGG通路数据库。利用该数据库研究人员可分析DEGs显著富集的生物学通路。DAVID是一个基于GO和KEGG数据库的基因功能富集分析工具,该工具功能强大,采用交互式图形用户界面,非常便于用户使用,本文利用DAVID对DEGs进行GO和KEGG通路富集分析,P<0.05且基因count排名前10位的术语或通路作为显著富集的纳入标准。
1.4蛋白互作网络构建与关键基因的鉴别研究 基因通过翻译形成蛋白实现其生物学功能,而蛋白质-蛋白质之间相互作用(PPI)是实现其生物学功能的重要途径,与多方面的生命活动相关,由此分析,研究PPI网络有助于揭示DEGs的生物功能。STRING数据库是构建PPI网络经典途径,本文在多蛋白模式下,将肺腺癌DEGs输入STRING数据库,采用默认参数构建PPI网络,由于Cytoscape软件更擅长网络数据的分析和可视化,将STRING数据库所构建PPI网络导入到Cytoscape软件,基于最大团中心性算法(MCC算法)利用Cytoscape内置的Cytohubba插件对网络进行拓扑分析,鉴别与肺腺癌发病相关的关键基因。
1.5生存分析 生存分析是一种研究影响因素与生存时间和生存结局关系的数据统计分析方法,可用于探索特定基因过表达对患者的生存时间是否有显著影响。本课题相关肺腺癌基因的生存分析主要利用Kaplan Meier plotter(http://kmplot.com/)在线生存分析数据库完成,在此数据库中,可获得肺癌、卵巢癌、胃癌和乳腺癌的生存数据,为评估特定基因的预后价值,该数据库根据患者基因的表达值(高表达与低表达)中位数将其分为两个队列。可用于分析某个基因表达量高低对患者生存时间是否有显著影响,同时还可绘制生存曲线,是肿瘤生存数据分析的一个可靠工具。
2.1肺腺癌DEGs 基于GEO2R在线工具对基因表达谱数据集GSE31210的肿瘤样本与正常样本进行差异显著性分析,共获得443个DEGs,其中表达上调的DEGs有171个,272个DEGs表达下调。利用火山图可视化DEGs表达情况(图1),其中纵坐标代表基因表达水平变化倍数的对数值,横坐标代表差异显著性P值的负对数值,每个基因用图中的一个点表示,logFC取值<-2的灰色点代表表达显著下调的基因,logFC取值>2的灰色点代表表达显著上调的基因,其余黑色点代表表达情况无显著变化的基因。
2.2GO与KEGG功能富集分析 本文利用DAVID数据库对DEGs进行GO与KEGG功能富集分析,基因count>10且P<0.05作为显著富集的纳入标准,功能富集显著性排名前10的GO词汇和KEGG通路利用柱状图表示,对富集水平进行可视化展示。GO富集分析结果显示,GO生物学过程主要富集于:细胞对雌二醇刺激的反应、血管生成、细胞黏附、胶原分解代谢过程、炎症反应、血清素摄取的负调控、受体内化、细胞表面受体信号通路、细胞外基质分解、蛋白水解、胶原分解代谢等生物学过程(图2A)。细胞组分主要富集于细胞外区域、细胞外空间、质膜的整合组分、细胞外蛋白质基质、脂膜筏、质膜、膜的组成部分、细胞表面、细胞外泌体、细胞质核周区域(图2B)。分子功能方面主要富集于成纤维细胞生长因子结合、钙离子结合、转运活性、丝氨酸型内肽酶活性、与物质的跨膜运动有关的ATPase活性、Ras胍基核苷酸交换因子活性、肝素结合、金属内肽酶活性、金属肽酶活性、胶原结合(图2C)。KEGG通路富集分析主要集中于ECM-受体相互作用、蛋白质消化吸收、癌症中的转录失调、细胞黏附分子(CAMs)、黏附斑等生物学通路 (图2D)。
2.3蛋白互作网络的构建 本文利用STRING数据库构建蛋白质-蛋白质互作网络,该数据库基于文本挖掘、实验证据、数据库和共表达关系等信息确定蛋白之间的互作关系,网络中的每个点代表一种蛋白,任何两点之间的连线表示两蛋白之间存在互作关系,采用数据库默认参数构建蛋白互作网络(图3)。利用肺腺癌DEGs所构建蛋白互作网络总节点数为401,边数为1 131,平均节点度为5.64,局部聚类系数为0.369,互作网络富集P值<1.0×10-16。
2.4基于MCC算法鉴别网络中的关键基因 将STRING数据库所构建的互作网络信息导入到Cytoscape软件,基于Cytoscape内置的Cytohubba插件鉴别蛋白互作网络中的关键基因,该插件包含11种可用于网络拓扑分析的算法,相对于其他几种算法,MCC算法的稳定性较好,结果可靠,在关键节点的鉴别分析中应用广泛,本文采用MCC算法来鉴别肺腺癌发病相关的关键基因,共选取10个关键基因,这10个的关键基因按照度值排序依次是:CCNA2、HMMR、CDCA8、TOP2A、EXO1、RRM2、DLGAP5、CDC45、DEPDC1、ANLN (图4)。
图1 肺腺癌DEGs的火山图
A.GO生物学过程富集分析结果;B.GO细胞学组分富集分析结果;C.GO分子功能富集分析结果;D.KEGG通路富集分析结果
图3 基于STRING数据库构建DEGs的蛋白互作网络
深色节点为关键基因,其余节点为与关键基因有直接互作关系的基因
2.5生存分析 Kaplan Meier数据库可对21种肿瘤相关的54 000多个基因探针进行生存分析。本文利用Kaplan Meier数据库对所选取的排名前10位的关键基因进行生存分析,结果表明MCC算法所选取的10个关键基因过表达的肺腺癌患者的生存时间都表现为显著缩短(P>0.05)。排名前4位的关键基因分别为CCNA2、HMMR、CDCA8及TOP2A。
本研究提示DGEs主要包含与肿瘤发病密切相关的基因。生存分析表明所鉴别关键基因的过表达与患者的生存时间显著缩短密切相关,表明这些基因具有重要的生物学功能。一项基于基因共表达网络的研究显示CCNA2和CDCA8在细胞周期进程中起关键作用〔13〕,但其在肺腺癌过程中的作用,未见报道。一项为期3年的随访研究发现HMMR表达升高的患者,与该基因表达下降的患者相比,生存时间较短〔14〕。Stevens等〔15〕研究发现肺腺癌细胞中的HMMR表达减少可降低其诱发肺部肿瘤向较远部位转移的能力。Fan等〔16〕研究也提出TOP2A是肺腺癌病变关键基因这一结论。Yang等〔17〕研究表明EXO1是肺癌风险相关基因,与从不吸烟人群中EGFR外显子部分部位缺失的增加关系密切。 MacDermed等〔18〕研究表明核糖核苷酸还原酶(RR)M2参与肺癌腺细胞增殖和细胞周期调控〔18〕,以该基因为靶点的药物吉西他滨目前已应用于治疗非小细胞肺癌〔19〕。Zhang等〔20〕研究提示DLGAP5与肺腺癌细胞有丝分裂过程纺锤体功能密切相关,具有重要的预后价值。基于基因表达谱相关研究提示CDC45与细胞周期和DNA复制显著相关〔21〕。Wang等〔22〕研究证明含DEP结构域的蛋白质(DEPDC)1与肺腺癌不良预后相关,肺腺癌细胞系相关研究表明DEPDC1通过抑制调节NF-κB活性来抑制A549细胞的凋亡,该基因可能是肺癌的新型治疗靶标。ANLN高表达患者的肺腺癌细胞转移明显高于ANLN低表达患者,ANLN表达受抑制后,癌细胞迁移和侵袭能力降低〔23〕。