夏春伟 丁以艳 徐小峰 刘平
原发性肺癌是我国及世界范围内发病率和死亡率最高的恶性肿瘤之一,严重危害人类健康[1]。肺癌的发病率和死亡率呈明显上升趋势,2015 年我国新发肺癌病例 73.33 万(男性50.93 万,女性 22.40 万),居恶性肿瘤首位[2]。肺癌可以分为非小细胞肺癌(non small cell lung cancer,NSCLC)和小细胞肺癌(small cell lung cancer,SCLC)两大类,非小细胞肺癌约占 80%~85%。肺癌的治疗已从传统的手术、放疗、化疗发展为包括分子靶向和免疫治疗等综合性治疗,肺癌的分型也由单纯的病理组织学分类,进一步细分为基于驱动基因的分子亚型[3],NSCLC已进入精准诊断与治疗时代[4]。因此,进一步研究肺癌特异性高的诊断标志物和治疗靶点具有重要意义。
目前,高通量测序已经广泛应用于寻找疾病的候选基因,多种生物信息学数据库为肿瘤基因的数据挖掘提供了便利[5-6]。本文从GEO数据库中下载原始数据,对比NSCLC组织与正常肺组织的基因表达谱,筛选出差异表达基因,并进行预后分析,从而为NSCLC治疗及判断预后提供有价值的信息。
Gene Expression Omnibus(GEO, http://www.ncbi.nlm.nih.gov/geo)是目前最全面的公共基因表达数据库,由美国国立生物技术信息中心NCBI创建并维护[7]。从GEO下载三个基因表达数据集(GSE19804、GSE27262、GSE18842)。GSE19804数据集由Lu等于2010年发表,包含60个女性肺癌样本及配对的癌旁组织[8]。GSE27262包含25例肺癌组织及配对肺组织标本[9]。GSE18842包含46例肺癌组织及45例正常肺组织[10]。三组数据集的研究平台均为GPL570,Affymetrix Human Genome U133 Plus 2.0 Array。
利用 GEO2R 软件分别分析三个数据集中的肺癌组织与正常肺组织中的差异表达基因。以P≤0.01,log2 FC(fold change)绝对值≥1.5作为标准筛选差异表达基因。
DAVID(The Database for Annotation, Visualization and Integrated Discovery)是一个强大的生物信息数据库,整合了生物学数据和分析工具[11]。KEGG(京都基因与基因组百科全书)用于从高通量实验技术生成的大规模分子数据集中分析高级功能和生物系统的数据库资源[12]。GO(gene ontology)是基因本体联合会所建立的数据库,用于注释基因并分析这些基因的生物学过程[13]。GO的3个一级功能,它们分别是细胞学组份(Cellular Component)、生物学功能(Biological Process)和分子功能(Molecular Function)。用DAVID分析差异基因的功能及生物学信息,P<0.05为差异有统计学意义。
对差异基因通过STRING(Search Tool for the Retrieval of Interacting Genes, http://string-db.org)在线数据库进行PPI网络分析[14]。将综合评分>0.4的交互作用被认为具有统计学意义。Cytoscape是一个生物信息学软件平台,具有可视化的分子相互作用网络[15]。通过Cytoscape中的MCODE筛选核心差异基因。选择的标准是MCODE评分>5分,degree cut-off=2,node score cut-off=0.2,Max depth=100,k-score=2。
使用Kaplan-Meier plotter(http://kmplot.com/analysis/)数据库来评估差异基因表达水平与总生存期的关系。每个基因根据mRNA表达值分为高、低表达两组进行比较,P<0.05为差异有统计学意义。
在oncomine数据库中(https//www.oncomine.org/)检索差异基因在NSCLC组织与正常肺组织的表达差异。同时选取我院标本库10例NSCLC术后组织标本,采用实时荧光定量PCR(QPCR)检测目的基因在NSCLC和正常肺组织中的表达,本研究获得我院伦理委员会批准。使用Trizol试剂提取组织中总RNA,按照试剂盒提供说明书步骤进行。取一定量的RNA提取物,用RNase-Free ddH2O稀释,取稀释液进行OD260/OD280测定,比值在1.8~2.1之间可继续用于下一步实验。采用逆转录试剂盒将总RNA逆转录成cDNA,-20℃保存cDNA备用。采用 TaKaRa SYBR Premix Ex Taq Ⅱ进行定量检测,20ul 反应 体系中包括1μl cDNA,10μl SYBR Green,100 μM ASPM引物。QPCR的反应条件:95℃预变性3 min;95℃ 15 sec、60℃ 45 sec,40个循环。ASPM上游引物:5′-GGAAGTGAGCCCGACCGA-3′;下游引物:5′-GCAAAGGAAAGGAGACC-3′。以GAPDH 为内参,上游引物:5′-AGATCCCTCCAAAATCAAGTGG-3′;下游引物:5′-GGCAGAGATGATGACCCTTTT-3′。反应结束后确认 Real Time PCR 的扩增曲线和融解曲线。GAPDH 为内参基因,mRNA 的相对表达水平用 2-△△CT计算。
GSE18842从54675个基因中筛选出2054个基因,GSE27262从54675个基因中筛选出1470个基因,GSE19804从25248个基因中筛选出699个基因。对三个数据集取交集共包含401个差异基因(见图1)。
表1 差异基因的GO及KEGG富集分析结果
用DAVID分析差异基因的生物学分类、功能及生物学信息。GO分析显示生物学功能(BP)发生变化的主要表现在血管生成、损伤反应、细胞粘附、调节细胞增殖等。细胞学组份(CC)发生变化主要富集在细胞外区域部分、细胞表面和细胞质膜部分。分子功能(MF)主要富集在生长因子结合、碳水化合物结合、膜式结合、多糖结合和细胞因子活性。KEGG信号通路主要富集在细胞外基质受体相互作用、粘着斑和细胞粘附分子等通路(见表1)。
利用STRING进行差异基因间的蛋白-蛋白互作网络分析,将数据导入Cytoscape进行可视化,PPI网络共涉及个346节点和1415条边(图2)。同时用Cytoscape中MCODE模块进行进一步筛选,共筛选出29个节点386条边,这29个即为最重要的差异基因(图3)。
图1 从GSE19804、GSE27262、GSE18842三个数据集,以P<0.01,log2FC绝对值>1.5为标准,这三个数据集显示了401个差异基因的重叠
图2 Cytoscape进行差异基因的PPI网络分析
图3 PPI网络分析筛选出的29个差异基因
选取PPI网络中连通度(degree)排序靠前的基因,使用Kaplan-Meier plotter对其进行预后分析。其中,ASPM、CDC20、CENPF、DLGAP5、NUSAP1、TOP2A、TPX2、RRM2、ANLN基因的高表达均影响肺癌患者的总体生存率(见图4)。
在oncomine数据库中Selamat数据集中[16],对58例肺癌标本及58例正常肺组织进行研究,发现ASPM表达在肺癌组织中明显上调(P<0.001,图5A)。选取10例正常肺组织及肺癌组织通过QPCR检测ASPM,其表达水平分别为0.97±0.04、2.83±0.59,差异有统计学意义,P<0.01(图5B)。
图4 差异基因的预后分析
图5 ASPM在NSCLC中表达上调 A.oncomine数据库中Selamat数据集,ASPM在肺癌组织中高表达。B.QPCR 显示ASMP在肺癌组织中的表达较正常组织显著增加。
GEO 数据库中存在大量的测序数据,通过生物信息学方法挖掘具有研究价值的基因,为进一步深入研究提供了方向。本研究从三个数据集中共筛选出401个差异基因。进行GO及KEGG富集分析,通过PPI网络分析筛选出29个差异基因。使用Kaplan-Meier plotter 对重要的核心基因进行预后分析,发现ASPM等基因其低表达患者的总生存期较高表达患者明显延长。通过oncomine数据库检索,ASPM表达在肺癌组织中较正常组织明显上调,进一步行QPCR验证,ASPM在肺癌组织中高表达,差异有统计学意义。
人类异常纺锤体样小头畸形相关蛋白基因(Human Abnormal Spindle-like Microcephaly-associated,ASPM),位于染色体1q31,全长65kb, 编码区长10434bp,由28个外显子构成。ASPM参与所有分裂细胞的纺锤体组织,纺锤体定位和胞质分裂,并且蛋白质的极端C-末端是ASPM定位和功能所必需的[17]。ASPM在胚胎期神经形成中起重要作用,与常染色体隐性遗传小头畸形的发病相关[18]。研究发现,ASPM在胎儿和成人组织中广泛表达,并在增殖旺盛的组织及肿瘤组织中高表达[19]。
Wang等的研究首次证明,ASPM在是胰腺导管腺癌(PDAC)细胞系及肿瘤组织中表达上调,并与患者预后相关。进一步研究发现,ASPM通过维持PDAC细胞的Wnt-β-catenin信号传导促进PDAC的侵袭性[20]。Bikeye等研究了175个胶质瘤样本中的mRNA表达,发现ASPM的表达与肿瘤分级密切相关,并且在肿瘤复发时表达增加,表明ASPM参与胶质瘤的恶性进展,并且是潜在的治疗靶点[21]。Xu 通过TCGA数据库收集6个膀胱癌微阵列mRNA表达数据集,并进行RT-PCR分析,研究中发现膀胱癌组织中ASPM mRNA表达高于癌旁正常组织,ASPM mRNA表达与膀胱癌的分期和肿瘤转移显著相关[22]。Pai VC的研究发现[23],ASPM的表达在原发性和转移性前列腺癌(PCA)中逐渐上调,ASPM表达的下调显著减弱了PCA细胞的增殖,克隆形成和侵入行为。肿瘤中ASPM高表达细胞的比例与PCA患者的无复发存活率成反比。ASPM与经典Wnt信号传导的上游调节因子Dvl-3相互作用,是PCA中Wnt信号传导和肿瘤干细胞的必需调节因子,具有重要的临床和治疗意义。
多项研究证实ASPM在多种肿瘤组织中高表达,可以促进肿瘤细胞的增殖、侵袭,但其在肺癌中的研究较少,具体促癌机制的研究未见报道,值得进一步研究。综上所述,本研究对NSCLC芯片数据进行生物信息学分析,发现ASPM在肺癌组织中高表达,可能是 NSCLC 的潜在治疗靶基因,下一步仍然需要更多的研究来验证。