董 谦,龚娜英,陈 康,王伟佳△
1.广东省中山市人民医院,广东中山 528403;2.广东省深圳市人民医院转化医学协调创新中心,广东深圳 518116
急性髓系白血病(AML)是一种高度异质性的血液系统恶性肿瘤,表现为髓系起源的白血病细胞在骨髓和外周血中克隆性增殖[1]。在我国,AML的发病率为1.62/100 000,占成人急性白血病的60%~70%。目前,通过规范的联合化疗、造血干细胞移植及生物治疗等手段,AML的治愈率可达50%,但存在易复发的问题,有30%的患者病情不能完全缓解,且预后较差[2]。临床上,AML主要按照世界卫生组织2016年的标准,通过细胞形态学-免疫学-细胞遗传学-分子生物学方法(MICM)进行诊断和分型,其中细胞遗传学-分子生物学检测结果是对患者治疗方案选择和预后判断的重要指标之一。但是目前仍有部分AML未发现有重现性遗传学异常,新的分子生物标志物可能有助于使AML患者更好地进行风险分层,并帮助确定预后较差的患者。因此,探究与AML相关的新的基因、分子标志物、分子治疗靶点等对研究 AML的发病机制、预防和治疗具有重要意义。
随着高通量测序技术的发展,基因芯片技术是一项能够快速检测差异表达基因的可靠技术,通过这项技术,可将检测到的差异表达基因存储在公共数据库。因此,在这些数据的基础上,可以为新的研究寻找大量有价值的线索。本研究利用生物信息学方法,通过挖掘NCBI的基因表达数据库(GEO数据库)中与AML疾病研究进展有关的芯片数据,利用在线工具和软件进行生物学分析,以期找到AML发病中的潜在关键基因和信号通路,为研究疾病的发病机制、肿瘤标志物的筛选提供理论基础。
1.1数据集的获取和分析 GEO(https://www.ncbi.nlm.nih.gov/pubmed)包含的基因表达数据资源在全球范围内最全面,是一个公共功能基因组数据存储库。笔者以关键词“acute myeloid leukemia”在GEO数据库中检索,选择研究类型:Expression profiling by array,限制种属类型:Homo sapiens,在GEO数据库中查找出多个在AML患者的骨髓细胞和健康人骨髓细胞中的基因表达谱数据集。在结果中筛选包含AML疾病组与健康组对照实验数据的数据集。
1.2差异表达基因的筛选 GEO数据库的GEO2R[3]是一个基于R语言程序的微阵列芯片数据集分析工具。利用GEO2R在线工具(http://www.ncbi.nlm.nih.gov/geo/geo2r/)对从GEO数据库筛选出的GSE79605和GSE90062两个数据集中的基因进行差异表达基因筛选。实验条件和样本类型相同的多个基因数据集可通过GEOR工具分析,从而筛选出差异表达基因。根据log FC值(FC为差异倍数)对基因进行分类,log FC<0的差异表达基因为下调基因,log FC>0的DEGs为上调基因。设定筛选条件:采用t检验,以P<0.05和|log FC|≥0为变化阈值。再通过Venn制图工具,筛选出两个数据集中共同差异表达基因,并绘制交集图。
1.3共同表达基因的生物功能和信号通路途径分析 在线生物信息学分析工具DAVID[4](https://david.ncifcrf.gov/)收集了大量基因生物功能和信号传导通路研究信息,可对大规模的基因进行富集分析,注释其生物学功能和信号通路途径。将两个数据集中共同差异表达基因上传,通过基因本体论(GO)数据库(https://geneontology.org/)进行生物功能富集分析(以P<0.05设定为显著富集的临界值)和KEGG数据库(https://david.ncifcrf.gov/)进行信号通路富集分析(以P<0.05设定为纳入标准),以此识别差异表达基因的生物功能。
1.4蛋白质相互作用网络的构建与分析 STRING数据库中收录了大量已知和预测的蛋白质相互作用数据,利用这些数据资料编辑绘制蛋白质相互作用网络。将共同差异表达基因谱上传至STRING建立的蛋白质-蛋白质相互作用网(PPI)。下载网络数据使用Cytoscape中的STRING app检测这些DEGs之间的潜在相关性(最大交互作用体数=0,置信度评分0.4)。使用Cytoscape中的MCODE app对PPI网络中的模块进行检测,以此筛选出核心基因。
1.5核心基因的生物功能和信号通路富集再分析 应用DAVID数据库对筛选出的核心基因进行再次的生物信息学分析,结合GEO数据库附带的临床信息对核心基因进行分析,筛选出AML的发病机制、诊断、预后的潜在关键基因。代谢通路富集分析KEGG,应用统计学检验,设置筛选条件:P<0.05,求出在差异表达基因中显著性富集的通路。
2.1芯片数据集 笔者从GEO数据库中筛选出GSE79605和GSE90062两个基因芯片数据。GSE79605是基于Agilent-014850全人类基因组微阵列4x44K G4112F 的芯片平台GPL6480,包括两个AML患者骨髓组织和两个健康人骨髓组织;GSE90062是基于Affymetrix人类基因表达阵列芯片平台GPL15207,其中包括3个AML患者骨髓组织和3个健康人骨髓组织。
2.2GSE79605和GSE9006中共同的差异表达基因筛选 本研究共纳入5个AML患者骨髓组织和5个健康人骨髓组织。通过GEO的GEO2R在线工具,笔者从GSE79605提取了1 134个上调基因和717个下调基因;从GSE90062中提取了2 404个上调基因和2 004个下调基因。共检测到269个共同差异表达基因,其中有192个上调基因(log FC>0),77个下调基因(log FC<0)。见图1。
2.3共同差异表达基因的生物功能及信号通路途径分析结果 269个共同差异表达基因由DAVID软件分析,GO分析结果显示,(1)对于分子功能:在锌离子结合中上调的差异表达基因显著富集;(2)对于细胞成分,上调的差异表达基因在细胞表面、线粒体、突触前显著富集,下调的差异表达基因在细胞外的外来体、溶酶体膜、细胞间连接显著富集;(3)对于生物过程,上调的差异表达基因在G蛋白偶联受体信号通路、蛋白质加工、平滑肌细胞迁移的调节、机械性刺激的探测及乳腺导管形态发生方面特别丰富;下调的差异表达基因在细菌防御反应、神经元投射发展、MAP激酶活性负调控方面富集,差异有统计学意义(P<0.05),见表1。
表1 共同差异表达基因的生物功能富集分析结果
KEGG信号途径分析结果显示,在癌症通路、Rap1信号通路、血小板激活等方面上调的差异表达基因尤为富集,而下调的差异表达基因无明显信号通路,差异有统计学意义(P<0.05),见表2。
表2 差异表达基因的信号通路富集分析结果
2.4PPI网络构建与分析结果 利用STRING在线工具对上调的差异表达基因构建PPI,使用Cytoscape检测PPI中DEGs之间的潜在相关性,并通过MCODE app对PPI网络中的模块进行检测,以此筛选出核心基因分别为GNB5、GNA11、GNAS、PLCB2、GNA12、PRKCD、ADORA2B、F2RL3、LPAR5、GCA、MNDA、PLAC8、CTSA。
2.5核心基因生物信息学分析结果 根据生物功能富集再分析,这13个差异表达核心基因的生物功能主要富集于G蛋白β/亚单位复合物结合(GNA11、GNA12、GNAS),信号传感器活动(GNA11、GNA12、GNAS、PLCB2),三磷酸鸟苷(GTP)酶活性(GNA11、GNA12、GNAS)和GTP的结合(GNA11、GNA12、GNAS),见表3。通过KEGG信号通路再富集分析,结果表明,GNA11、GNA12、GNAS、GNB5和PLCB2这5个基因在癌症通路中显著富集,差异有统计学意义(P<0.05)。
注:A表示两个数据集中上调的差异表达基因,B表示在两个数据集中下调的差异表达基因;左圆代表GES90062数据集,右圆代表GES79605数据集,中间部分代表共同差异表达基因。
表3 核心差异表达基因的生物功能富集分析结果
随着新一代芯片测序技术的发展,出现越来越多收录测序数据的数据库及数据挖掘和分析的手段。当前的生物医学研究中,数据分析技术在研究生物学信号通路、代谢机制及人类疾病的诊断、治疗、预后判断中,作用不可小觑。本研究应用生物信息学分析方法,针对基因表达微阵列芯片数据集进行挖掘,对从GEO数据库筛选出的两个GSE79605和GSE90062基因数据集进行数据分析,以期探索可作为研究AML发病机制、肿瘤标志物筛选的潜在关键基因。
在本研究中,从GSE79605和GSE90062两个数据集中共获得192个上调共同差异表达基因和77个下调共同差异表达基因。根据生物功能富集分析结果显示:上调的DEGs在锌离子结合中显著富集,并且在细胞表面、线粒体、突触前显著富集,在G蛋白偶联受体信号通路、平滑肌细胞迁移的调节、蛋白质加工、机械性刺激的探测及乳腺导管形态发生方面特别丰富;通过KEGG信号通路途径分析发现上调的DEGs主要在癌症通路、Rap1信号通路、血小板激活等方面发挥作用。下调的DEGs在细胞外的外来体、溶酶体膜、细胞间连接显著富集,在细菌防御反应、神经元投射发展、MAP激酶活性负调控方面特别丰富。对上调的DEGs使用Cytoscape中的MCODE app对PPI网络中的模块进行检测,以此筛选出13个核心基因:GNB5、GNA11、GNAS、PLCB2、GNA12、PRKCD、ADORA2B、F2RL3、LPAR5、GCA、MNDA、PLAC8、CTSA。最后,笔者通过DAVID重新对13个核心基因进行生物功能富集分析,结果显示,这些差异表达基因在G蛋白β/亚单位复合物结合(GNA11、GNA12、GNAS),信号传感器活动(GNA11、GNA12、GNAS、PLCB2),GTP酶活性(GNA11、GNA12、GNAS)和GTP的结合(GNA11、GNA12、GNAS)等生物功能中显著富集。信号通路途径再分析表明,GNA11、GNA12、GNAS、GNB5和PLCB2在癌症通路中显著富集。
G蛋白是一组具有酶活性的蛋白质,参与多种生物代谢和信号传递活动,主要参与GTP的结合、水解,在各种跨膜信号系统中作为调节剂或传感器发挥作用。其由α、β和γ 3个亚基组成,根据α亚基氨基酸的序列不同可以将G蛋白分为Gs、Gi、Gq和G12 4类[5],GNA11、GNA12、GNAS均为G蛋白的α亚基的编码基因,GNA11为Gq一类,GNA12为G12一类,GNAS为Gs一类。G蛋白的作用受体G蛋白偶联受体与肿瘤的增殖作用密切相关。G蛋白偶联受体和激动剂结合后与G蛋白发生作用,在G蛋白的参与下,传递来自细胞外的各种信号,比如激素、趋化因子、生长因子等,与下游效应分子作用,从而影响肿瘤的发生、发展[6]。
VAN RAAMSDONK等[7]研究发现,黑色素细胞肿瘤中,有83%的瘤细胞中出现GNA11突变,在内分泌、胃肠、阑尾癌中也有报道GNA11表达异常[8],但其在白血病中鲜有报道。GNA12编码的G蛋白α亚基具有致癌潜力,激活的GNA12在体内外也促进前列腺和乳腺癌细胞的侵袭,其表达在许多肿瘤中上调[9],但鲜见其与白血病相关的研究报道。有研究发现,多种实体瘤中可见GNAS的表达异常[10-12],但血液病中GNAS的异常表达较为罕见,但BEJAR等[13]和HEO等[14]在骨髓异常增生综合征患者骨髓研究中证明GNAS存在异常表达。
PLCB2编码蛋白质PLC-β2,该蛋白可以传导归巢信号,参与造血干细胞的归巢过程[15],PLCB2的异常表达影响造血干细胞归巢,也可能导致血液病的发生,但PLCB2的表达异常在乳腺癌中多见[16-17],目前还鲜见其在血液病中的相关报道。
综上所述,对AML骨髓组织进行生物信息学分析鉴定,共获得269个共同差异表达基因,从中筛选出13个核心基因。这些核心基因中的GNA11、GNA12、GNAS等上调基因参与编辑G蛋白,与G蛋白偶联受体作用参与细胞的生物调节过程,G蛋白的异常与肿瘤的发生、发展密切相关,且目前鲜见GNA11、GNA12、GNAS、GNBS和PLCB2与AML关系的研究。所以在AML的发病机制、肿瘤标志物的筛选研究中,GNA11、GNA12、GNAS、GNBS和PLCB2有望成为新的潜在基因、分子标志物、分子治疗靶点。