邓颖,熊安秀,刘景珍,祁闪闪,熊昊
(1. 华中科技大学同济医学院附属武汉儿童医院公共卫生科,武汉 430015; 2. 宜昌市中心人民医院儿科,湖北 宜昌 443003; 3. 恩施州中心医院儿童血液消化心血管肾病中心,湖北 恩施 445099; 4 .华中科技大学同济医学院附属武汉儿童医院儿童血液疾病研究室,武汉 430015; 5.华中科技大学同济医学院附属武汉儿童医院血液肿瘤科,武汉 430015)
急性髓细胞白血病 (acute myeloid leukemia,AML)约占儿童白血病的20%~25%[1]。虽然与急性淋巴细胞白血病相比,儿童AML的发病率低,预后较差。目前,AML的总生存率不到70%,复发率高达25%~35%[2-3]。细胞遗传学被认为是AML风险分层的主要依据,然而在临床实践中,接近半数的AML患儿细胞遗传学正常,疾病的转归却有着显著的差异[4]。近年来,随着二代基因测序技术的发展,AML相关的重现性遗传学异常逐渐被发现,并且在AML诊断、治疗和预后等方面的重要性日益凸显,但仍有部分患儿未携带已知的遗传学异常。因此,探究与儿童AML相关的新的分子生物标志物有助于对AML患儿进行风险分层。本研究通过下载和整理有效治疗方法适用性研究 (therapeutically applicable research to generate effective treatments,TARGET) 数据库中儿童AML的基因表达数据和临床信息,利用生物信息学分析手段对AML相关的致病基因进行挖掘,以期为探索AML的发病机制及分子标志物的筛选提供新的方向。
通过TARGET网站 (https://ocg.cancer.gov/programs/target) 检索并下载儿童AML的临床信息和基因表达数据。TARGET数据库包含121例AML患儿的临床信息,其中,女性患儿63例,男性患儿58例。TARGET数据库中AML患儿的基因表达数据和临床信息来自美国儿童肿瘤协作组 (children’s oncology group,COG) 的美国AML (America acute myeloid leukemia,AAML) 0531 Ⅲ期临床试验。
采用R软件的DESeq2包对TARGET数据库AML患儿的基因表达数据进行差异表达基因筛选,筛选条件为差异表达上调或下调≥2倍,即 | log2FC |≥1,且P< 0.05。
采用DAVID在线数据库对筛选出的差异基因进行基因本体论 (Gene Ontology,GO) 注释和京都基因与基因组数据库 (Kyoto encyclopedia of genes and genomes,KEGG) 信号通路注释,分析差异基因参与的生物学过程(biological process,BP) 以及涉及的相关通路,以P< 0.05 为入选标准。应用STRING在线数据库构建差异基因的蛋白质-蛋白质相互作用(protein-protein interaction,PPI)网络结构图,然后使用Cytoscape 3.7.2 软件进行可视化,并通过cytoHubba插件筛选hub基因。
采用SPSS 22.0软件进行统计分析。使用R语言的survival包计算hub基因表达量的最佳cut-off值,并将表达量 TARGET数据库中有121例AML患儿的临床信息,除7例危险度分层未知外,其余114例患儿中48例低危,61例中危,5例高危。进一步对114例患儿初诊时骨髓标本的基因表达信息进行分析。相较于低危患儿,中高危患儿有2 092个差异基因,其中上调基因1 167个,下调基因925个 (图1A)。相较初诊患儿,39例复发患儿有785个差异基因,其中上调基因184个,下调基因601个 (图1B)。绘制2组差异基因的韦恩图,共得到差异基因96个,其中上调基因38个(图1C),下调基因58个 (图1D)。 图1 TARGET数据库AML患儿差异基因的筛选Fig.1 Screening of DEGs of childhood AML using the TARGET database 采用DAVID数据库对96个差异基因进行GO富集分析。结果显示,差异基因在细胞组分 (cellular component,CC) 主要富集于核小体、细胞质、晚期内体膜、核染色体、浓缩染色体外着丝粒,在BP中主要富集于核小体组装、染色体分离、对有毒物质的反应、染色质沉默、纺锤组织,在分子功能 (molecular function,MF) 主要富集于蛋白质异二聚活性、DNA结合、染色质结合、微管结合、MAP激酶酪氨酸/丝氨酸/苏氨酸磷酸酶活性,见图2A。96个差异基因的KEGG通路富集分析结果显示,差异基因在酗酒、系统性红斑狼疮、病毒致癌等通路聚集,见图2B。 图2 差异基因的富集分析Fig.2 Enrichment analysis of DEGs 通过 STRING 数据库构建96个差异基因的PPI网络 (图3A)。除去孤立无关系的蛋白节点,通过Cytoscape 软件对差异基因进行PPI 网络的可视化(图3B),颜色越红,关联性越强。在Cytoscape 软件的cytoHubba模块,分别使用Betweenness、EPC、MCC、Radiality、Stress等5种计算方法计算 PPI 网络节点的前10个有较高连接度的hub基因,见表1。得到的15个hub基因分别是细胞分裂周期相关蛋白2 (cell division cycle associated 2,CDCA2)、细胞周期蛋白依赖激酶1 (cyclin dependent kinase 1,CDK1)、着丝粒蛋白E (centromere protein E,CENPE)、DNA甲基转移酶3B (DNA methyltransferase 3 beta,DNMT3B)、二肽基肽酶4 (dipeptidyl peptidase 4,DPP4)、核酸外切酶1 (exonuclease 1,EXO1)、TTK蛋白激酶 (TTK protein kinase,TTK)、FOS原癌基因 (Fos proto-oncogene,FOS)、H2B聚集组蛋白5 (H2B clustered histone 5,H2BC5)、H3聚集组蛋白4 (H3 clustered histone 4,H3C4)、H3聚集组蛋白10 (H3 clustered histone 10,H3C10)、H2A聚集组蛋白19 (H2A clustered histone 19,H2AC19)、H2A聚集组蛋白20 (H2A clustered histone 20,H2AC20)、H2B聚集组蛋白21 (H2B clustered histone 21,H2BC21)、转化生长因子β1诱导转录1(transforming growth factor beta 1 induced transcript 1,TGFB1I1)。 表1 5种计算方法的前10个hub基因Tab.1 The top 10 hub genes identified by five centrality methods 图3 差异基因的PPI分析Fig.3 PPI analysis of DGEs 采用χ2检验分析AML患儿临床病理特征 (包括性别、年龄、初诊时外周血白细胞、中枢浸润、危险度分层) 与15个hub基因表达量之间的相关性。结果表明hub基因的表达与男女比例、年龄分布、是否中枢侵犯等无相关性 (均P> 0.05)。DNMT3B、DPP4、CENPE、TTK、CDCA2、EXO1、CDK1的高表达与危险度分层呈正相关 (均P< 0.05),H2BC21、H2AC19、H3C10、FOS、H3C4、TGFB1I1、H2BC5、H2AC20的高表达与危险度分层呈负相关 (均P< 0.05)。DPP4、CENPE、TTK、CDCA2基因高表达组患儿初诊时外周血WBC高于低表达组 (均P< 0.05),H2BC21、H2AC19、H3C10、FOS、H3C4、H2BC5、H2AC20基因高表达组患儿初诊时外周血白细胞低于低表达组(均P< 0.05),DNMT3B、EXO1、CDK1、TGFB1I1基因高表达组和低表达组患儿初诊时白细胞计数无统计学差异 (均P> 0.05)。 对15个hub基因进行单因素Cox回归分析,结果显示,DNMT3B、DPP4、CENPE、TTK、CDCA2、EXO1、CDK1等基因的高表达和H2BC21、H2AC19、H3C10、FOS、H3C4、TGFB1I1、H2BC5、H2AC20等基因的低表达是影响AML患儿总生存期的危险因素。对以上因素进行多因素Cox比例风险模型分析,结果显示,15个相关联的hub基因中DNMT3B的高表达、DPP4的高表达、CENPE的高表达、H3C10的低表达是AML患儿总生存期的独立危险因素,见表2。 表2 hub基因的单因素和多因素分析构建预后风险模型Tab.2 Univariate and multivariate Cox regression analyses of the hub genes for constructing prognostic risk models 本研究通过分析TARGRT数据库AML患儿的基因表达数据,筛选出与危险度分层和复发相关的96个差异基因。GO和KEGG富集分析结果显示,差异基因编码的蛋白主要富集于细胞核和细胞质,参与的BP主要有DNA结合、核小体组装、染色体分离等。 在筛选出的hub基因中,DNMT3B与DNA甲基化的相关。DNMT3B负责DNA的从头甲基化。虽然在AML中DNMT3B的突变很少见,但DNMT3B的高表达预示着高耐药率和高复发率[5-6]。髓过氧化物酶 (myeloperoxidase,MPO) 是诊断AML的生物标志物,其高表达与更好的预后相关。据报道,DNMT3B可以上调AML细胞MPO启动子的甲基化,抑制MPO的表达。而且DNMT3B对MPO启动子的甲基化不受AML常见突变 (FLT3-ITD、CEBPA或NPM1突变) 的影响[7]。此外,DNMT3B高表达导致DNA超甲基化在T细胞急性淋巴细胞白血病和伯基特淋巴瘤中也有报道[8]。 DPP4表达于骨髓来源的细胞、骨骼肌细胞、血管平滑肌细胞和脂肪细胞等[9-11]。在慢性白血病,尤其是慢性B淋巴细胞白血病中,有大量研究[12-14]证明了DPP4的促癌作用。DPP4的表达影响临床分期、治疗缓解所需时间、总生存期、无病生存期,是负性的预后因素。虽然急性白血病样本中,包括T细胞急性淋巴细胞白血病、B细胞急性淋巴细胞白血病和AML,白血病细胞膜DPP4的表达量与非白血病患者无差异,但白血病患者血浆sCD26/DPP4明显高于非白血病患者[15]。 CENPE、CDCA2、CDK1、TTK、EXO1、FOS与细胞周期、细胞增殖密切相关。在AML中,CDK1的促癌作用相对明确,但关于CENPE、CDCA2、TTK、EXO1、FOS的报道较少。H2BC5、H2AC19、H2AC20、H2BC21、H3C4、H3C10是组蛋白H2和H3的成员,是构成核小体的重要组成部分。目前,关于TGFB1I1、H2BC5、H2AC19、H2AC20、H2BC21、H3C4、H3C10在AML致病机制中的作用少有报道。 综上所述,本研究通过对TARGET数据库AML患儿初治时低危组与中高危组的骨髓差异基因、初治时与复发时骨髓差异基因的综合分析,发现CDCA2、CDK1、CENPE、DNMT3B、DPP4、EXO1、TTK、FOS、H2BC5、H3C4、H3C10、H2AC19、H2AC20、H2BC21和TGFB1I115个与儿童AML相关的hub基因。这15个基因均与预后相关,尤其是影响预后的独立危险因素的DNMT3B、DPP4、CENPE和H3C10基因可能成为儿童AML的分子机制研究以及预后判断的新靶点。2 结果
2.1 差异基因的筛选
2.2 差异基因的GO富集分析和KEGG富集分析
2.3 分析与AML相关的hub基因
2.4 hub基因与AML患儿临床病理特征的相关性
2.5 hub基因与AML患儿预后的关系。
3 讨论