王雷 王颖 李春香 李刚 穆伟斌*
(1.齐齐哈尔医学院 黑龙江省齐齐哈尔市 161006 2.常熟理工学院 江苏省常熟市 215500)
癌症是全世界首要死因,是一种发病率高,死亡率高,严重危害人类健康的无形杀手,它不仅给患者带来身体上的病痛,还给家庭带来沉重的负担。我国截止到2020 年有大约451 万癌症病例和304 万人因癌症死亡。随着生命科学技术的不断发展,从基因水平了解癌细胞的发病机理越来越受到重视,并且许多大规模癌症工程获得了海量数据,随着后基因时代的到来和分子生物学的发展,研究人员发现,基因结构的差异、基因功能的改变和基因产物的异常表达与肿瘤的发生、发展密切相关,进而把癌基因、抑癌基因以及其产物也列为肿瘤标志物,而关键基因为癌症预防、诊断和治疗生物标志物提供关键信息。为推进癌细胞精确医疗,快速识别癌症关键基因,本研究基于此从癌症基因组的大量基因中挖掘癌细胞的关键基因展开研究。
本研究所用的mRNA 表达谱芯片数据取自美国国立生物技术信息中心(National Center for Biotechnology Information, NCBI) 的基因表达数据库(Gene Expression Omnibus, GEO)。分别为GSE54236 和GSE25097 的癌细胞mRNA 表达谱芯片数据。其中GSE54236 共有161 个包括癌细胞组织样本和相邻的非恶性组织样本,其中GSE25097共有50 个包括癌细胞组织样本和相邻的非恶性组织样本。下载国际肿瘤基因组协作组数据库(the International Cancer Genome Consortium, ICGC)的癌细胞突变组数据,检索关键词为“Liver Hepatocellular carcinoma - TCGA, US”,共有105 个突变数据样本,包括了患者所有的突变数据信息。
1.2.1 表达谱数据处理
(1)根据癌细胞表达谱芯片注释信息,对各芯片中的样本进行分组(包括癌症组和对照组);
(2)利用“perl”脚本将下载的基因芯片表达原始数据整理为基因-样本表达矩阵。
(3)经“limma”包将矩阵数据进行过滤、归一化、缺失值估计等处理,选癌组织和对照组间倍数变化大于2,P小于0.05 的基因作差异基因。
1.2.2 突变数据处理
(1)搜索genecode 网站(www.gencodegenes.org)下载基因注释文件GTF/GFF3 完成对基因注释。
(2)读入突变数据,对数据文件进行基因注释,生成突变矩阵。
(3)去除突变矩阵里样本为空的部分,对突变矩阵中某样本标注为“Mutation”的设为“1”,表示基因在此样本中发生突变,对突变矩阵中某样本标注为“Wild”的设为“0”,表示基因在此样本未发生突变。
(4)计算所有基因所有突变类型的背景突变数据,将突变因子分数作为网络中基因的权重。
患者特异基因突变率:
计算每个突变类型突变频率和每个病人突变频率与总突变频率的比值:
计算每种突变类型和每个病人的碱基总数与总碱基数的比值:
图2:细胞组分富集柱状图
使用邻近基因的背景突变数据x、X和突变频率计算每个基因、每个病人、每种突变类型对应的背景突变数据:
1.3.1 癌细胞差异基因加权网络构建
从String 数据库导出“9606.protein.links.detailed.v11.5.txt.gz”蛋白质互作网络文件,其中蛋白质互作网络文件中的combined score 为综合评分值,代表网络中基因之间功能相关性的程度大小。将癌细胞突变数据集与差异基因集、蛋白质互作网络文件取交集,得到包含有突变数据的差异基因。然后以差异基因的突变频率和差异基因表达水平相关性定义网络节点和边,以突变因子分数值 和综合评分值分别作为网络节点和边的权重,建立癌细胞差异基因加权网络。
1.3.2 模块分析
为了提取关键基因,我们采用Cytoscape 3. 8. 2 软件内置插件MCODE 方法先对此网络进行基因功能模块的提取。筛选标准为:MCODE 评分≥4 分,同时基因节点数量≥15 个。具体步骤为:
(1)癌细胞基因加权网络模型以“csv”文件格式导入到Cytoscape 中。
(2)参数设置:Degree Cutoff为7,Node Score Cutoff为0.05,K-core 为5,Max.Depth 为50。
(3)点击 Analyze Current Network 开始运行。
利用Cytoscape 3. 8. 2 软件内置插件BINGO 对所获得的MCODE 模块中的基因进行GO(Gene Ontology, GO) 分析和KEGG (Kyoto Encyclopedia of Genes and Genomes, KEGG)通路富集分析以证明其生物学意义。设置p 值为0.05,导入GO 功能分类文件开始分析。然后利用Metascape 在线工具中的ggplot2 程序包对差异显著的结果进行可视化。
利用Cytoscape 3. 8. 2 软件内置插件中的Cytohubba 算法找到基因功能模块中的关键基因,使用Oncomine 数据库和GEPIA(Gene Expression Profiling Interactive Analysis) 数据库验证筛选出的关键基因在肿瘤组织和正常组织中的表达以及表达程度的评价。
图3:分子功能富集柱状图
使用GEPIA 数据库对其所获得的关键基因进行生存分析,评价关键基因在癌细胞患者中的预后价值。
利用Cytoscape 3. 8. 2 软件内置插件MCODE 工具共筛选出五个模块,其中符合MCODE 评分≥4 分,同时基因节点数量≥15 个的模块一共有两个,共筛选出基因94 个。
A 和B 图为基因功能模块图,A 图显示了50 个基因,243 条边,B 图显示了44 个基因,160 条边,从图中的密集程度可以看出每个模块富集到的基因相互之间的关联度较强,说明它们之间功能相关性程度较大,具有生物学意义。
GO 分析结果显示,模块基因主要富集在泛素蛋白连接酶活性、ATP 结合等分子功能中;同时,差异基因也富集在细胞蛋白质代谢过程、蛋白K11 连接泛素化、有丝分裂姐妹染色单体分离的调节等生物过程中;KEGG 分析结果显示,主要富集在卵母细胞减数分裂、细胞周期、孕酮介导的卵母细胞成熟等通路中,如图1-3 所示。
图1:生物过程富集柱状图
利用Cytoscape 软件的内置插件Cytohubba 找到上述两个基因功能模块中的关键基因并将其可视化,下图列出排名靠前的10 个的关键基因,包括PRC1、 KIF4A 、KIF14、ASPM、ANLN、KIF23、 CEP55、ECT2、HMMR和TPX2,颜色越深,代表所连接的节点数越多,也说明了其与癌细胞的发生关联度越大,具体如图4 所示。
图4:利用CytoHubba 算法进行关键基因的筛选
利用Oncomine 数据库验证筛选出的10 个关键基因在肿瘤组织和正常组织中的表达情况,发现PRC1、KIF4A 、KIF14、ASPM、ANLN、KIF23、 CEP55、ECT2、HMMR和TPX2 在肿瘤组织中均明显表达增高,差异有统计学意义(P<0. 01),说明了这10 个基因均与癌细胞的发生发展密切相关,间接验证了本文所构建的癌细胞差异基因加权网络能够高效捕捉到关键基因。
10 个关键基因其中发现PRC1、KIF4A 、ASPM、ANLN、KIF23、 CEP55、ECT2、HMMR 和TPX2 高表达与癌细胞在总生存率呈负相关(P<0.05),具有统计学意义,而KIF14 高表达与癌细胞总生存率呈负相关(P>0.05),差异无统计学意义。除KIF14 外,其余基因的高表达均显著缩短癌细胞患者的无病生存时间。
癌细胞的发生是多种病因、多类途径、多种基因共同导致的结果,其发生机制的复杂性更是尚未明朗。随着医疗技术水平的提升,癌细胞的诊治水平虽有了较大提升,但其预后效果仍不理想。因此,利用各种方法筛选和鉴定出与之相关联的潜在生物学标志物对明晰癌细胞的作用机制以及诊治依据具有十分重要的作用。
本研究通过分析GSE54236、GSE25097 芯片数据集和ICGC 数据库下载的突变数据集经过处理后与蛋白质网络文件取交集,以差异基因的突变频率和差异基因表达水平相关性定义网络的节点和边,建立了癌细胞差异基因加权网络模型并用MCODE 插件对其进行功能模块的提取。MCODE 可以寻找到网络中互相作用的密度较高的区域位置,通常情况下高密度区域参与到生物调节中的概率更高,发挥关键作用。通过GO 分析显示,模块里的基因在生物过程中主要富集在蛋白酶泛素化、细胞分裂、细胞蛋白质代谢过程、蛋白K11连接泛素化、有丝分裂等通路中,在细胞组成中主要富集在泛素连接酶复合物、细胞核、纺锤体、细胞溶胶、细胞质微管及细胞间桥,在分子功能中主要富集在泛素蛋白连接酶活性、ATP 结合、微管运动活性及微管结合。KEGG 分析主要富集在卵母细胞减数分裂、细胞周期、孕酮介导的卵母细胞成熟等通路中,这些基因所富集到的通路经研究发现均与多种癌症的发生有极为密切的关联,如果能够进一步探索出上述通路具体作用的机制,不管是在降低癌细胞患者死亡率或是在提高患者生存质量方面都可能发挥重要作用。
利用Cytoscape 插件的Cytohubba 算法筛选出10 个关键基因,包括PRC1、 KIF4A 、KIF14、ASPM、ANLN、KIF23、 CEP55、ECT2、HMMR 和TPX2,并验证了上述基因在多种癌症中均出现高表达。这些关键基因可区分肝细胞癌和非癌组织,有潜力成为肝细胞癌诊断的分子标记物,其中PRC1 与肝细胞癌预后不良关系密切。PRC1 主要影响细胞分裂不稳定性,导致细胞基因发生变异,并且通过参与p53 通路间接导致肿瘤的发生。可见,PRC1 在肿瘤的作用较大但具体机制尚未完全清楚,未来可作为肝癌基因靶向治疗的关键靶点。KIF4A 和KIF23 都是隶属于癌症驱动蛋白家族成员,驱动蛋白主要参与微管活动并且与纺锤体和中间体的形成具有密切关系,其中KIF4A 通过与转录因子FOXM1的结合来直接促进肝癌细胞的增殖以及恶性生长,并且在肝癌组织中呈现明显的高表达。但KIF23 基因具体作用机制仍不明确,未来很有可能作为肝癌基因治疗新靶点。
随后的研究中,我们使用GEPIA 数据库对这10 个筛选的关键基因进行预后分析,发现PRC1、KIF4A 、KIF23、CEP55 在肝肿瘤组织中均明显表达增高,与预后不良密切相关,提示这些基因可能在肝细胞癌的发生、发展中起着不可或缺的作用,可作为肝细胞癌的潜在预后分析标志物。
综上所述,本文通过构建差异基因加权网络的方法筛选出了10 个与癌细胞有关的关键基因,并且通过验证证明了结果的有效性,也证明了本文所采用的方法可以较为准确的筛选出关键基因,从而进一步为其他癌症诊疗与预后筛选提供理论依据和方法借鉴。