利用Weka挖掘白血病与基因的关系

2015-03-22 03:18
中华医学图书情报杂志 2015年1期
关键词:高频词白血病基因组

白血病是造血干细胞功能异常的克隆性恶性疾病,是国内十大高发性恶性肿瘤之一。目前医学界普遍认为白血病的发病机制与感染、放射、化学和遗传等因素有关,但其确切病因至今尚未明确。近年来,有关基因与白血病关系的研究较热,文献也较多。本文利用Weka平台挖掘文献中白血病与基因的潜在关系。

1 研究工具

1.1 聚类挖掘平台Weka

Weka平台(Waikato Environment for Knowledge Analysis)的全名是怀卡托智能分析环境,是一个公开的数据挖掘工作平台。它集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化,是现今最完备的数据挖掘工具之一。Weka的数据格式要求为ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件,也是一种二维表格。Cobweb是Weka提供的聚类算法之一,是现在流行的一种简单增量概念聚类算法。它用分类属性-值对描述输入对象,以一个分类树的形式创建层次聚类[1]。

1.2 数据处理工具BICOMS

书目信息共现分析系统(Bliographic Item Co-Occurrence Mining System,BICOMS) 是文本挖掘的基础工具,所生成的矩阵可以进一步应用于聚类分析和社会网络分析等[2-3]。

2 研究步骤和结果

2.1 利用BICOMS抽取高频词、生成矩阵

以“leukemia [majr] AND genes [majr]”为检索策略,检索PubMed,得到4 069条文献记录,并将结果保存成xml文件。利用BICOMS抽取主要主题词/副主题,设定出现频次的阈值为100,即频次大于100的42个词为高频词。这些高频词出现9 662次,累计百分比为39.222%(9 662/24 634)。其中排名前10位的高频词见表1,出现频次最高的为原癌基因(706次)。

表1 排名前10位的高频词及其出现频次

再利用BICOMS生成高频词的共现矩阵(表2)和零一矩阵(即词篇矩阵),以txt形式导出,并利用Excel将零一矩阵转置(表3),再分别保存成Weka所需的csv格式文件。

表2 高频词共现矩阵(42行×42列)(部分)

表3 高频词词篇矩阵转置矩阵4069(行)×42(列)(部分)

2.2 采用Weka中聚类算法Cobweb实现聚类

打开Weka3.6.8,进入Explorer模块,通过Preprocess的Open功能导入csv文件,以未监督的过滤器NumberToNomal过滤数据,然后保存成ARFF文件以用于聚类分析。

选择Weka提供的聚类算法Cobweb,根据研究需要设置不同参数,对比聚类结果,选择聚类结果最优时的参数设置为Weka.clusters.Cobweb -A 1.0 -C 0.0028209479177387815 -S 42,聚类模型选择use training set,选择store clusters for visualization以保存聚类结果用于可视化。运行后得到的聚类树结果如图1所示。

图1 聚类树结果

2.3 对聚类结果进行优化

Cobweb共进行了7次聚合,5次剪切,形成一棵节点数为12、叶子数(即主题词数)为42的聚类树。分析得出各叶子节点,具体数据见表4。

表4 高频词的Cobweb聚类结果

注:此结果是经过加工优化的结果

3 分析和讨论

3.1 聚类效果分析

本文的目的是试图找出各类白血病与各个基因之间的关系,因此理想的聚类结果是每类中都有白血病高频词和相关基因,且越多越好。从表5可见,第1,2,4,5类中没有白血病或基因高频词,聚类效果较差;其余类既有白血病相关高频词,也有基因相关高频词,聚类效果较好。

表5 各类聚类效果比较

注:染色体和泛指的基因名词也算基因;聚类率=(白血病数+基因数)/该类总叶子树,且越大越好

聚类结果较差的原因有三:一是高频词中存在非白血病相关主题词或基因相关主题词,二是因Cobweb把所有高频词看作要聚类的属性而不能百分之百地将基因和白血病聚在一起,三是数据存在局限性。本文使用的42个高频词中,白血病数与基因数分布不均,白血病数(11)小于基因数(15)。

3.2 基因关系研究分析

根据聚类结果,查阅并分析每类,即聚类效果较好的第3,6,7类文献,得出白血病与基因关系的研究热点和方向,总结如下。

第3类聚类结果表明B淋巴细胞白血病和骨髓增生异常综合症与免疫球蛋白基因和癌基因融合及表达相关。Yone J等[4]发现,bcl-2基因第五侧翼区是免疫球蛋白基因重排的一个端点集中区。与14号染色体长臂第32个基因和18号染色体长臂第21个基因易位影响bcl-2基因第三区域相比,bcl-2基因第五区域不仅能融合重链基因,也能融合两条轻链基因位点。他们克隆并测定了11条B淋巴细胞肿瘤中的bcl-2基因第五侧翼区与免疫球蛋白的融合链,这些肿瘤细胞由长距离聚合酶链式反应聚合而来。bcl-2基因第五区域与免疫球蛋白融合基因的异构解剖激活bcl-2基因。特异性癌基因-免疫球蛋白基因重组的形成机制与14号染色体和18号染色体易位不同。

第6类聚类结果表明实验性白血病、成人T细胞白血病和成红细胞细胞白血病与病毒基因、abl基因和bcr-abl融合蛋白及其转录相关。Kamihire S等[5]将人类T细胞白血病病毒整合成人T细胞白血病细胞基因组DNA,发现Ⅰ型人类T细胞白血病病毒是成人T细胞白血病的病原体,且白血病细胞总是携带前病毒基因组,以单克隆的方式与宿主基因组同一序列位点整合,称为单克隆整合。部分前病毒基因组缺失最先出现在gag区域,然后扩散到pol和env区域,而且长末端重复和pX区域几乎总是守恒的。前病毒状态的分析可提供有用的诊断和病毒学—肿瘤学信息,包括成人T细胞白血病和Ⅰ型人类T细胞白血病病毒的病理学,尤其是pX基因在肿瘤形成中重要作用的信息。

第7类结果表明淋巴瘤与人类第11号染色体、原癌基因和ras基因突变及表达相关。自然杀伤细胞肿瘤是一种很罕见的疾病,已经报道的常见异常肿瘤抑制基因有Rb,p53,p15INK4B和p14ARF。Sugimoto KJ等[6]用DNA印记法、聚合酶链式反应单核苷酸多态性检测法、蛋白质印迹法和免疫组织化学着色法分析N-ras,K-ras,H-ras,c-myc,n-myc和mdm2等癌基因的状态,发现ras基因家族没有发生点突变,c-myc和N-myc没有发生突变,c-myc蛋白没有过度表达,但mdm2蛋白在一部分案例中表达度很高,且mdm2蛋白的过度表达与p14ARF,p53和Rb基因不相关。最后得出结论:mdm2的过度表达可能与自然杀伤细胞肿瘤有关,尤其是有攻击性的子类。

4 结论

本文利用Weka软件平台对PubMed数据库中的白血病与基因相关数据进行Cobweb聚类挖掘分析,得出白血病在基因方面的3个研究热点。根据癌症基因组图谱研究网(The Cancer Genome Atlas Research Network)发表于国际权威杂志NEJM 2013年5月30日在线版上的成果[7],9种基因与白血病有关。

它们分别是转录融合基因、编码核仁磷蛋白的基因(npm1)、肿瘤抑制基因、DNA甲基化相关基因、信号转导基因、染色质修饰基因、黏连蛋白复合物基因、随性转录因子基因和剪接体复合物基因。本文得出的白血病研究相关热点基因均在其列。

猜你喜欢
高频词白血病基因组
30份政府工作报告中的高频词
省级两会上的高频词
牛参考基因组中发现被忽视基因
28份政府工作报告中的高频词
省级两会上的高频词
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
紫花白及基因组DNA提取方法的比较
白血病外周血体外诊断技术及产品
白血病外周血体外诊断技术及产品