摘要:该文采用复杂网络理论。首先利用分类信息指数对数据进行初步筛选,选出了314个基因。对选出的基因分别做肿瘤样本和正常样本的相关系数矩阵,利用Kruskal算法分别对两个相关系数矩阵做最小生成树,然后通过比较选出阈值,建立起节点间的连边关系,得到致病前后的两个网络。根据复杂网络中的相关理论,分别对肿瘤样本和正常样本进行社区划分,最后通过观察两个样本的网络系统,分析致病前后基因的变化情况,建议了结肠癌的特征基因。
关键词:基因芯片;基因表达谱;社区结构;分类信息指数;最小生成树;阈值;复杂网络
中图分类号:O157文献标识码:A 文章编号:1009-3044(2011)07-1671-04
癌症起源于正常组织在物理或化学致癌物的诱导下,基因组发生的突变,即基因在结构上发生碱基对的组成或排列顺序的改变,因而改变了基因原来的正常分布(即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达水平)。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。
复杂网络理论是近年来发展起来的一个重要的交叉。对于一个复杂的系统,很多时候我们不能够单独通过分析系统内元组来反应系统性质。复杂系统是由微观层次上的海量个体所组成,个体之间存在着作用。把个体抽象为网络节点,而个体之间的相互作用抽象为节点之间的边,则复杂系统就可以用一个复杂网络来描述。
本文的实验数据集包含22 个正常组织样本和40个结肠癌组织样本,每个样本包含 2000个基因的表达数据。首先对样本数据进行归一化,另外,数据的特征维数2000,远远高于样本个数62。因此,有必要对数据进行过滤和降维。我们采用了分类信息指数方法 (information index to classificat