基因芯片数据分析方法及其在医学中的应用

2010-02-09 12:40荆志伟王忠
中国医药生物技术 2010年6期
关键词:基因芯片贝叶斯聚类

荆志伟,王忠

基因芯片数据分析方法及其在医学中的应用

荆志伟,王忠

基因芯片技术带来了大规模、高通量的信息,同时也对数据的探索性分析及信息提取提出新的挑战。伴随出现的诸多方法,如基因芯片数据的标准化,样本(或基因)间距离的度量,以及样本(或基因)的监督和非监督分类等分析方法,力图将无机的信息数据和有机的生命活动结合起来,阐释生命特征及基因功能,已成为生物信息学的研究课题[1]。探索基因功能的新技术和新方法[2]亦成为研究的重点,新的分析工具不断产生[3]。本文就近 5 年来医学研究领域中基因芯片数据以分类分析方法为主作一综述。

1 基因芯片数据分析的非监督算法

1.1 系统聚类(hierarchical clustering)

系统聚类根据聚类的方式分为凝聚法(agglomerative approach)和分裂法(divisive approach)。凝聚法按照从下到上的方式对个体进行聚类:初始每个个体为一类,按照一定的规则进行逐步合并,直到所有个体都归为一类或达到预定的终止条件。因类间相似性的度量方法的不同而又有所差异。分裂法按照从上到下的方式对个体进行聚类:初始所有个体为一类,然后按照一定规则逐渐分裂,直到每个个体形成一类或满足某个特定的结束条件,如达到预定的类数或两个最邻近的类之间的距离超过某预定值。

系统聚类方法简单,但有时在选择分裂或合并点时存在困难,因为一旦将一组个体分裂或合并,后续的类将在新类的基础上产生,而不能取消己经完成的分裂或合并,也不能在类间对个体进行调整。系统聚类分析适合正向同源类基因组数据的分析并具有相对好的稳定性[4]。

1.2 分割聚类(partitioning methods)

最常用的分割算法为 k-means 法和 k-medoids 法。k-means 法是把 n 个观察个体分成 k 个类,使类内的相似性高,而类间的相似性低。类的相似性用类内观察个体的均值来度量,此均值被视为类的重心。通过计算新形成的k 类的类均数,达到目标函数收敛。该法的局限性在于:①此方法在较大数据量时的扩展性和效率都较理想,但可能陷入局部最优;②只能用于类均数确定的情况下,若包含分类变量时就不适用;③必须提前确定类数;④受噪声和异常值的影响较大。目前常先使用凝聚算法确定类数和初始的类,再利用迭代重定位技术提高聚类的效果;k-modes 算法中用模式代替类均数,使用新的非相似性指标处理分类资料,用以频数为基础的方法对类的模式进行更替,而 k-prototypes算法(k-means 和 k-modes 的结合)可以处理数值变量和分类变量的混合资料;EM(expectation maximization)算法是 k-means 算法的另一种扩展,把每一个体不是划为具体的某种类别,而是赋予其属于各类的概率。如 Srinivasan等[5]运用 k-means 算法比较颈椎病变的转归。

1.3 自组织图(self-organizing maps,SOM)

SOM 是一种基于神经网络的聚类算法,由若干简单的拓扑结构的节点构成,且节点中包含了其距离函数,自组织图的形成就是这些节点以迭代的形式分布到 k维的基因表达空间的过程[6]。其适合于复杂的多维数据的模式识别和特征分类等探索性的分析,它允许对聚类的部分结构施加干预(相比于系统聚类中严格的结构、贝叶斯聚类中对先验假设的要求及 k-means 聚类的无结构,SOM 则更灵活),首先被 Tamayo 等[7]用于基因表达数据的分析。与多维标度法(multi-dimensional scaling,MDS)及主成分分析(principal component analysis,PCA)类似,SOM 可以对数据集中的不同表达模式实现可视化,从而判断某种模式是否为另外一种模式的变异。如郑培烝等[8]通过建立基因芯片平台,用全反式维甲酸诱导急性早幼粒细胞白血病来源的 NB4 细胞分化作为模型,并应用自主开发的自组织图结合成分平面展示动态地观察了药物作用过程。

1.4 模糊聚类(fuzzy clustering)

在实际情况中,基因各功能类间的边界经常是不能截然分开的,模糊聚类适合于解决此类问题。该方法首先由Bezdek 提出,后被 Guthke 用于基因芯片数据中基因的分类。它给出向量(代表观察个体或基因)属于各类的隶属度,即该向量属于各类的概率。非监督模糊聚类的应用包括模糊 c-means 法、概率 SOM 法和 Gustafson-plaid 法。GenShaving 聚类和 plaid 聚类也是两种应用模糊聚类基本概念的方法,plaid 法是一种非监督算法,GenShaving 可以是监督或非监督算法,只是监督算法中应用了向量的先验知识。两种方法在模糊聚类的基础上还允许根据部分样本(观察个体或基因)来确定基因(或样本)的类。

1.5 主成分分析(PCA)

在大规模基因表达数据的分析中,由于组织样本例数远远小于所观察基因个数,如果直接采用前述聚类分析可能产生较大误差,故需要对聚类算法进行改进,其中较为流行的是应用 PCA 方法[9]。PCA 的目的是要对多变量数据矩阵进行最佳综合简化[10],通过寻找这些变量的线性组合(主成分),使第一主成分最能反映数据间的差异。如 Crescenzi和 Giuliani[11]应用 PCA 对 60 个肿瘤细胞株的基因表达谱数据进行分析,结果发现肿瘤分型相关的基因有1375 个,PCA 得到细胞运动等 5 个独立的成分。本课题组[12]在聚类分析的基础上应用 PCA,比较清开灵主要组分黄芩苷、栀子苷及其配伍干预脑缺血损伤的基因表达模式,发现配伍后对黏附相关功能基因的影响大于单一组分组,其基因表达模式和其中的黄芩苷相近。

PCA 利用降维的思想,寻找多变量线性组合的综合因子,这些主成分之间又是彼此独立的,故其缺陷是一部分有用信息的丢失。为此,Yeung 和 Ruzzo[13]采用两个真实数据集和三个模拟数据集作为实验材料,对采用 PCA 方法所得出的聚类结果作了评估。他们发现,进行主成分处理后的聚类质量没有明显提高,甚至有所降低。基于以上研究结果,他们不主张使用 PCA 进行聚类分析。

上述非监督聚类方法尽管在对疾病或生物特性方面已经取得了许多有意义的结果,却存在着下述三点不足:①不同样本实验获得的基因表达谱存在着噪声干扰,目前的解决办法是对每个样本的基因表达谱进行归一化处理;②不管对基因还是对样本,所考虑向量的维数相当高,而样本个数相对较少,某些情况下结果不稳定,分类的性能难以评价;③难以明确隐含的类别数,非线性 PCA 有助于理解这种复杂表达[14]。这三点是目前非监督聚类方法难于克服的问题。

2 基因芯片数据分析的监督算法

2.1 线性判别分析(linear discriminant analysis,LDA)

线性判别分析首先根据基因样本数据的先验知识建立线性判别函数,然后把未知类的样本代入判别函数,从而判断新样本(基因或个体)的类别归属,较为适合用于基因芯片数据[15]。线性判别分析的特点是计算简单,易于应用,一般具有较低的误差率,但不能处理基因(或个体)间的交互作用。因此,当基因(或个体)间存在复杂的交互作用时,线性判别分析不易发现数据中的规律性。常见的有Diagonal 线性判别分析,Fisher 线性判别分析。另外,与LDA 接近的还包括二次方判别分析等。Cho等[16]应用fisher 判别方法分析肿瘤患者的基因表达谱资料以判别肿瘤的分型;Dangond等[17]将 fisher 判别方法应用于计算肌萎缩侧索硬化病的基因表达谱研究。

2.2 k 最临近分类法(k-nearest neighbor classifiers)

k 最临近分类法建立在通过类比进行学习的基础上,训练样本由 n 维计量变量描述,而每个观察个体由 n 维空间中的一个点来描述。当给定一个未知样本,k 最临近分类法将在模式空间中搜寻与此样本最临近的 k 个观察个体,这 k 个个体就是该未知观察个体的 k 个最临近点。一般采用欧氏距离来衡量临近程度。未知样本将被赋予 k 个最临近的个体中类数最多的类。k 最临近算法又被称为“instance-based”或“lazy learners”,因为它把所有的训练样本储存起来,并且在对一个未知个体分类以前不建立任何分类模型。lazy learners 方法在训练阶段要比 eager methods快,而在分类阶段比 eager methods 慢。与复杂的分类算法相比具有简单、直观、误差率较低等特点,能够以“黑箱”的方式处理基因间的交互作用,但不能洞悉数据的结构。

2.3 分类树算法(classification tree algorithm)

分类树(又称判定树,decision tree)是一种自上而下递归地对数据进行分割的算法,如何确定变量选择的方法是分类树算法的核心。信息增益是一种变量选择的方法:具有最大信息增益(嫡的减小最大)的变量作为当前对样本进行分类的检验变量(此检验变量称为一个节点),根据此变量的不同取值对样本进行分类,此变量将使对样本分类所需的信息量以及对样本分类的随和性和不纯性达到最小。最初的分类树算法较简单,功能也受到一定的限制,如只能实现对分类资料的处理以及解决模型的过度拟合问题,随着算法的改进,已能实现计量变量截断数和截断点的自动判断,以及通过修剪算法(包括前剪枝和后剪枝算法)防止模型的过度拟合。分类树算法能够探索和揭示基因间的交互作用,对变量在模型中的重要性进行排充,并且结果易于解释,能获得预测变量和反应变量间的关系,但分类树方法在稳定性和精确性方面较差,通过使用改进算法“bagging”和“hosting”可提高其精确性[18]。

2.4 人工神经网络(artificial neural networks,ANNs)

人工神经网络最初是心理学家和神经生物学家在研究神经元的计算类似物时提出的。神经网络是一套相互连接的输入和输出单元的集合,每个连接具有一个权重。在学习阶段,神经网络调节权重,使其能对输入样本进行明确的分类。通常需要根据经验对其参数进行最佳设定,如网络的拓扑结构。神经网络很难对其权重的象征意义给予解释,这一特点限制了神经网络的应用。神经网络的优点包括对噪声数据的高度容错性及对未训练过的样本的模式识别能力。理论上已经证明,以任何一种 S 形函数作为神经元的转换函数,都含有一个隐含层的神经网络,只要隐含层的神经元足够多,该网络就可以拟合数据中任何复杂形式的非线性关系。另外,一些算法已经可以提取训练后的神经网络中的规则。这些因素都有利于神经网络在基因数据分类中的应用。常用的神经网络有 BP 神经网络、径向基网络、自组织神经网络及 Hopfield 网络等,其中以 BP 算法最为常用[19]。如Lancashire 等[20]运用了 ANNs 分析癌症亚型分类的基因芯片数据。

2.5 贝叶斯分类(bayesian classification)和贝叶斯网络

贝叶斯分类建立在贝叶斯理论的基础之上,朴素贝叶斯分类的前提假设是类条件的独立性,即一个变量对分类的作用独立于其他变量[21]。理论上讲,贝叶斯分类与其他分类方法相比具有最小的误差率,但由于各种原因,实际情况并非如此,如类条件独立性的条件不满足,概率资料无法得到等。对于不同分类方法的比较发现:简单的贝叶斯分类方法在性能上可以和决策树、人工神经网络相比拟,贝叶斯分类在大型数据库中也表现出了较高的精确性和速度。

贝叶斯分类的前提假设是类条件独立,此假设简化了计算,并且当假设成立时,朴素贝叶斯分类与其他分类方法相比具有最高的精确性。实际情况是基因之间通常存在依存关系,贝叶斯网络定义了联合条件概率分布,它允许类条件独立性只在部分变量之间存在,提供了一个因果关系的图形模型,预期在基因网络推断(gene network inference)中发挥重要作用[22]。如 Imoto等[23]结合贝叶斯网络和生物学知识进行基因表达谱数据的基因网络分析,并以酿酒酵母的基因表达谱数据为例进行了论证。Kim 等[24]将贝叶斯网络法应用于时间系列的基因表达谱数据的基因网络分析等。

3 数据分类模型的性能和评价

对通过基因芯片数据建立的聚类或判别模型,常进行多个方面的性能评价。

3.1 精确性

留取法(holdout method)和交叉验证(cross validation)方法是评价分类方法精确性的两种常用技术,它们都建立在对给定数据集的随机抽样所得到样本的基础之上[25]。留取法是把给定数据随机分割成独立的两部分:训练集和检验集。训练集用于建立模型;检验集用于对建立的模型的精确性进行估计。随机子抽样(random subsampling)是对留取方法的改进,其基本思想是重复留取方法 k 次,避免了一次留取可能造成的偏性;k-fold 交叉验证(k-fold cross-validation)是把初始数据随机分割成 k 个互不包含的子集,S1,S2,… SK,一般例数近似相等。训练过程和检验过程分别进行 k 次。精确性的估计等于 k 次迭代的检验样本总的分类正确数除以初始数据的总例数。分层交叉验证是交叉验证的另一种方法,它对初始样本的分割是分层抽样,使得产生的子数据集中类的分布与初始数据中类的分布接近。

3.2 稳健性

扰动法是常用的检验模型稳健性的方法,其通过对基因表达数据施加随机噪声,比较原始基因表达数据和含噪声的数据的分类结果,从而评价模型的稳健性[26]。另外还要从模型的计算速度、数据量增大时的可扩展性及结果的可解释性等方面对基因的分类算法进行评价。Dumur 等[27]建立质控标准,对细胞系、冷冻处理的肿瘤细胞的总 RNA 和商业RNA 对照品的数据分析加以评估,发现高质量的样本在电泳图和 cDNA 和 cRNA 合成产物表现为超过 30% 的2.0 ~ 3.0 kb 的 rRNA,认为制定更为精细化的质控标准,对区分基因表达的分析和生物学变异尤为必要。Norris 和Kahn[28]运用均衡概率分析解决了噪声基因的假阴性率的问题。

4 数据挖掘(data mining)

数据挖掘也称为数据库知识发现(knowledge discovery in database,KDD),是从数据库中识别出有效的、新颖的、潜在有用的、并且最终可理解的模式的非常规过程[29]。这是一个反复的、不断求精的过程,可以用于基因芯片数据差异表达基因的不同聚类分析和聚类分析有效算法,可以提高数据分析的质量[30]。但迄今为止还没有一套完整、统一的数据挖掘理论体系来指导有用信息的获取。

目前已有很多数据挖掘、机器学习系统和工具用于生物信息处理。一般的数据挖掘分析系统有:SAS 挖掘器、IBM智能挖掘器和 SGI MinSet 等。其中 GCG(genetics computer group)主要用于核酸序列分析和蛋白质序列分析。Staden 是 DNA 和蛋白质序列分析的软件包[31]。此外还有用于大规模测序的 Sequencher,用于快速克隆的 Vector NTI 等。GeneMine 是由 molecular application group 开发的生物信息学数据挖掘系统,该系统可以用于生物信息数据的过滤、计算和聚类操作,并支持进一步的综合分析和可视化。目前世界数据库巨头 ORACLE、IBM 纷纷将生物信息挖掘工具分别嵌入至 ORACLE 9i、DB2 中,大大提高了生物数据的安全性和分析的准确性。

支持向量机(suppport vector machines,SVMs)是数据挖掘中的一个新方法,它通过训练一种“分类器”来辨识与已知的共调控基因表达类型相似的新基因。SVMs 可以通过定义一个核心函数(kernel function)来确定特征空间中的超平面,此核心函数就代表了特征空间中的点积。该法较好地解决了计算和学习理论问题[32]。当数据量增大时,SVMs 算法可能无法在特征空间中找到一个超平面实现完全的分割,原因可能是该核心函数并不适合于此资料的分类,或训练样本本身含有误分类的基因。使用柔性边际(soft margin)可以解决后者,它允许基因分到超平面错误的一侧[33]。如Williams 等[34]为了鉴定出肾母细胞瘤复发的基因表达谱模型,研究了 27 例肾母细胞瘤患者的肿瘤组织,其中 13 例2 年内复发,对复发和未复发的肿瘤组织进行基因芯片实验,并应用支持向量机对基因表达谱数据进行分析,结果发现了一小类可能用于肿瘤预诊的基因。

5 生物信息工具软件的应用

数据处理的进展必然伴随着数据平台软件的诞生,基于网络数据库架构的生物信息学软件业已在医学研究中应用,其研究路径已经拓展到信号通路模拟方面。利用计算机图形学和图像处理技术,将复杂数据图形化,成为近年来基因芯片数据分析软件的特征。Pathway Studio 可分析基因表达实验中差异表达基因的分子生物学通路、基因调节网络及蛋白质之间的交互作用,已经用于痴呆疾病的机制研究[35]。IPA系统(ingenuity pathway analysis)是建立在网络基础上的用来分析基因表达、蛋白组学和 SNP 微阵列数据的工具,已经应用于多种疾病的分子机制研究[36]。

6 展望

基因芯片技术及其数据分析已成功应用于医学研究许多领域,如临床诊断、药物筛选、基因突变研究、基因组分型及测序、中医药研究等[37]。基因数据的分析方法研究仍处于探索阶段,目前的相似性检测方法多适用于特定的情况下。在实际应用中可以从以下几个方面对算法进行改进:①强化对来自不同平台数据的提取和解释;②噪音数据的消除,改进遴选假阳性样本的算法;③特征基因的选取,在最少量特征(基因)选取的基础上得到较高的分类准确率;④尝试针对某种数据分布,采用粗糙集或模糊集与分类树以及基于神经网络与遗传算法分类法的融合,以提高分类的准确性、稳健性等重要性能。发现数据中所隐藏的信息,快速合理地处理,并且结合医学研究的目的选择具有较好精确性和稳健性的方法。即使运用的是现成的工具软件,亦应明确其数理方法,实现与统计学、信息科学等学科的合理交叉,为基因芯片数据信息的提取提供最佳路径。

参考文献

[1] Reimers M. Statistical analysis of microarray data. Addict Biol, 2005, 10(1):23-35.

[2] Handl J, Knowles J, Kell DB. Computational cluster validation in post-genomic data analysis. Bioinformatics, 2005, 21(15):3201-3212.

[3] Khatri P, Drăghici S. Ontological analysis of gene expression data: current tools, limitions, and open problems. Bioinformatics, 2005, 21(18):3587-3595.

[4] Uchiyama I. Hierarchical clustering algorithm for comprehensive orthologous-domain classification in multiple genomes. Nucleic Acids Res, 2006, 34(2):647-658.

[5] Srinivasan A, Galbán CJ, Johnson TD, et al. Utility of the k-means clustering algorithm in differentiating apparent diffusion coefficient values of benign and malignant neck pathologies. AJNR Am J Neuroradiol, 2009, 31(4):736-740.

[6] Dougherty ER, Barrera J, Brun M, et al. Inference from clustering with application to gene-expression microarrays. J Comput Biol, 2002, 9(1):418-429.

[7] Tamayo P, Slonim D, Mesirov J, et al. Interpreting pattems of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. Proc Natl Acad Sci U S A, 1999, 96(6):2907-2912.

[8] Zheng PC, Zhao CJ, Du YZ, et al. Establishment of CPP-SOM integrated cDNA microarray technology. Chin J Med Genet, 2004, 21(5):422-425. (in Chinese)郑培烝, 赵春军, 杜艳芝, 等. CPP-SOM整合cDNA基因芯片平台的建立. 中华医学遗传学杂志, 2004, 21(5):422-425.

[9] Wang A, Gehan EA. Gene selection for microarray data analysis using principal component analysis. Stat Med, 2005, 24(13):2069-2087.

[10] Diamantaras KI, Kung SY. Principal Component Neural Networks. New York: Wiley-Interscience, 1996:26.

[11] Crescenzi M, Giuliani A. The main biological determinants of tumor line taxonomy elucidated by a principal component analysis of microarray data. FEBS Lett, 2001, 507:114-118.

[12] Jing ZW, Zhou CX, Wang Z, et al. Principal component analysis of gene expression of baicalin, jasminoidin and their combination in experimental stroke. J Traditional Chin Med, 2010, 51(2):164-167. (in Chinese)荆志伟, 周才秀, 王忠, 等. 用主成分分析探索不同中药组分配伍干预脑缺血的基因表达模式. 中医杂志,2010, 51(2):164-167.

[13] Yeung KY, Ruzzo WL. Principal component analysis for clustering gene expression data. Bioinformatics, 2001, 17(9):763-774.

[14] Scholz M, Kaplan F, Guy CL, et al. Non-linear PCA: a missing data approach. Bioinformatics, 2005, 21(20):3887-3895.

[15] Lee JW, Lee Jb, Park M, et al. An extensive comparison of recent classification tools applied to microarray data. Comput Stat Data Anal, 2005, 48(4):869-885.

[16] Cho JH, Lee D, Park JH, et al. Gene selection and classification from microarray data using kernel machine. FEBS Lett, 2004, 571(1/3): 93-98.

[17] Dangond F, Hwang D, Camelo S, et al. Molecular signature of late-stage human ALS revealed by expression profiling of postmortem spinal cord gray matter. Physiol Genomics, 2004, 16(2):229-239.

[18] Breiman L. Arcing classifier (with discussion and a rejoinder by the author). Ann Statist, 1998, 26(3):801-849.

[19] Islam MM, Sattar MA, Amin MF, et al. A new adaptive merging and growing algorithm for designing artificial neural networks. IEEE Trans Syst Man Cybern B Cybern, 2009, 39(3):705-722.

[20] Lancashire LJ, Lemetre C, Ball GR. An introduction to artificial neural networks in bioinformatics--application to complex microarray and mass spectrometry datasets in cancer studies. Briefings in Bioinformatics, 2009, 10(3):315-329.

[21] Efemn B, Tibshirani R, Storey JD, et al. Empirical bayes analysis of a microarray experiment. J Am Stats Assoc, 2001, 96(456):1151-1160.

[22] Friedman N, Linial M, Nachman I, et al. Using Bayesian networks to analyze expression data. J Comput Boil, 2000, 7(3/4):601-620.

[23] Imoto S, Higuchi T, Goto T, et al. Combining microarrays and biological knowledge for estimating gene networks via bayesian networks. J Bioinform Comput Biol, 2004, 2(1):77-98.

[24] Kim SY, Imoto S, Miyano S. Inferring gene networks from time series microarray data using dynamic Bayesian networks. Brief Bioinform, 2003, 4(3):228-235.

[25] Azuaje F. A cluster validity framework for genome expression data. Bioinformatics, 2002, 18:319-320.

[26] McShane LM, Radmacher MD, Freidlin B, et al. Methods for assessing reproducibility of clustering patterns observed in analyses of microarray data. Informatics, 2002, 18(11):1462-1469.

[27] Dumur CI, Nasim S, Best AM, et al. Evaluation of quality-control criteria for microarray gene expression analysis. Clin Chem, 2004, 50(11):1994-2002.

[28] Norris AW, Kahn CR. Analysis of gene expression in pathophysiological states: balancing false discovery and false negative rates. Proc Natl Acad Sci U S A, 2006, 103(3):649-653.

[29] Fayyad U, Piatetsky-Shapiro G, Smyth P, et al. Knowledge discovery and data mining: toward a unifying framework. KDD-96, 1996:82-88 [2010-01-20]. http://www.aaai.org/Papers/KDD/1996/KDD96-014.pdf

[30] Bolshakova N, Azuaje F, Cunningham P. An integrated tool for microarray data clustering and cluster validity assessment. Bioinformatics, 2005, 21(4):451-455.

[31] Gershenzon NI, Stormo GD, Ioshikhes IP. Computational technique for improvement of the position-weight matrices for the DNA/protein binding sites. Nucleic Acids Res, 2005, 33(7):2290-2301.

[32] Brown MP, Grundy WN, Lin D, et al. Knowledge-based analysis of microarray gene expression data by using support vector machines.Proc Natl Acad Sci U S A, 2000, 97(1):262-267.

[33] Furey TS, Cristianini N, Duffy N, et al. Supporting vector machines classification and validation of cancer tissue samples using microarray expression data.Bioinformatics, 2000, 16(10):906-914.

[34] Williams RD, Hing SN, Greer BT, et al. Prognostic classification of relapsing favorable histology Wilms tumor using cDNA microarray expression profiling and support vector machines. Genes Chromosomes Cancer, 2004, 41(1):65-79.

[35] Durrenberger PF, Filiou MD, Moran LB, et al. DnaJB6 is present in the core of Lewy bodies and is highly up-regulated in parkinsonian astrocytes. J Neurosci Res, 2008, 87(1):238-245.

[36] Ghosh M, Aguila HL, Michaud J, et al. Essential role of the RNA-binding protein HuR in progenitor cell survival in mice. J Clin Invest, 2009, 119(12):3530-3543.

[37] Licino J, Wong ML, Wong L. Pharmacogenomics. Berlin: WILEY-VCH Verlag GmbH & Co. KGaA, 2002:79-109.

基金项目:国家“十一五”科技支撑计划(2006BAI08B04-06)

作者单位:100700 北京,中国中医科学院中医临床基础医学研究所

通讯作者:王忠,Email:zhonw@vip.sina.com

收稿日期:2010-01-27

DOI:10.3969/cmba.j.issn.1673-713X.2010.06.010

猜你喜欢
基因芯片贝叶斯聚类
出生时即可预判发育潜力 基因芯片精准筛选肉牛良种
基于贝叶斯解释回应被告人讲述的故事
基因芯片技术在生物研究中的应用进展
基于K-means聚类的车-地无线通信场强研究
基于动态贝叶斯估计的疲劳驾驶识别研究
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于互信息的贝叶斯网络结构学习
基因芯片快速检验细菌的临床应用
基于改进的遗传算法的模糊聚类算法