刘旻昊
摘 要:Shannon熵理论可用于描述“无序状态”,而以Shannon熵为基础的AMI图形的算法则包含了生物序列的独特信息。DNA序列蕴含了生命的所有信息,基于Shannon熵为基础的AMI则描述了这种“无序状态”的变化趋势。这种计算方法简单易行,在遗传学、医学和生物学等领域都有广泛的应用。
关键词:Shannon熵 基因突变 多样性
中图分类号:TP39 文献标识码:A 文章编号:1672-3791(2015)03(a)-0242-01
随着计算机技术和信息技术的发展,对复杂冗长的DNA序列的分析研究变为现实。如何分析这些数据,提取相应的特征量来描述生命体之间的联系,是近年研究的热门问题。通过近几年的发展,也开发出一系列对比软件,常用的有CLUSTRALW等软件。
该文拟提取出不同DNA序列的平均互信息AMI作为特征参数,通过多元统计的方法对DNA序列进行描述,进而可以进行分类,在遗传学、医学等领域广泛应用。此种方法的优点是计算简单且速度较快,对大量数据的处理非常方便且准确率较高。
1 平均互信息AMI
对随机变量M,事件m的自信息定义为:
其中p(m)是事件m发生的概率,自信息I(m)是事件m发生的可能性的一种度量,表示事件M=m发生时,事件m所含有的所能提供的信息量。
对随机变量M和N,M的事件m与N的事件n之间的互信息定义为:
其中表示在事件n发生的概率下m发生的条件概率。
根据上述公式,可以定义基因序列的平均互信息(AMI):
其中为4种核苷酸A、C、G、T的集合,如果固定X在基因序列上的某一位置,则Y为X下游方向间隔k个位置的核苷酸。和是核苷酸为X和Y的概率。其中表示前一个核苷酸为X,下游方向间隔k个位置为Y的组合的个数,这样就表示X和Y间隔为k的联合分布概率。当k=0时,就表示了紧邻二联体核苷酸的概率,k=1时表示次紧邻二联体核苷酸的分布率[1]。
[2]就是基因序列的AMI,不同的k值对应不同的,对于每一个基因组,我们都能够得到一组向量,不同的基因序列,则可以得到不同的向量。
2 相关系数
在该文中我们选择的是pearson相关系数,又称为线性相关系数,它能反映两个数据集之间的线性相关程度。
令为两个向量和的Pearson相关系数,和代表的AMI各有k个分量(,,…,)和(,,…, )。
这是一个范围在[-1,+1]之间的数值,若相关系数为+1,表示两个数据集合之间呈现完美的正线性相关;若相关系数为-1,则表示量数据集之间是负线性相关;若相关系数为0,则表示两组数据之间没有线性相关性。
3 距离计算
根据相关系数,我们定义两种基因的AMI之间的距离为:
通过计算的距离可以看出各个物种与自己的距离为0,与其他物种的距离则根据进化关系的远近而不同。
4 聚类分析
通过计算不同物种两两之间的AMI距离,可以得到一个距离矩阵。对于这个距离,该文选用“ward”法即离差平方和方法进行聚类[3]。
5 K值选择
对于不同的基因组,首先提取各自序列的AMI的值,对于k值大小的选取,通过反复计算,认为取0到500是比较合适的。这样每种基因组就得到一个向量,共有501个分量。对于不同基因组的AMI向量,计算相关系数得到距离,两两相比较距离得到一个距离矩阵,对距离矩阵通过ward法聚类,最后得到结果。
6 具体应用
通过此种方法,可以很方便地对各类DNA序列进行分类和研究。该课题研究者对64种脊椎动物线粒体DNA绘制了生物进化树,进行分类进而构建它们之间的进化关系的应用。
参考文献
[1] Yuan Zhi fa,Zhou Jing yu,Guo Man cai,et al.Gene Diversity and Shannon Information Entropy.Animal[A]Biotechnology Bulletin,8(1):353-358.
[2] 罗辽复.生命进化的物理观[M].上海:上海科学技术出版社,2000,168-183.
[3] Mark Bauer,Sheldon M Schuster, Khalid Sayood.The Average Mutual Information Profile as a Genomic Signature[J].BMC Bioinformatics,2008 Jan 25,9:48.