刘旻昊
摘 要:该文选取了30种脊椎动物线粒体基因数据,应用AMI方法提取出它们的序列特征,结合相关系数和离差平方和方法构建生物进化树。对30种脊椎动物,其生物进化树与白凤兰等人的方法进行对比,更加合理并且计算方法简单。
关键词:AMI 基因组 线粒体 生物进化树
中图分类号:TK823 文献标识码:A 文章编号:1674-098X(2015)05(b)-0032-01
1 数据选取
线粒体是真核细胞内较为简单的DNA分子,具有极少发生重组、进化速度快等特点。同时,线粒体DNA只通过母系遗传的机制也使其成为了探索母系遗传的绝佳工具,被广泛用于群体遗传学研究。
该文从文献2和3选取30种脊椎动物线粒体DNA完全基因组数据,可从NCBI网站http://www.ncbi.nlm.nih.gov免费下载。
2 数据计算
2.1 方法一
对于这30种线粒体基因组,首先提取各自序列的AMI向量,每种生物得到一个向量。对于参数k的选取,我们选取了10、50、100、200、300、400、500、600、700等多个值,对这30种动物的聚类都能得到近似的结果,但是综合各向量之间的距离和聚类分析的结果来看,k取500是比较合适的,这样AMI向量共有501个分量。对于这30种动物的AMI向量,进行聚类,最后得到结果(具体数据和结果可同作者电子邮件联系索取)。
2.2 方法二
白凤兰在其博士论文中将DNA序列用三维图形表示,利用图的不变量给出了序列之间的距离度量,然后定义了物种进化距离,最后用NJ算法构建了系统发生树。
3 结果分析
分析方法一的结果我们可以看出,guinea pig(几内亚猪)和cat(猫)dog(狗)被分在了一起,以上三种构成一个分支;platypus(鸭嘴兽)、rabbit(兔子)、squirrel(松鼠)和fat dormouse(睡鼠)构成了第二个分支,其中的squirrel和fat dormouse距离更近,这是符合进化关系的;下一个分支是human(人类)、gorilla(大猩猩)还有comlnon chimpanzee和pigmy chimpanzee两种猩猩构成的一个灵长目的分支,其中的两种猩猩comlnon chimpanzee和pigmy chimpanzee在系统发生树中距离最接近;再往下的一个大分支cow(牛)和sheep(羊)距离最近,同属于啮齿动物的rat(田鼠)和mouse(家属)在发生树上最接近;以上这些构成了第一个大的分支。在另一个分支中,从上往下看是两种海豹harbor seal和gray seal、两种犀牛Indian rhinoceros和white rhinoceros印第安犀牛與白犀牛,这两类的近缘物种分别距离最近;剩下的hippopotamus(河马)、orangutan(猩猩)、donkey(驴)和gibbon(长臂猿)构成了最后一个分支。总体来看,由AMI构成的系统发生树上面的多数近缘物种都能够聚在一起,符合我们已知的结论和观点。
通过与方法二的结果对比,除了灵长目的human、gorilla还有comlnon chimpanzee和pigmy chimpanzee两种猩猩在一个分支,而orangutan和gibbon在另一个分支,而在方法二这是分的比较好的,这几个物种在方法二中被聚为了一类。对于方法二两种犀牛Indian rhinoceros和white rhinoceros分别被分到了较远的分支上,并且印第安犀牛与donkey距离最近,白犀牛与horse(马)距离最近,rat与mouse两种鼠类也被分开了,没有聚在一起。总体来说,方法一在对物种的分类中结果要优于方法二的结果。
参考文献
[1] Mark Bauer,Sheldon M Schuster and Khalid Sayood.The Average Mutual Information Profile as a Genomic Signature[J].BMC Bioinformatics 2008,9:48doi:10.1186/1471-2105-9-48.
[2] 白凤兰.生物序列的图形表示极其应用[D].大连:大连理工大学,2005.
[3] Snel B,Bork P,Huynen M A.Genome phylogeny based on gene cotent[J].Nat Genet,1992,21:108-110.