夏云,颜渊
(武汉轻工大学生物与制药工程学院,湖北 武汉 430030)
正选择位点及其计算软件研究进展
夏云,颜渊
(武汉轻工大学生物与制药工程学院,湖北 武汉 430030)
随着分子生物学实验技术的发展和实验方法的改进,如今已经有大量的DNA相关数据。研究者从这些大数据中通过生物信息学的手段寻找关键的信息成为近年来的热门。介绍了计算正选择位点相关软件的发展过程及其现状。
正选择位点;生物信息;分子进化
21世纪生物学面临的一个难题,是弄清选择作用和碱基替换的关系,从微观角度来分析碱基的替换的原因。估算蛋白质编码基因的同义替换和非同义替换的相关比率是分子水平研究生物体进化选择的常用手段,近年来,越来越多相关领域的研究者使用该方法来计算正选择位点,其使用到的相关软件也一直在革新。
达尔文发表的《物种起源》指出自然选择是使得物种进化的最主要动力。而20世纪60年代,中性主义学派代表Kimura(1968)提出了具有争议的随机漂变假说[1],认为在微观分子水平上,绝大多数生物的演进不是因为自然选择而引起的,而是因为某种随机因素导致的等位基因通过遗传漂变造成的,即大多数进化中核苷酸替代均是中性或者近中性的随机因素突变。Saitou等[2]1987年提出虽然大多数的碱基替换都是随机的,但确实存在部分的选择性。微观分子角度的进化分析主要分析核苷酸密码子的替换情况。密码子的碱基被替换后产生的新密码子有以下情况:第一种,新的密码子是同义密码子,并不影响氨基酸的种类;第二种,新的密码子改变了氨基酸的表达。第一种情况被称为同义替换,第二种被称为非同义替换。单位时间(每年或每代)内在每个可能同义替换的位点上发生同义替代的数目被称为同义替代速率,非同义替代速率类似,分别用DN和DS来表示。DN和DS的比值DN/DS是衡量选择压力的分子进化参数,通常用ω表示。非同义替换对于生物体而言大多是有害的,纯化选择(purifying selection)可以使其逐渐减少,纯化选择在数据上的体现为DN/DS<1(ω<1),而有些少数的非同义替换,少数对于生物体而言是有益的碱基替换会被正选择作用[3](positive selection)所保留,那么在数据上的体现为DN/DS>1(ω>1),另外中性选择(neutral selection),DN/DS(ω=1)的期望值为1。
近些年,多数研究者通过计算DN/DS值来寻找正选择位点,具有代表性的方法有进化通路法(evolutionary pathway methods)[4]、基于Kimura双参数模型的方法(Methods based on Kimura’s 2-Parameter model)[5]、密码子替代模型为代表的最大似然法。近些年最常用的是杨子恒的最大似然法(maximum likelihood)[6]。
1997年,Yang等[7]发表了最大似然法系统进化分析软件包PAML。2007年,Yang等[8]又发表了PAML4,通过软件的迭代,对程序和算法进行了优化,但是程序仍然不具备图形操作界面,对于大多数刚接触的使用者来说上手难度很大。
2008年,Egan等[9]发表了IDEA:Interactive Display for Evolutionary Analyses,针对PAML的codeml和baseml 2个程序设计出图形化操作界面的软件IDEA;形象的图形界面使得相比以前代码形式的输入和输出文件而言,易用性大大提高。IDEA支持并行运算,许多PAML的分析都需要输入系统发育树文件,IDEA的一个好处在于整合了PHYLIP,可以让使用者在开始分析的时候软件自行调取PHYLIP。IDEA最大的好处在于输出结果的界面非常直观,将结果完全可视化的输出,不仅用不同颜色表示高概率证选择位点,而且将PAML不同模型输出结果的似然比检验值直接显示在操作界面,省去了使用者部分的工作。
2013年,Xu等[10]发表了基于可视化图形操作界面的PLAMX,相较于之前版本,虽然易用性提高了很多,但仅仅是在参数设置界面进行可视界面化,因此易用性还有很大提升空间。
3.1 安装问题
通常生物信息学计算软件都基于Linux环境,虽然很多软件有简易的网页版,网页版生物信息软件有诸多限制,往往研究还是需要用到本地安装版生物软件。但很多研究者往往输入的序列样本比较庞大,多数软件以源代码的形式给出,大多软件使用的开源依赖包,软件所涉及到的依赖包并不包括软件本身。当前国内Windows在操作系统中占绝对主导,在此环境下,对大多数生物专业的研究者来说,即便安装后,缺乏可视化图形操作界面对于快速掌握生物学软件而言仍然有很大障碍。相比于其他的同类软件,IEDA安装比较复杂,涉及到多个依赖包,安装起来难度很大。
3.2 运算速度问题
在序列量较大、需要测定的次数较多的情况下,PAML和大多生物信息学软件一样,计算的效率往往较低。其原因是因为近年来随着测序技术的发展,所测基因序列也越多,运算的基因序列越来越长,PAML的计算性能跟不上计算需求。情况与MrBayes等软件类似,早些年使用MrBayes时运算序列较大的情况下需要数月的时间才能得出结果,中间要保持计算机的运行状态,如若中断,则需要重新进行运算。随后,MrBayes软件在MacOS环境下推出了支持多核心多线程的并行运算,用常规4核心8线程的计算机进行运算,其效率提高了8倍。更值得关注的是,最近几年基于GPU的计算应用非常多,Mrbayes等生物信息软件有基于GPU运算的版本。由于GPU计算核心有上千个,充分利用GPU运算可以大大增加运算效率,缩短运行时间。近些年来,相较于CPU计算能力提升而言,GPU的计算能力提高很大,使用GPU并行运算的效率会提高数十倍。
有些研究者指出,PMAL由于涉及到的模型十分复杂,参数众多,计算非常耗时。对于PMAL中计算正选择位点的codeml软件包,有研究者提出了CPU并行方案[11]。通过实际操作实验表明,多核心CPU并行运行codeml可以使其速度有效提高。使用常规四核心CPU加速比高达约8倍。最佳的解决方案是期待将来实现GPU甚至是GPU和CPU一起并行的计算方案。这样用服务器CPU和GPU进行运算,加速效率应该提升数十倍甚至更高,尤其是在2016年GPU进入帕斯卡构架[12]后,对于运算性能有质的提升,这样面对当下研究者计算大量数据速度缓慢的问题可以得到解决。
在2016年,高芳銮等对原来的PMAL软件包中最核心的CodeML程序进行了革新,推出了适合绝大多数生物研究者使用的EasyCodeML(Gao F L等. EasyCodeML:an interactive visual tool for CodeML analysis,2016.尚未发表)。此软件的优点提供2种模式:预置模式和自定模式。以往的CodeML程序中,晦涩的参数设置是大多数运用正选择位点相关软件的研究者最大障碍之一。软件的预置模式内置了4种模型,均是以成对模型进行运算,解决了繁琐参数设置的问题。软件的自定义模式和2013年Xu等[10]发表的PAMLX版本类似,参数设置菜单具有图形输入界面。相比之前的相关软件,EasycodeML支持文件拖拽功能,能可视化标记树的分支,解决了以往软件手动代码标记易错的问题。EasyCodeML运算完成后可以自动完成Likelihood ratiotestes(LRT)分析,其结果可以直接导出Excel,易用性大大提升,非常符合国内研究者的使用习惯。而且软件不仅支持多线程操作,还支持多平台,如常见的Windows、Mac OS以及Linux等。近十年来,计算正选择位点的相关软件一直在发展,易用性逐步提高。可以说EasycodeML在易用性和兼容性上达到了一个新的高度。
[1]Kimura M.Evolutionary rate at the molecular level[J].Nature,1968,217:624~626.
[2]Saitou N,Nei M.The neighbor-joining method:a new method for reconstructing phylogenetic trees[J].Mol Biol Evol,1987,4:406~425.
[3]Yang Z,Nielsen R. Estimating synonymous and non-synonymous substitution rates under realistic evolutionary models[J].Mol Biol Evol,2000,17:32~43.
[4]NeiM,Gojobori T. Simple methods for estimating the numbers of synonymous and nonsynonymous nucleotide substitutions[J].Mol Biol Evol,1986,3:418~426.
[5]Li WH,Wu C I,Luo C C. A new method for estimating synonymous and nonsynonymous rates of nucleotide substitution considering the relative likelihood of nucleotide and codon changes [J]. Mol. Biol. Evol,1985,2:150~174.
[6]Yang Z,Bielawski J P. Statistical methods for detecting molecular adaptation[J].Trends in Ecology and Evolution,2000,15:496~503.
[7]Yang Z. PAML:a program package for phylogenetic analysis by maximum likelihood [J].Computer Applications in Biosciences,1997,13:555~556.
[8]Yang Z. PAML 4:a program package for phylogenetic analysis by maximum likelihood [J].Molecular Biology and Evolution,2007,24:1586~1591.
[9]Egan A,Mahurkar A,Crabtree J,etal.IDEA:Interactive Display for Evolutionary Analyses [J]. BMC Bioinformatics,2008,9:524.
[10]Xu B,Yang Z. PAMLX:a graphical user interface for PAML[J].Mol Biol Evol,2013,30:2723~2724.
[11]杨菊吴,卓锋,王刚,等.多核平台PAML并行算法研究[J].计算机工程与科学,2013,35(9):15~19.
[12]Manuel Ujaldón.CUDA Achievements and GPU Challenges Ahead[J].Articulated Motion and Deformable Objects,2016,9756:207~217.
2016-08-30
夏云(1991-),男,硕士生,研究方向为分子生物学, mm800@qq.com。
Q75;Q-31
A
1673-1409(2016)27-0051-03
[引著格式]夏云,颜渊.正选择位点及其计算软件研究进展[J].长江大学学报(自科版),2016,13(27):51~53.