系统发育基因组学研究进展

2014-05-10 01:25王章群解增言蔡应繁舒坤贤黄飞飞
遗传 2014年7期
关键词:建树基因组学同源

王章群,解增言,蔡应繁,舒坤贤,黄飞飞

1. 重庆邮电大学计算机科学与技术学院,重庆 400065;

2. 重庆邮电大学生物信息学院,重庆 400065;

3. 河南大学生命科学学院,开封 475001

在过去的几十年中,基于单个或少数几个基因序列构建系统发育树的方法被研究得较为透彻,并得到了广泛应用[1~4]。但由于存在横向基因转移(Horizontal gene transfer,HGT)、并系同源基因(Paralog)及类群间基因进化速率差异等因素,基于单基因构建的基因树有时并不能代表真实的物种树[5~8]。利用不同基因构建的系统发育树在很多情况下并不一致[9]。另外,这些方法都需要先对基因进行多序列比对,随着序列的增加,计算时间呈指数增长,因此在物种较多时,利用经典方法构建系统发育树需耗费大量的时间。

基于单基因构建系统发育树存在上述缺点,新的系统发育方法的提出显得十分必要。随着一些模式生物基因组测序完成,人们陆续提出了几种基于全基因组数据构建系统发育树的方法[10~13],形成了一个新的研究领域——系统发育基因组学(Phylogenomics)。这些方法尽管原理不一样,但由于都同时利用基因组中多个基因或多数序列信息构建系统发育树,因此或多或少地解决了上述基于单基因构建系统发育树存在的问题。系统发育基因组学在确定一些重要类群的系统发育地位方面发挥着越来越重要的作用,另外该方法也可以用来阐述由基因重复导致的基因组进化问题,重建各种生物化学路径的进化历史及预测基因功能等[14]。

1 系统发育基因组学研究方法及应用

基于全基因组数据构建系统发育树的方法有很多种,根据不同的理解有不同的分类方法[14~16]。根据所采用的全基因组数据的类型,这些方法可以分为以下 5类:多基因联合方法,基于基因含量的方法,基于基因排列信息的方法,基于序列短串含量特征信息的方法和基于代谢途径的方法。

1.1 多基因联合方法

多基因联合建树方法是将基因组中不同基因的信息或建树结果进行综合得到一个综合树。综合的方法有两种:将多个基因串联建树和采用超级树建树。前者将不同的基因序列串联成一个整体的序列,然后按照基于单基因建树的方法构建系统发育树[17];后者又细分为两大类:直接超级树方法和间接超级树方法。直接超级树方法先利用每个基因构建系统发育子树,再直接根据子树推导出一致树[12]; 而间接超级树方法[18]则通过对子树构建多个矩阵然后合成一个超级矩阵,再利用该超级矩阵构建最终的系统发育树[19]。如MRP[20]就是采用基于间接超级树的方法。

多基因联合的方法在系统发育分析中应用十分广泛。如Zhang等[21]通过将232个基因串联的方法,将28种乳酸菌分为两个大的类群,并发现与翻译、核糖体结构和生物合成功能相关的基因及 uvrB、polC、pbpB三基因集在进行系统发育分析时比其他基因效果更好。关于叶绿体起源被普遍接受的理论是内共生假说(Endosymbiosis),该假说认为叶绿体是独立生活的蓝藻(Cyanobacteria)内共生于不具备光合作用能力的真核生物细胞内形成的[22],但对于叶绿体起源于哪一类蓝藻目前意见并不一致。Criscuolo等[23]采用系统发育基因组学方法,利用22种原始的光合作用真核生物和 61种蓝藻基因组中的 191种蛋白质的分析结果,得出叶绿体的前身原始质体(Primary plastid)出现的时间比当前所有全基因组已测序的蓝藻的分化时间更早的结论。Torruella等[24]利用后鞭毛生物的保守单拷贝蛋白质结构域数据得到的结果支持蜷丝生物(Filozoa)假说,该假说认为中黏菌门(Mesomycetozoea或 Ichthyosporea)是动物总界(Holozoa)中第一个出现的类群,其后分别是蜷丝生物中的蜷丝球虫纲(Filasterea)、领鞭毛虫门(Choanoflagellata)和后生动物门(Metazoa)。Delsuc等[25]以24个进化缓慢的物种为外群,利用146个核基因对14个后口动物(Deuterostomia)进行系统发育分析,发现与头索类动物(Cephalochordates)相比,被囊类动物(Tunicates)与脊椎动物(Vertebrates)的亲缘关系更近。Shen等[26]筛选了一个针对脊椎动物系统发育研究的包含102种核蛋白编码基因的基因集,利用PCR方法能够快速准确地得到分析所需的序列集,在蝾螈类群的系统发育基因组研究中,该方法比利用表达序列标签(EST)、转录组测序(Transcriptome sequencing)或基于杂交的序列捕获(Sequence capture)获取序列的方法具有更大优势。Shen等[27]和Chiari等[28]利用不同的系统发育基因组分析方法得出龟类(Turtles)是主龙类(Archosauria)动物(鸟类和鳄鱼)姊妹群的结论。Hackett等[29]通过分析169个代表现存主要鸟类群体的19个独立基因位点,并采用多种系统发育方法分析解决了一系列的问题并得到许多令人惊讶的结论,如证明了雀形目(Passerines)和鹦形目(Psittaciformes)之间是姊妹群关系,一些昼行鸟类的祖先是夜行鸟类等。McCormack等[30]利用基因组中的超保守序列及其侧翼序列对胎盘哺乳动物进行系统发育分析后,得出象科(Elephantidae)和马岛猬科(Tenrecidae)是最早出现的胎盘哺乳动物类群的结论。Lee等[31]通过筛选直系同源基因并利用多基因联合方法研究种子植物间的关系,结果支持买麻藤纲(Gnetopsida)与裸子植物中其他纲是姊妹群的假说。

近年来,国内也有不少采用多基因联合方法进行系统发育分析方面的研究。金逍逍等[32]通过对26种虾虎鱼(Gobies)线粒体进行全基因组分析,推断矛尾刺虾虎鱼(Acanthogobius hasta Temminck &Schlegel)与斑尾刺虾虎鱼(A. ommaturus Richardson)、斑纹舌虾虎鱼(Glossogobius olivaceus Temminck& Schlegel)与钝吻舌虾虎鱼(G. circumspectus Macleay)分别为同种异名。他们采用分子钟估算结果,推测虾虎鱼科物种可能起源于始新世晚期至渐新世时段,在中新世进一步分化为具有现代表征的虾虎鱼种类。张丽丽等[33]通过对10种鳀科鱼类(Engraulidae)的线粒体全基因组进行分析,发现 ND4、ND2和Cytb是进行鳀科鱼类系统发育分析的较为理想的分子标记。钟华明等[34]利用12个重链蛋白质编码基因对赤狐(Vulpes vulpes L.)和其它犬科类动物进行系统发育分析,验证了赤狐(V. vulpes)与北极狐(Alopex lagopus L.)是姊妹群关系,而灰狼(Canis lupus L.)、家犬(C. familiaris L.)和郊狼(C. latrans Say)属于狼型分支,这一结论与已有的系统发育研究结果一致。

基于多基因联合的系统发育基因组方法由于利用多个基因构建系统发育树,在一定程度上解决了横向基因转移和不同基因间进化速率差异对系统发育树的影响,得到比单基因树更准确的结果,同时其原理简单清楚,因此在原核和真核生物的系统发育研究中得到了广泛应用。但与单基因建树方法一样,该方法要求所用基因是直系同源基因[35],这在一定程度上限制了该方法的应用。另外,超级树的建立十分依赖子树的准确性和兼容性,如果选取的基因序列存在错误导致子树存在偏差,在最终的一致树中,偏差可能会被放大,影响建树的准确性[36]。不同基因进化历程的差异也对多基因联合方法构建系统发育树的结果有较大影响[37]。

1.2 基于基因含量的方法

亲缘关系较近的物种,其基因组包含的基因种类也相似,因此可以利用基因含量信息构建系统发育树。基于基因含量的方法分析基因组中的直系同源基因簇[38,39]、基因[40]、基因家族[41]或蛋白质结构域[42,43]等的有无,得到距离矩阵,构建系统发育树。如 GeneContent[44]即为利用基因含量信息构建系统发育树常用的工具。基于全基因组BLAST距离建树的方法本质上也属于基于基因含量的方法,但该方法不必对原始序列进行预处理,而是直接对全基因组序列进行 BLAST,利用得分计算距离矩阵并构建系统发育树,因此相对于其他基于基因含量的方法更为简洁[45]。PTreeRec[46]即为基于该方法实现系统发育树构建的在线工具。

Montague和 Hutchison[47]利用基于基因含量的方法得到 13种疱疹病毒(Herpesviruses)的系统发育关系,与其他方法得到的结果相吻合。Krupovic等[48]通过对处于热液喷口处的不同高温球菌属(Thermococcus)的5类质粒进行测序,并利用基因含量及经典的系统发育方法发现类Pext9a质粒与来自Methanocaldococcus vulcanius M7所包含的质粒pMETVU01关系更近。这一数据支持类Pext9a质粒是从热球菌目(Thermococcales)通过横向转移进入甲烷球菌目(Methanococcales)的。Du等[38]开发的CGCPhy工具利用直系同源基因含量信息构建原核生物的系统发育树,其结果比其他系统发育基因组方法更准确。

由于不需要进行多序列比对,除基于全基因组BLAST的方法外,基于基因含量的方法比多基因联合方法需要的运算时间更少,尤其在物种数量很大时更为明显。另外,该类方法中除了基于直系同源基因簇的方法外,通常并不要求所选基因是直系同源基因,能广泛应用于亲缘关系较远物种间的系统发育树的构建。值得注意的是,虽然基于基因含量的方法具备在运算速度和建树材料选择上的优势,但当物种间基因组大小差别比较大时,可能会出现基因组大小相近物种聚到一起而不是亲缘关系近的物种聚到一起的现象[49],尤其在基于距离建树的该类方法中物种基因组大小成为影响系统发育树准确性的重要因素[43],这限制了该方法的应用。Yang等[43]提出新的模型,利用较小基因组物种拥有的特异蛋白质结构域数量与其蛋白质结构域总数的比值作为两物种间距离,该方法应用在简单生物如细菌中结果较好,但在构建高等生物的系统发育关系时准确性较差。基于全基因组BLAST的建树方法容易实现,但如果加入一个新的物种,需重新进行全基因组BLAST并计算所有物种间的距离,计算量过大成为限制该方法应用的主要因素。

1.3 基于基因排列信息的方法

染色体上的基因由于存在颠倒、转座、反转座等现象,导致基因在染色体上的位置和方向发生变化。在近缘物种中,可以利用这些基因排列的变化信息来确定物种间的亲缘关系[11,50]。基于基因排列信息的方法主要是通过分析直系同源基因的排列顺序,通过对不同物种基因的排列顺序进行比较并建立相应的数学模型,最后完成系统发育树构建[51,52]。Moret等[11,52]基于基因重排的特征,首先用断点分析工具GRAPPA[53]获得基因序列中成对的基因颠倒和断点的距离,对应的距离矩阵生成以后再通过相应的算法(如NJ法[8])构建系统发育树。Luo等[54,55]利用该方法构建Prochlorococcus属蓝细菌的系统发育树与单基因方法和基因含量方法得到的结果一致;他们对 8种产甲烷菌(Methanogen)分析得到的结果支持将其分为两大类,但与以前的分类不同的是,第二类中的甲烷嗜高热菌目(Methanopyrales)及甲烷杆菌目(Methanobacteriales)与甲烷八叠球菌目(Methanosarcinales)而不是甲烷球菌目(Methanococcales)聚在一起。Yue等[56]在GRAPPA的基础上开发的针对叶绿体基因组数据的方法GRAPPA-IR,能得到比其他方法更准确的结果。Blanchette等[57]发现利用基因断点距离比基因颠倒和转座信息构建的系统发育树更准确。

基于基因排列信息的系统发育树能较好地反映物种间的进化关系。但由于基因排列信息的保守性只存在于亲缘关系较近的物种之间[58],因此该类方法只适用于近缘物种。另外,基于基因排列信息方法中的建树优化问题是 NP完全问题(Non-deterministic polynomial complete problem,NP-complete)[59],即不能保证在有限的时间内得到的结果是最优树。

1.4 基于序列短串含量特征信息的方法

该方法基于一定的数学模型,利用核酸或蛋白质序列短串的频率信息构建系统发育树。如Hao和Qi等[13,60,61]提出的组分矢量(Composition vector)法,Otu等[62]提出的基于Lempel–Ziv复杂度的建树方法,Stuart等[63]提出的基于 SVD余弦矢量距离方法,以及 Sims等[64]提出的基于序列特征频率(Feature frequency profiles,FFP)的方法。CVTree[65]是利用组分矢量法实现系统发育树构建的在线工具。

Qi等[60]利用组分矢量法分析了原核生物的系统发育关系,与利用 16S rDNA得到的结果较为一致。Wang等[66]利用组分矢量法对82个真菌物种进行分析,为目前尚未确定归属类群的物种的分类提供了信息。如:他们认为在粪壳菌纲(Sordariomycetes)中稻瘟病菌(Magnaporthe grisea (T.T. Hebert) M.E.Barr)和 Plectosphaerellaceae科分别与粪壳菌目(Sordariales)和肉座菌目(Hypocreales)亲缘关系较近;在散囊菌目(Eurotiales)中,结果显示构巢曲霉(Aspergillus nidulans Eidam)是8种曲霉中最早出现的分支,而散囊菌目(Onygenales)中的组织胞浆菌属(Histoplasma)与副球孢子菌属(Paracoccidioides)聚在一起。华蔚颖等[67]用 CVTree方法对一个中国家庭4代共7名成员的肠道菌群和不同基因型及饮食类型的小鼠肠道菌群结构进行比较分析,发现CVTree能快速有效地处理16S rRNA基因的454高通量测序数据,实现对不同菌群结构相似性的比较分析。Sims等[68]基于 FFP的方法对大肠杆菌(Escherichia coli Migula)和志贺氏菌属(Shigella)进行分析,提出由于它们的基类群均为 B2,而 B2类群中包含原始的尿道致病性(Uropathogenic)大肠杆菌菌株,因而它们的祖先可能是兼性(Facultative)或机会(Opportunistic)致病菌。Jun等[69]利用全蛋白质组FFP方法得到了原核生物较理想的系统发育树。

与前面方法不同,基于序列短串含量特征信息的方法处理的对象是长度只有几个碱基的序列短串,不需要进行多序列比对(Alignment free),因此速度很快。简单生物如细菌和真菌利用该方法能得到较理想的结果,但复杂生物如高等动植物基因组中存在大量重复序列和可变剪接基因,会影响基于序列短串方法的准确性。另外,序列短串缺乏同源基础,一些核苷酸短串频率的统计分布也缺少论证,这在一定程度上影响了该方法的推广应用。

1.5 基于代谢途径的方法

不同的物种其代谢途径有一定的差异,而酶又在代谢途径中起着关键性作用,所以通过比较物种之间对应的酶及其底物在相应代谢途径中的关系,可以重建物种间的系统发育关系[70]。通过分析酶与酶之间的关系图也能较好地实现系统发育树的构建[71]。如 Ma等[72]发现,通过基于代谢途径的方法与基于16S rRNA所构建的系统发育树具有良好的一致性,并且能有效地避免横向基因转移所带来的影响。多种代谢途径都可以单独用来构建系统发育树,如碳水化合物代谢途径[71]、糖酵解代谢途径[73]等,或者将多种代谢途径结合构建系统发育树[74]。KEGG数据库中的代谢反应网络信息也被用来实现系统发育树的构建[75]。赵建邦等[76]在KEGG代谢通路的基础上,采用图论中“核”的概念作为理论基础重新设计算法,取得了较好的效果。

该类方法得到的结果较为准确。但由于生物体的代谢途径极为复杂,很难准确地获取代谢途径的拓扑结构图并从中得到合理的建树信息,因此基于代谢途径的方法过程较为复杂,难以推广应用。

2 不同系统发育基因组学方法比较

上述 5类基于全基因组数据的系统发育树构建方法所用的数据类型、模型、适用范围、计算量及结果的准确性等各不相同,各有优缺点。其中,多基因联合的方法一方面具有单基因方法理论基础较好的优势,另一方面又结合了全基因组方法的特征,有效地解决了横向基因转移问题对单基因建树所带来的影响,所以在原核生物和真核生物的系统发育分析中均被广泛使用,是应用最多的系统发育基因组方法。5类方法的特点和对应的工具总结见表 1,在实际应用中,可以根据情况选取合适的方法。

3 系统发育基因组学方法与经典方法比较

相对于经典的单基因系统发育方法,基于全基因组数据的方法具有以下的优势:

(1)由于基于全基因组系统发育的方法利用整个基因组数据的信息,能有效抵消横向基因转移及基因速率差异带来的影响,因此所构建的系统发育树通常比单基因树更接近真实的物种树。Rokas等[79]提出建树的过程中加入的基因数目越多得到的结果越接近真实的物种树,Wolf等[49]也认为只有扩大基因的规模才能更加有效地保证系统发育树构建的准确性。

(2)采用单基因建树的方法在物种数量较多的情况下会变得复杂,首先是难以找到可以同时应用于远缘和近缘物种的合适的基因,其次是建树过程中多序列比对的计算时间会随着物种数量的增加呈指数增长,限制了单基因建树方法的使用,而多数系统发育基因组学方法不存在类似的问题。

但基于全基因组的系统发育方法仍然有难以解决的缺点:(1)没有全基因数据的物种无法使用该方法; (2)基因组的测序和注释质量会影响该类方法的准确性; (3)部分系统发育基因组学方法过程复杂,难以集成到一个软件,只能通过基于管道的网站服务器提供服务,限制了其推广应用。

尽管有一些限制,但随着基因组数据越来越多,以及新的数学模型的提出和新工具的开发,系统发育基因组方法将逐渐成熟并得到广泛应用。

4 系统发育基因组学面临的挑战

与经典的单基因建树方法相比较,基于全基因组数据的系统发育基因组学方法在应对横向基因转移、类群间基因进化速率差异等问题方面有较大进步,但这类方法仍然有一些问题需要解决,主要是直系同源基因识别,如何利用基因树和基因组树来确定物种树以及物种自身的进化历史对系统发育树构建的影响等。

表1 基于全基因组数据的系统发育方法比较

4.1 直系同源基因识别

尽管有些基于全基因组的系统发育方法不需要判断直系同源基因,但目前大量系统发育基因组学研究仍然使用多基因联合方法,需要首先筛选直系同源基因。目前获得直系同源基因的方法主要有 3类[80]:一类是基于序列相似性的方法[81~83]; 一类是通过构建系统发育树来实现直系同源基因的识别的方法[84]; 还有一类方法是通过前面两种方法的结合来实现直系同源基因的识别[85]。Hulsen等[86]提出通过同等功能蛋白质识别同源基因的最好工具是InParanoid。相关的直系同源基因数据库有 OMA[87]和 eggNOG[88]等。但由于基因组中存在大量基因重复和丢失等事件,这些方法和数据库并不能保证所获得的所有直系同源基因的准确性。

在有更好的直系同源基因识别工具出现前,开发不需要识别直系同源基因的系统发育基因组学方法是较好的选择,如基于序列短串含量特征信息的方法,不需要做直系同源基因筛选和多序列比对,同样能给出较为准确的结果。

4.2 基因树、基因组树与物种树

由于系统发育基因组学方法利用的是全部或部分基因组的数据,比起单基因构建的系统发育树(基因树),该类方法的结果(基因组树)更能反映生物基因组整体的进化历程,在一定程度上,基因组树比基因树更接近物种树[89,90]。然而,横向基因转移的存在使得物种间尤其是原核生物间呈复杂的网状关系,而不是简单的树状关系[91],基因组树并不等同于物种树。但通过比较基因树和基因组树,可以推导物种的系统发育网络及横向基因转移及其规模,更好地理解物种间的进化关系[92]。值得注意的是,在多基因联合方法中,使用的基因越多随机误差越小,但由于不同序列在核苷酸组成及在不同位点和类群间的进化速率存在差异,系统误差随之增加[93,94]。在未来的系统发育基因组学研究中,如何有效的降低系统误差得到更合理的系统发育树将是其面临的另一挑战。

4.3 物种自身进化历史对系统发育树构建的影响

除了分析方法和技术本身存在的问题外,还有一个问题是不能忽视的,即物种基因组自身特点对系统发育树构建的影响。Jeffroy等[95]认为,采用不同的基于全基因组系统发育分析的方法所得到的结果并不一致,主要是因为基因组数据中核苷酸的组成偏好会影响系统发育树的准确构建。某些生物类群由于特殊的进化历史和生存环境,其成员间的关系复杂,难以推断,基于全基因组数据的系统发育基因组方法对此并没有很好的解决办法,如被子植物由于快速的辐射进化,其内部类群间的关系用不同的系统发育方法很难得到一致的结果[96]。

5 展 望

当前,利用单基因构建系统发育树的技术已经非常成熟,尽管会受到横向基因转移及物种间进化速率差异等的影响,该技术目前仍然是应用最广泛的分子系统发育方法。基于全基因组数据的系统发育方法种类由于利用的是整个基因组的信息,能较好地解决上述问题,但大多数方法过程繁琐,较难推广应用,当前多是提供网络分析服务。

系统发育基因组学发展初期,由于基因组数据有限,而人类和小鼠的基因组测序和注释质量较高,因此在脊椎动物的系统发育分析中应用较多,并得到了较为可信的结果。与动物相比,早期植物基因组数据相对较少,因而限制了该类方法在植物方面的应用研究,但是随着植物基因组数据的增多,该类方法对植物的研究也越来越多。裸子植物挪威杉(Picea abies L.)基因组的测序完成[97],使得绿藻(莱茵衣藻Chlamydomonas reinharditii P. A. Dang.和团藻 Volvox carteri F. Stein)、苔藓(小立碗藓 Physcomitrella patens Bruch & W. P. Schimper)、蕨类(江南卷柏 Selaginella moellendorffii Hieron.)、裸子植物(挪威杉 P. abies)和被子植物(拟南芥 Arabidopsis thaliana (L.) Heynh.和水稻 Oryza sativa L.等)等主要植物类群都有了代表植物的基因组,必将大大促进植物系统基因组学研究[98]。基于全基因组数据的系统发育方法为构建整个生命之树(Tree of life)提供了新的有力的工具[89,99]。随着公共网络数据库中基因组数据的快速增长,基于全基因组的系统发育分析应用将日益广泛。

随着二代测序技术的成熟,系统发育基因组学必将有更多的应用。但由于新一代测序技术在序列拼接方面的困难,目前主要基于多基因联合方法的系统发育基因组学会遇到很多问题,因此在新一代测序技术时代,需要开发新一代系统发育基因组学方法,包括不用进行序列比对的方法等[100]。

另外,蛋白质结构域是基因进化的基本单位,不同的基因编码的蛋白质可能包含相同的结构域,利用这些基因建树会造成干扰。如果直接利用蛋白质结构域信息构建系统发育树就不存在这样的问题。目前已有成熟的蛋白质结构域数据库如Pfam[101]等,利用全基因组蛋白质结构域构建物种间的系统发育关系将是一个非常有前景的领域。

[1]O'Neill SL,Giordano R,Colbert AM,Karr TL,Robertson HM. 16S rRNA phylogenetic analysis of the bacterial endosymbionts associated with cytoplasmic incompatibility in insects. Proc Natl Acad Sci USA,1992,89(7): 2699–2702.

[2]Purkhold U,Pommerening-Röser A,Juretschko S,Schmid MC,Koops HP,Wagner M. Phylogeny of all recognized species of ammonia oxidizers based on comparative 16S rRNA and amoA sequence analysis: implications for molecular diversity surveys. Appl Environ Microb,2000,66(12): 5368–5382.

[3]Hedges SB,Moberg KD,Maxson LR. Tetrapod phylogeny inferred from 18S and 28S ribosomal RNA sequences and a review of the evidence for amniote relationships. Mol Biol Evol,1990,7(6): 607–633.

[4]李建伏,郭茂祖. 系统发生树构建技术综述. 电子学报,2006,34(11): 2047–2052.

[5]Doolittle WF,Logsdon JM Jr. Archaeal genomics: do archaea have a mixed heritage? Curr Biol,1998,8(6): R209–R211.

[6]Doolittle WF. Phylogenetic classification and the universal tree. Science,1999,284(5423): 2124–2128.

[7]Huynen MA,Bork P. Measuring genome evolution. Proc Natl Acad Sci USA,1998,95(11): 5849–5856.

[8]Degnan JH,Rosenberg NA. Discordance of species trees with their most likely gene trees. PLoS Genet,2006,2(5):e68.

[9]Song S,Liu L,Edwards SV,Wu SY. Resolving conflict in eutherian mammal phylogeny using phylogenomics and the multispecies coalescent model. Proc Natl Acad Sci USA,2012,109(37): 14942–14947.

[10]Snel B,Bork P,Huynen MA. Genome phylogeny based on gene content. Nat Genet,1999,21(1): 108–110.

[11]Moret BM,Wang LS,Warnow T,Wyman SK. New approaches for reconstructing phylogenies from gene order data. Bioinformatics,2001,17(Suppl.1): S165-S173.

[12]Semple C,Steel M. A supertree method for rooted trees.Discrete Appl Math,2000,105(1-3): 147–158.

[13]Hao BL,Qi J. Prokaryote phylogeny without sequence alignment: from avoidance signature to composition distance. J Bioinform Comput Biol,2004,2(1): 1–19.

[14]于黎,张亚平. 系统发育基因组学——重建生命之树的一条迷人途径. 遗传,2006,28(11): 1445–1450.

[15]Coenye T,Gevers D,Van de Peer Y,Vandamme P,Swings J. Towards a prokaryotic genomic taxonomy. FEMS Microbiol Rev,2005,29(2): 147–167.

[16]傅静,孙啸. 基于全基因组的系统发生分析. 生物技术,2003,13(6): 53-56.

[17]Wu M,Eisen JA. A simple,fast,and accurate method of phylogenomic inference. Genome Biol,2008,9(10): R151.

[18]Ragan MA. Phylogenetic inference based on matrix representation of trees. Mol Phylogenet Evol,1992,1(1):53–58.

[19]Bininda-Emonds OR,Gittleman JL,Steel MA. The (super)tree of life: procedures,problems,and prospects. Annu Rev Ecol Syst,2002,33: 265–289.

[20]Baum BR. Combining trees as a way of combining data sets for phylogenetic inference,and the desirability of combining gene trees. Taxon,1992,44(1): 3–10.

[21]Zhang ZG,Ye ZQ,Yu L,Shi P. Phylogenomic reconstruction of lactic acid bacteria: an update. BMC Evol Biol,2011,11: 1.

[22]Keeling PJ. The endosymbiotic origin,diversification and fate of plastids. Philos Trans R Soc Lond B Biol Sci,2010,365(1541): 729–748.

[23]Criscuolo A,Gribaldo S. Large-scale phylogenomic analyses indicate a deep origin of primary plastids within cyanobacteria. Mol Biol Evol,2011,28(11): 3019–3032.

[24]Torruella G,Derelle R,Paps J,Lang BF,Roger AJ,Shalchian-Tabrizi K,Ruiz-Trillo I. Phylogenetic relationships within the Opisthokonta based on phylogenomic analyses of conserved single-copy protein domains. Mol Biol Evol,2012,29(2): 531–544.

[25]Delsuc F,Brinkmann H,Chourrout D,Philippe H. Tunicates and not cephalochordates are the closest living relatives of vertebrates. Nature,2006,439(7079): 965–968.

[26]Shen XX,Liang D,Feng YJ,Chen MY,Zhang P. A versatile and highly efficient toolkit including 102 nuclear markers for vertebrate phylogenomics,tested by resolving the higher level relationships of the caudata. Mol Biol Evol,2013,30(10): 2235–2248.

[27]Shen XX,Liang D,Wen JZ,Zhang P. Multiple genome alignments facilitate development of NPCL markers: a case study of tetrapod phylogeny focusing on the position of turtles. Mol Biol Evol,2011,28(12): 3237–3252.

[28]Chiari Y,Cahais V,Galtier N,Delsuc F. Phylogenomic analyses support the position of turtles as the sister group of birds and crocodiles (Archosauria). BMC Biol,2012,10(1): 65.

[29]Hackett SJ,Kimball RT,Reddy S,Bowie RCK,Braun EL,Braun MJ,Chojnowski JL,Cox WA,Han KL,Harshman J.A phylogenomic study of birds reveals their evolutionary history. Science,2008,320(5884): 1763–1768.

[30]McCormack JE,Faircloth BC,Crawford NG,Gowaty PA,Brumfield RT,Glenn TC. Ultraconserved elements are novel phylogenomic markers that resolve placental mammal phylogeny when combined with species-tree analysis.Genome Res,2012,22(4): 746–754.

[31]Lee EK,Cibrian-Jaramillo A,Kolokotronis SO,Katari MS,Stamatakis A,Ott M,Chiu JC,Little DP,Stevenson DW,McCombie WR,Martienssen RA,Coruzzi G,Desalle R. A functional phylogenomic view of the seed plants. PLoS Genet,2011,7(12): e1002411.

[32]金逍逍,孙悦娜,王日昕,汤达,赵盛龙,徐田军. 虾虎鱼类线粒体全基因组序列结构特征分析及系统发育关系探讨. 遗传,2013,35(12): 1391–1402.

[33]张丽丽,程起群. 鳀科鱼类线粒体全基因组序列结构特征及系统发育信息分析. 海洋渔业,2012,34(1): 7–14.

[34]钟华明,张洪海,沙未来,张承德,陈玉才. 赤狐线粒体全基因组及系统发育分析. 动物学研究,2010,31(2):122–130.

[35]Snel B,Huynen MA,Dutilh BE. Genome trees and the nature of genome evolution. Annu Rev Microbiol,2005,59:191–209.

[36]Gadagkar SR,Rosenberg MS,Kumar S. Inferring species phylogenies from multiple genes: concatenated sequence tree versus consensus gene tree. J Exp Zool B Mol Dev Evol,2005,304(1): 64–74.

[37]Kubatko LS,Degnan JH. Inconsistency of phylogenetic estimates from concatenated data under coalescence. Systematic Biol,2007,56(1): 17–24.

[38]Du W,Cao ZB,Wang Y,Sun Y,Blanzieri E,Liang YC.Prokaryotic phylogenies inferred from whole-genome sequence and annotation data. Biomed Res Int,2013,2013:409062.

[39]Bolshoy A,Volkovich Z. Whole-genome prokaryotic clustering based on gene lengths. Discrete Appl Math,2009,157(10): 2370–2377.

[40]Huson DH,Steel M. Phylogenetic trees based on gene content. Bioinformatics,2004,20(13): 2044–2049.

[41]Gu X,Zhang HM. Genome phylogenetic analysis based on extended gene contents. Mol Biol Evol,2004,21(7):1401–1408.

[42]Yang S,Bourne PE. The evolutionary history of protein domains viewed by species phylogeny. PLoS ONE,2009,4(12): e8378.

[43]Yang S,Doolittle RF,Bourne PE. Phylogeny determined by protein domain content. Proc Natl Acad Sci USA,2005,102(2): 373–378.

[44]Gu X,Huang W,Xu DP,Zhang HM. GeneContent: software for whole-genome phylogenetic analysis. Bioinformatics,2005,21(8): 1713–1714.

[45]Auch AF,Henz SR,Holland BR,Göker M. Genome BLAST distance phylogenies inferred from whole plastid and whole mitochondrion genome sequences. BMC bioinformatics,2006,7(1): 350.

[46]Deng RQ,Huang MS,Wang JW,Huang YS,Yang J,Feng JH,Wang XZ. PTreeRec: Phylogenetic Tree Reconstruction based on genome BLAST distance. Comput Biol Chem,2006,30(4): 300–302.

[47]Montague MG,Hutchison CA. Gene content phylogeny of herpesviruses. Proc Natl Acad Sci USA,2000,97(10):5334–5339.

[48]Krupovic M,Gonnet M,Hania WB,Forterre P,Erauso G.Insights into dynamics of mobile genetic elements in hyperthermophilic environments from five new Thermococcus plasmids. PLoS ONE,2013,8(1): e49044.

[49]Wolf YI,Rogozin IB,Grishin NV,Tatusov RL,Koonin EV.Genome trees constructed using five different approaches suggest new major bacterial clades. BMC Evol Biol,2001,1(1): 8.

[50]Wang LS,Warnow T,Moret BM,Jansen RK,Raubeson LA. Distance-based genome rearrangement phylogeny. J Mol Evol,2006,63(4): 473–483.

[51]Korbel JO,Snel B,Huynen MA,Bork P. SHOT: a web server for the construction of genome phylogenies. Trends Genet,2002,18(3): 158–162.

[52]Moret BME,Tang JJ,Wang LS,Warnow T. Steps toward accurate reconstructions of phylogenies from gene-order data. J Comput Syst Sci,2002,65(3): 508–525.

[53]Moret BME,Wyman S,Bader DA,Warnow T,Yan M. A new implementation and detailed study of breakpoint analysis. Pac Symp Biocomput,2001: 583–594.

[54]Luo HW,Shi J,Arndt W,Tang JJ,Friedman R. Gene order phylogeny of the genus Prochlorococcus. PLoS ONE,2008,3(12): e3837.

[55]Luo HW,Sun ZY,Arndt W,Shi J,Friedman R,Tang JJ.Gene order phylogeny and the evolution of methanogens.PLoS ONE,2009,4(6): e6069.

[56]Yue F,Cui LY,de Pamphilis CW,Moret BME,Tang JJ.Gene rearrangement analysis and ancestral order inference from chloroplast genomes with inverted repeat. BMC Genomics,2008,9 (Suppl.1): S25.

[57]Blanchette M,Kunisawa T,Sankoff D. Gene order breakpoint evidence in animal mitochondrial phylogeny. J Mol Evol,1999,49(2): 193–203.

[58]Tamames J,Casari G,Ouzounis C,Valencia A. Conserved clusters of functionally related genes in two bacterial genomes. J Mol Evol,1997,44(1): 66–73.

[59]Pe’er I,Shamir R. The median problems for breakpoints are NP-complete. P El C Comp Compl,1998,71: 1–16.

[60]Qi J,Wang B,Hao BL. Whole proteome prokaryote phylogeny without sequence alignment: a K-string composition approach. J Mol Evol,2004,58(1): 1–11.

[61]Xu Z,Hao BL. CVTree update: a newly designed phylogenetic study platform using composition vectors and whole genomes. Nucleic Acids Res,2009,37(Suppl.2):W174–W178.

[62]Otu HH,Sayood K. A new sequence distance measure for phylogenetic tree construction. Bioinformatics,2003,19(16): 2122–2130.

[63]Stuart GW,Moffett K,Baker S. Integrated gene and species phylogenies from unaligned whole genome protein sequences. Bioinformatics,2002,18(1): 100–108.

[64]Sims GE,Jun SR,Wu GA,Kim SH. Alignment-free genome comparison with feature frequency profiles (FFP)and optimal resolutions. Proc Natl Acad Sci USA,2009,106(8): 2677–2682.

[65]Qi J,Luo H,Hao BL. CVTree: a phylogenetic tree reconstruction tool based on whole genomes. Nucleic Acids Res,2004,32(Web Server issue): W45–W47.

[66]Wang H,Xu Z,Gao L,Hao BL. A fungal phylogeny based on 82 complete genomes using the composition vector method. BMC Evol Biol,2009,9(1): 195.

[67]华蔚颖,徐昭,张梦晖,李旻,张晨虹,赵立平. CVTree在454高通量测序分析菌群结构中的应用. 中国微生态学杂志,2010,22(4): 312–316.

[68]Sims GE,Kim SH. Whole-genome phylogeny of Escherichia coli/Shigella group by feature frequency profiles(FFPs). Proc Natl Acad Sci USA,2011,108(20): 8329–8334.

[69]Jun SR,Sims GE,Wu GA,Kim SH. Whole-proteome phylogeny of prokaryotes by feature frequency profiles:An alignment-free method with optimal feature resolution.Proc Natl Acad Sci USA,2010,107(1): 133–138.

[70]Forst CV,Schulten K. Phylogenetic analysis of metabolic pathways. J Mol Evol,2001,52(6): 471–489.

[71]Heymans M,Singh AK. Deriving phylogenetic trees from the similarity analysis of metabolic pathways. Bioinformatics,2003,19 (Suppl.1): 138–146.

[72]Ma HW,Zeng AP. Phylogenetic comparison of metabolic capacities of organisms at genome level. Mol Phylogenet Evol,2004,31(1): 204–213.

[73]Clemente JC,Satou K,Valiente G. Reconstruction of phylogenetic relationships from metabolic pathways based on the enzyme hierarchy and the gene ontology. Genome Inform,2005,16(2): 45–55.

[74]Mano A,Tuller T,Béjà O,Pinter RY. Comparative classification of species and the study of pathway evolution based on the alignment of metabolic pathways. BMC Bioinform,2010,11(Suppl.1): S38.

[75]Wan P,Che DS. Constructing phylogenetic trees using interacting pathways. Bioinformation,2013,9(7): 363–367.

[76]赵建邦,高琳,宋佳. 一种基于代谢路径构建系统发生树的有效方法. 电子学报,2009,37(8): 1633–1638.

[77]Creevey CJ,McInerney JO. Clann: investigating phylogenetic information through supertree analyses. Bioinformatics,2005,21(3): 390–392.

[78]Desper R,Gascuel O. Fast and accurate phylogeny reconstruction algorithms based on the minimum-evolution principle. J Comput Biol,2002,9(5): 687–705.

[79]Rokas A,Williams BL,King N,Carroll SB. Genome-scale approaches to resolving incongruence in molecular phylogenies. Nature,2003,425(6960): 798–804.

[80]杨婧,黄原,汪晓阳. 直系同源基因的识别方法与数据库. 生命科学研究,2013,17(3): 274–277.

[81]Li L,Stoeckert CJ Jr.,Roos DS. OrthoMCL: identification of ortholog groups for eukaryotic genomes. Genome Res,2003,13(9): 2178–2189.

[82]Remm M,Storm CEV,Sonnhammer ELL. Automatic clustering of orthologs and in-paralogs from pairwise species comparisons. J Mol Biol,2001,314(5): 1041–1052.

[83]Tatusov RL,Fedorova ND,Jackson JD,Jacobs AR,Kiryutin B,Koonin EV,Krylov DM,Mazumder R,Mekhe-dov SL,Nikolskaya AN,Rao BS,Smirnov S,Sverdlov AV,Vasudevan S,Wolf YI,Yin JJ,Natale DA. The COG database: an updated version includes eukaryotes. BMC Bioinform,2003,4(1): 41.

[84]Kristensen DM,Wolf YI,Mushegian AR,Koonin EV.Computational methods for Gene Orthology inference.Brief Bioinform,2011,12(5): 379–391.

[85]Linard B,Thompson JD,Poch O,Lecompte O. Ortho-Inspector: comprehensive orthology analysis and visual exploration. BMC Bioinform,2011,12: 11.

[86]Hulsen T,Huynen MA,de Vlieg J,Groenen PMA. Benchmarking ortholog identification methods using functional genomics data. Genome Biol,2006,7(4): R31.

[87]Altenhoff AM,Schneider A,Gonnet GH,Dessimoz C.OMA 2011: orthology inference among 1000 complete genomes. Nucleic Acids Res,2011,39(Suppl.1): D289-D294.

[88]Muller J,Szklarczyk D,Julien P,Letunic I,Roth A,Kuhn M,Powell S,von Mering C,Doerks T,Jensen LJ,Bork P.eggNOG v2.0: extending the evolutionary genealogy of genes with enhanced non-supervised orthologous groups,species and functional annotations. Nucleic Acids Res,2010,38(Database issue): D190–D195.

[89]Wolf YI,Rogozin IB,Grishin NV,Koonin EV. Genome trees and the tree of life. Trends Genet,2002,18(9): 472–479.

[90]Burleigh JG,Bansal MS,Eulenstein O,Hartmann S,Wehe A,Vision TJ. Genome-scale phylogenetics: inferring the plant tree of life from 18,896 gene trees. Syst Biol,2011,60(2): 117–125.

[91]Kelk S. Phylogenetic networks: concepts,algorithms and applications. Syst Biol,2012,61(1): 174–175.

[92]Ge F,Wang LS,Kim J. The cobweb of life revealed by genome-scale estimates of horizontal gene transfer. PLoS Biol,2005,3(10): e316.

[93]Rodriguez-Ezpeleta N,Brinkmann H,Roure B,Lartillot N,Lang BF,Philippe H. Detecting and overcoming systematic errors in genome-scale phylogenies. Syst Biol,2007,56(3): 389–399.

[94]邹新慧,葛颂. 基因树冲突与系统发育基因组学研究.植物分类学报,2008,46(6): 795–807.

[95]Jeffroy O,Brinkmann H,Delsuc F,Philippe H. Phylogenomics: the beginning of incongruence? Trends Genet,2006,22(4): 225–231.

[96]Smith SA,Beaulieu JM,Stamatakis A,Donoghue MJ.Understanding angiosperm diversification using small and large phylogenetic trees. Am J Bot,2011,98(3): 404–414.

[97]Nystedt B,Street NR,Wetterbom A,Zuccolo A,Lin YC,Scofield DG,Vezzi F,Delhomme N,Giacomello S,Alexeyenko A,Vicedomini R,Sahlin K,Sherwood E,Elfstrand M,Gramzow L,Holmberg K,Hallman J,Keech O,Klasson L,Koriabine M,Kucukoglu M,Kaller M,Luthman J,Lysholm F,Niittyla T,Olson A,Rilakovic N,Ritland C,Rossello JA,Sena J,Svensson T,Talavera-Lopez C,Theissen G,Tuominen H,Vanneste K,Wu ZQ,Zhang B,Zerbe P,Arvestad L,Bhalerao R,Bohlmann J,Bousquet J,Garcia Gil R,Hvidsten TR,de Jong P,MacKay J,Morgante M,Ritland K,Sundberg B,Thompson SL,Van de Peer Y,Andersson B,Nilsson O,Ingvarsson PK,Lundeberg J,Jansson S. The Norway spruce genome sequence and conifer genome evolution. Nature,2013,497(7451):579–584.

[98]Soltis PS,Soltis DE. A conifer genome spruces up plant phylogenomics. Genome Biol,2013,14(6): 122.

[99]Delsuc F,Brinkmann H,Philippe H. Phylogenomics and the reconstruction of the tree of life. Nat Rev Genet,2005,6(5): 361–375.

[100]Chan CX,Ragan MA. Next-generation phylogenomics.Biol Direct,2013,8: 3.

[101]Punta M,Coggill PC,Eberhardt RY,Mistry J,Tate J,Boursnell C,Pang N,Forslund K,Ceric G,Clements J,Heger A,Holm L,Sonnhammer ELL,Eddy SR,Bateman A,Finn RD. The Pfam protein families database. Nucleic Acids Res,2012,40(Database issue): D290–D301.

猜你喜欢
建树基因组学同源
以同源词看《诗经》的训释三则
山西在谷子功能基因组学研究领域取得重大突破
新疆和西藏少数民族的群体基因组学研究
系统基因组学解码反刍动物的演化
“铤”有“直”义的词源学解释——兼说/直/义的同源词族
同源宾语的三大类型与七项注意
抚摸
虔诚书画乃同源
华法林出血并发症相关药物基因组学研究进展
抓党建树品牌 聚民心促发展