王 刚 董言德 赵彤言
(军事医学科学院微生物流行病研究所, 病原微生物生物安全国家重点实验室,北京 100071)
物种鉴定是认识和描述生物多样性的基础,是人类认识自然的第一步。因此,无论是在生物利用或防治、生物多样性的保护,以及生态系统的维系,正确认识和区分物种都有着重要的理论和现实意义。
目前物种鉴定都是以经典的形态特征为主要依据,然而形态鉴定有两个方面的局限(肖金花等,2004),第一是形态学分类方法本身固有的缺陷,如表型可塑性、遗传可变性、隐存分类单元的存在以及受生物性别和发育阶段的限制等,容易导致不正确的鉴定;第二是分类学家识别能力以及数量的局限,使形态分类学的发展面临巨大的挑战。因此,目前最有前途的方法之一是利用分子标记,而不是形态数据识别物种,这长期以来一直是许多生物学家的研究目标(Busseetal.,1996; Blaxter,2003)。DNA测序技术的进展使研究人员通过快速的DNA分析,让生物多样性的研究更为简单和高效。同时,生物技术的迅猛发展,以及目前形态分类所面临的危机,推动了DNA条形码的产生。
Tautz等人首先提出要用DNA序列作为生物分类系统的主要平台(即DNA Taxonomy)(Tautzetal.,2002; Tautzetal.,2003),随后Paul Hebert于2003年首次提出利用来源于线粒体细胞色素C氧化酶亚基I(Cytochrome C oxidase subunit I,COⅠ)基因前半部分的一段包含650 bp的这一特定区段来做DNA条形码的基础,期待给所有生物种进行编码(Remigioetal.,2003; Hebertetal.,2003a; Hebertetal.,2003b),并将其取名为“DNA条形码”。2004年,正式成立的生命条形码协会(CBOL),旨在开发一套标准的DNA条形码制备方法和构建一个全面的DNA条形码库。最近,生命条码项目进入一个新的阶段,推出国际生命条码项目(iBOL)。iBOL是一个由26个国家和地区组成的国际合作项目,旨在建立一种基于所有真核生物DNA条形码文库的自动识别系统。截至2012年9月,BOLD数据库已经有2 410 651个标本记录,1 737 588个标本的DNA条形码记录,160 117个物种的DNA条形码记录,包括了动物界、真菌界、植物界、原生生物界的物种,最终目标是为全球生物鉴定活动提供数据支持与服务。
DNA条形码作为一个行之有效的生物鉴定手段,与现有的物种识别方法比较有以下优势:(1) DNA条形码可用于所检测对象的任何生命周期。同种生物的DNA序列信息在不同的生命周期是相同的,DNA序列不会在个体发育过程中改变,所以此技术可检测生物生命周期中的每一时期,如成虫、幼虫、虫卵等。扩大了样本检测的范围。(2) DNA条形码可用于所检测对象的任何组织材料。同一个体或同种生物不同个体的不同组织材料的同源DNA拥有一致的序列信息。(3) 非专家鉴定。由于DNA技术是可机械重复的,可设计一套简单实验技术。(4) 准确性高。形态鉴别特征常有的变异和趋同会导致无害与有害物种间的误差鉴定,而特定的物种具有特定的DNA片段信息。(5) 迅速、大量。可通过,利用建立的DNA条形码数据库、网络传输、试剂盒、基层的分子生物实验室等,一次性大量、快速地鉴定样本。(6) 对于世界范围内面临的缺乏合格分类学家的问题,通过DNA条形码鉴定技术的运用可以得到大大的缓解。条形码数据库一旦建立起来,将成为永久性资料,分类学家新的研究成果将不断地加入数据库,使数据库趋于完善。另外,这项技术本身的发展,要求一系列更快、更好、更廉价技术的产生,这势必会推动相关的分子生物学技术的进步,从而让其他相关的生物科学受益。再者,一旦解决了鉴定的问题,将给构建系统发育树提供足够可靠的信息,从而推进生物进化历史研究。
分子标记在分类中的应用,包括DNA条码技术,存在有相当多的争议。主要有以下两个问题:物种鉴定及物种的发现。
使用条形码进行的物种鉴定,取决于包括每一个代表物种的数据库。获得一个能准确地反映一个物种DNA条形码的最可靠的方法,是基于该物种的模式标本。Brown等(2003)首次使用正模标本(holotype)的DNA条形码描述新物种:Xenothictis(鳞翅目:卷蛾科)。自此,许多无论节肢动物或是其他动物类群的新物种,都通过其正模或副模标本(paratype)的DNA条形码被描述和保存(Burnsetal.,2007a; Bortolus,2008; Dabertetal.,2008; Vagliaetal.,2008; Yassinetal.,2008; Yoshitakeetal.,2008; Adamskietal.,2009)。
与此相反,物种发现被定义为将一簇个体或/和一个类群辨认为一个单一物种的分类学过程。DNA条形码能加快物种发现的进程。首先,DNA条形码可用于隐藏种的识别(Hebertetal.,2004b; Burnsetal.,2007b)。其次,DNA条形码信息有助于分类全部相关类群的标本,尤其是对于一些研究不足的类群(Smithetal.,2012)。
然而,DNA条形码不能检测到所有未描述的潜在物种,尤其是最近分化的类群。另外,应该指出的是,DNA条形码本身仅是提示而并不能提供足够的信息将未知样本界定为潜在的新物种(Wittetal.,2006; Burnsetal.,2007b; Brownetal.,2003),新物种的描述需要结合其他重要信息,如地理分布、生态信息、生理结构等。
通过线粒体基因解决全部物种的分类关系是不可能的。比如,由于基因渗入或者杂交而使物种的边界显得模糊不清,因此需要同时联合分析线粒体及核内基因。另外,当物种新近起源于多倍体化,就需要更多基因组尺度上分析;尽管该技术已比较成熟,但是极少被应用,因为在绝大多数动物类群中,存在杂交、多倍体化和线粒体基因渗入的个体不到1%。在用mtDNA条形码对物种进行鉴定的时候,种间mtDNA的重组也是考虑因素之一。尽管线粒体基因的种间重组可能会增加种内mtDNA的多样性,但是鉴于种间杂交后下一代生存力和生殖力的降低,这种多样性的增加也不会太明显(Ciborowskietal.,2007)。
然而,原丽蝇属受Wolbachia菌感染后出现的细胞质不亲和(Cytoplasmic Incompatibility,CI),使得群体间的基因多样性降低,从而导致用DNA条形码技术对原丽蝇属进行鉴定时,正确鉴定的成功率仅仅为40%,甚至其中4个物种拥有相同的条形码。如果说原丽蝇属的这种情况不是例外的话,鉴于Wolbachia在昆虫界的感染率为15%~75%,这将导致基于线粒体条形码技术在对昆虫的种的鉴定上出现问题。不过,因为与Wolbachia相关的mtDNA的基因渗入现象仅仅存在于亲缘关系非常近的物种之间,所以对昆虫种以上的分类单元的鉴定是不受影响的(Whitworthetal.,2007)。
用条形码对物种进行成功的鉴定依赖于物种种内的遗传差异要显著的低于种间的(Hebertetal.,2004b)。基因条形码鉴定的成功率因种而异。特别是那些年轻的物种、有效种群较大的种用基因条形码进行成功鉴定就相对比较困难,比如大多热带昆虫就是这样(Eliasetal.,2007)。
由于谱系分子进化速率不一致会导致二次突变的存在,此时,在这种类群中很难鉴定出进化速率慢的物种。不过,超过98%的物种碱基对的差异都大于2%,除了腔肠动物以外,大部分同属物种的碱基序列都显示出足够的差异来保证物种的区分。事实上,500 bp COⅠ基因中的50多个碱基对差异就能产生平均11.3%的碱基序列的差异。而对于某些属内种间低于2%的碱基序列差异,也许反映了短期的生殖隔离(Hebertetal.,2003b)。
在大多数动物类群中COl基因的进化速率比较慢,Hebert利用鳞翅目的序列数据分析结果表明,同属各种COl序列的平均差异程度是11.3%,而种内的COⅠ序列差异程度通常都很低,低于2%,因此不妨碍物种鉴定。对于种内的物种鉴定,首先,种内差异很少能超过2%,大部分低于1%。其次,当出现稍大的差异时,这些变种通常因为地理隔离产生,也仅仅反映了它们起源于过去由于偶然事件而分开的同一基因库(Hebertetal.,2003b)。
研究表明,当线粒体DNA整合进入核DNA后,由于假基因不参与编码,失去了功能性限制的压力,即3个位置上的碱基理论上拥有相同的突变率,不过,在同一核基因组内,不同的插入序列进化程度不同,与其对应的线粒体基因相比,具有不同的进化模式。
在实际运用中,有一个特别需要注意的问题。由于线粒体基因的进化速度为核基因的10倍以上,因此,当线粒体基因整合进入核基因后,虽然不再参与编码,突变速率会提高,但如果整合时间较近,它与真正线粒体COⅠ基因的差异未达到一个明显的值,比如低于3%的时候,很容易将此个体当成是同种或隐藏种,而此时假基因的拥有者可能与鉴定结果已经分化为不同的种,从而造成后续工作的偏差。最好的辨别假基因的办法就是观察其密码子3个位点的碱基替代率。除此之外,也不排除父本mtDNA渗漏造成的异质性,尽管此现象目前仅在高等动物中偶有发现(<0.004%)。
应用条形码可以对已知种类和新采标本进行快速准确的鉴定,这已经在植物、动物等多个领域都得以证明。
在植物方面,由于COⅠ基因在植物中进化速率远慢于在动物中的进化速率,不适合作为大多数植物的编码基因,所以植物条形码需要采用多个片段组合。当前多数研究者倾向于matK和trnH-psbA这两个片段参与组合,而第3个片段将可能是Kim等提出的atpF-atpH或psbK-psbI片段(Folmeretal.,1994)。Kress等(2007)应用一段约450 bp叶绿体同源片段间隔区trnH-psbA 作为植物的条形码并成功鉴定显花植物。
在脊椎动物方面,生物学家们利用600多bp线粒体COⅠ基因对鱼类、两栖类、鸟类以及家养禽类进行分子鉴定,并成功将其在种的水平上进行分类(Vencesetal.,2005; Wardetal.,2005; 屠云洁等,2007; 雷忻等,2007),为分类系统的研究提供了分子水平证据。
在无脊椎动物方面研究,主要集中在节肢动物门,如:Barrett等(2005)应用660 bp COⅠ基因序列,将168种蜘蛛和35种其他的蛛形纲动物100%准确区分开。Ball等(2005)应用630 bp COⅠ基因序列对蜉蝣目进行研究,结果显示种内和种间序列平均差异分别为1%和18%,DNA条形码可以有效的区分蜉蝣目昆虫。Shufran等(2000)和Anstead等(2002)分析麦二叉蚜SchizaphisgraminumCOⅠ基因的一段1.2 kbp序列,研究结果表明,应用COⅠ基因的一个片段序列能快速准确的鉴定蚜虫物种。另外DNA条形码技术在等翅目(Fosteretal.,2004),跳虫类(Hoggetal.,2004)和鞘翅目(Cardosoetal.,2005; Monaghanetal.,2005)等诸多领域均有应用。本文作者也已使用COⅠ基因对我国蚊科主要蚊虫进行研究,并能成功在种的水平上进行鉴别(Wangetal.,2012)。
在很多动物类群中都存在形态相似的隐存分类单元,这给分类学的研究带来许多混乱,而增加了基因信息的DNA条形码技术是发现隐存分类单元的有效途径之一。如:在马达加斯加热带水生甲虫研究中,Monaghan等(2005)应用DNA序列在鉴定已记述种的同时发现了几个隐藏种(Cryptic species)。Brown等(2003)结合形态学和DNA条形码,发表巴布亚新几内亚的鳞翅目新种Xenothictisgnetivora;Hebert等(2004a)领导的研究小组对北美260种鸟类进行了DNA条形码的序列分析。结果表明,每个鸟种都有一个独有的条形码,种间的变异平均是种内变异的19~24倍。而且发现其中4种鸟分别出现了2种不同的COⅠ基因序列,这证明北美鸟类中发现了4个新种;另外,Hebert等(2004b)通过研究被认为属于同一个种的2 500多只哥斯达黎加普通蝴蝶,发现这些蝴蝶的DNA条形码很清楚地归入不同的10个组中,说明这些蝴蝶应该属于10个不同的种,而这些蝴蝶的成虫单靠形态学特征无法区分,最后结合其颜色和食物偏好的不同,将这些蝴蝶分成10个不同的类群。
用于DNA条形码的COⅠ基因,包含了一定的系统发育信息,可以用于探讨近缘种或种群等低级阶元的系统发育关系(Zhangetal.,1997)。目前,国内外的研究也大都集中在节肢动物门以及扁形动物门等较为低等的生物类群上。各国专家利用COⅠ作为系统发育研究的工具,成功对鱼类、节肢动物类及钩虫等的系统发育进行了深入的研究,成功证明了COⅠ在系统发育研究中的重要地位(Wardetal.,2005; 王剑峰等,2007; 师永霞等,2008)。
在实际运用中,DNA条形码将在以下领域获得应用:(1)以已描述过的物种为基础,对农业害虫、寄生虫、病原微生物或复杂的环境样品进行鉴定(Kumaretal.,2007);海关检验部门可利用这一科学的标准化鉴定工具对濒危物种贸易进行监控;在生物安全部门,可应用该技术用于入侵种鉴定和疾病传播媒介的检测(Armstrongetal.,2005);亦可广泛应用于法医鉴定领域(Lorenzetal.,2005)。(2)以DNA序列聚类分析为基础协助分类学家进行物种鉴定,辅助发现新的物种,同时为亲缘关系、遗传多样性和物种定界等方面提供参考;该技术尤其适合对淡水、海洋和土壤中的小型底栖生物,以及以鱼为代表的海洋生物进行研究,其在与热带地区生态环境有关的研究中受到的关注尤为明显,如对热带雨林中昆虫的多样性进行调查等(Burnsetal.,2007b; Markmannetal.,2005; Shanderetal.,2005)。(3)其不受物种发育状态的影响,可对不同阶段的个体进行鉴定,尤其是对相似形态的物种进行鉴定,可提高生态研究的准确性和效率;在物种保护研究中,英国达尔文物种生存计划一直在利用条形码技术研究中美地区兰花和仙人掌的保护优先权(Rubinof,2006)。
DNA条形码技术一提出就引起了很大的争议,众多专家在著名刊物上发表一系列相关文章对其进行热烈的讨论。许多学者对该技术的应用持肯定态度,认为DNA条形码可以用于解决形态学难以鉴定甚至不能鉴定的物种,如寄生虫以及他们的寄主蚊子,并且有助于界定物种界线和解释物种进化关系。Janzen(2004)甚至认为,随着DNA条形码技术的发展,鉴定物种可以简便到仅使用一个手机样的仪器,就可以让任何人得到他想鉴定物种的名称。
但是,有学者持反对意见,他们认为DNA仅仅是数据,在校正不同长度的基因序列以及选择适当基因时具有一定的主观性,而且条形码技术缺乏传统理论基础,可能将分类变得简单,从而造成科学的倒退(Lipscombetal.,2003; Wheeler,2004)。在使用线粒体DNA对动物进行生物地理学和系统学分析时经常会得到与形态学研究不一致的结论,特别是在医学媒介害虫和农业害虫等领域,这也使得研究者必须重新对研究对象在行为习性、生态和形态等方面的特征进行描述。首先,存在很多限制性因素,比如基因连锁对线粒体DNA的选择作用、性别对基因流会产生影响、如何保持祖先遗传的多样性、杂交会引起基因渗入、线粒体基因向细胞核转移等,线粒体DNA变异尚不能成为物种界定的主要指标;其次,若忽略核基因对遗传分化的作用,研究者将可能不会注意到那些由于分化选择或多倍体形成等原因而产生的新的或快速分化的物种,从而片面地得出物种形成需要长期分离的结论。再者,很多标本由于用于提取DNA而被毁坏,从此也许不再存在,这对于传统分类学模式标本的保存来说是个很大的损失(Scbrgetal.,2003)。Ebach 等(2005)认为分类学家的工作应该是提供给生物知识,而不是单纯的核酸序列,因此DNA条形码所产生的仅仅是信息,而不是知识,不能够替代应用其他特征的分类(Willetal.,2004; Schindeletal.,2005a)。
总而言之,无论是对动物还是植物,条形码研究最大的争议还是在于是否单一的小片段600多碱基序列能给全球的物种编码,尤其是能否适用于近缘和近期分化的物种,这也是DNA条形码研究的难点。腔肠动物Cnidaria94.1%COⅠ序列差异小于2%的结果表明COⅠ不适于该类群的鉴定(Hebertetal.,2003b),Sperling根据他所在实验室一系列昆虫COⅠ序列的数据,认为至少有1/4的物种是不容易用DNA条形码的方法来区分的(Caterinoetal.,2000),Vences等(2005)研究发现,马达加斯加蛙类中18S rRNA的扩增效率为100%,而COⅠ则低,因为在种团和近缘种水平COⅠ的引物位点具有快速的变异率,在脊椎动物中18S rRNA引物位点具有高保守性;18S rRNA在马达加斯加蛙类幼体和成体的种间差异1%~17%,种内差异0%~1%,因此建议两栖类动物编码时使用线粒体18S rRNA。植物条形码的分析方法也不够成熟,需要生物信息学进一步发展开发出适合多片段和针对某些特殊片段(如trnH-psbA)的分析方法(宁淑萍等,2008)。而对于动物中的水母和海参,也有可能因为DNA的演化较慢而无法用DNA条形码鉴定。对于这样的类群可能应采用更多的分子标记(如SNP,SSR,AFLP等)来解决,而不是局限于少量片段的序列。Mallet等(2003)建议最好应用多个基因片段区分形态相近的物种。DNA条形码仅靠单个基因片段可能会显得力度不够,同时要跟形态学数据结合起来,不能完全抛弃形态学手段(Lipscombetal.,2003; Tautzetal.,2003)。因此针对不同类群,选取不同的基因片段或者增加多个片段在某些时候也是十分必要的。
DNA条形码既是分类专家的有力工具,也是那些需要进行物种鉴定的非专家的有益工具。DNA库、序列标记和组织库(分类凭证标本)是标准化条形码目标实现的关键。大规模测序计划会产生海量的数据,过去采用条形码进行分类鉴定研究以DNA为基础,目前又有了新的内涵。同时,包括核核糖体DNA、质体、较短的低拷贝核基因等多个基因位点在内的多组成条形码(multiple component barcode)的出现,将有效克服在植物物种定界和鉴定研究中由于经常出现的杂交和多倍体事件所带来的问题。另外。在真菌研究领域,新一代微型条形码(micro-barcodes)技术的出现也受到了众多学者的关注(Summerbell,2005)。
事实上,用DNA条形码对物种进行鉴定与分类学家过去建立的物种命名法的物种概念是一致的。另一方面,新物种的发现是一项及其复杂的工作,因此并不能单独地用DNA条形码下定义。新物种的发现需要基于物种的概念,而且需要联合别的资源数据——比如分子生物学、形态学、生态学、行为学等。但是,我们仍然应该指出的是,DNA序列是发现新物种的“领航者”。另外,现在DNA条形码所使用的遗传距离法还有很大的缺陷,特别是当用于界定物种边界的时候。原因之一是线粒体DNA的进化速率在种内和种间是不一样的,而且不同的两个属会存在种内和种间的重叠。当用遗传距离法进行操作时,这些重叠可能会隐藏了序列中的一些重要信息,特别对一些研究不充分的分类群(Rachetal.,2008)。不过有理由相信,随着条形码序列数据的不断积累及其研究范围的不断扩大,条形码技术将逐渐实现与世界范围内其他分类学研究计划的协调发展,作为一种物种鉴定工具,势必在系统生物学、分类学和生态学等研究中得到广泛应用。在农业害虫和医学媒介害虫的DNA条形码研究方面,发展趋势是将DNA芯片技术与DNA条形码相结合(Plunderetal.,2004; Garaizaretal.,2006; Pepliesetal.,2006; Hebertetal.,2003b),最终目标是建立一低成本、高通量快速、灵敏准确的成套检测技术,通过快速分析一小段DNA,即可鉴定出地球上每一个植物和动物物种。DNA条形码将使检疫检验工作和科研更加高效,使过去专家才能掌握的知识更好的大众化。
综上所述,虽然DNA条形码技术还受到部分专家的置疑以及存在一定的缺陷,但DNA序列信息的丰富性、唯一性和可重复性,都将使DNA条形码成为分类学家的有用工具(Schindeletal.,2005b),DNA条形码技术也将成为生物分类发展的必然趋势。