鲁 松
(四川省自然资源科学研究院,四川 成都 610015)
DNA条形码技术(DNA barcoding)是利用标准的、有足够变异的、易扩增且相对较短的DNA片段(DNA barcode)自身在物种种内的特异性和种间的多样性而创建的一种新的生物身份识别系统,它可以对物种进行快速的自动鉴定(Hebert,2003;任保青、陈之端,2010)。其思想产生于现代商品零售业的条形编码系统,由于DNA序列碱基排列方式的差异性,只需一段长度为几百碱基的序列就可以理论上获得完全包括所有物种的基因序列信息(肖金花,2004)。DNA条形码技术是近年来的研究热点,在动物中利用线粒体基因片段CO1为标记,在一些类群中已部分实现了条形码鉴定,但在植物领域还存在较大问题。本文就植物DNA条形码技术的研究现状、应用及存在的问题等作简要综述。
生物条形码联盟(Consortium for the Barcode of Life,CBOL)在题为 Barcoding Life:Ten Reasons的小册子中清楚地阐述了DNA条形码包括植物DNA条形码的优点(http://phe.rockefeller.edu/barcode/),概括起来有:(1)以DNA序列为检测对象,不受个体形态特征限制。采用一小块或一小片材料识别一个物种,即使样本受损也不会影响识别结果。(2)不受个体发育阶段影响。有些物种在不同发育时期有明显差异,不容易识别,但其DNA条形码信息不会发生变化,因而较之传统方法,扩大了检测样本的范围。(3)对于分类学中难以区分的类群,采用DNA条形码可以抛开形态相似的假象,从基因水平上提供一种分类依据。(4)核苷酸序列组成的数据库可以被视为数字化的数据库,提供明确的信息,不仅弥补了形态描述的不足,而且可以加快已知物种的识别速度,同时便于新物种的发现,将会使分类学科的发展更加快速和深入。(5)如果设想的条形码扫描仪可以实现,将会减少对传统分类学人力和物力的需求,会更有益于分类学家缺乏的国家,尤其是发展中国家。
理想的DNA条形码应该符合以下几个标准:(1)在种间有明显的遗传变异和分化,同时种内变异足够小,以便区分物种;(2)片段足够短,便于一个反应完成测序工作,而且便于DNA提取和PCR扩增,尤其是对存在DNA降解的材料(如:保存已久的腊叶标本、炮制处理过的民间药材);(3)存在高度保守的区域,便于设计通用引物。
2.1 植物DNA条形码候选片段及组合
在植物中,线粒体进化速率太慢不足以提供足够的遗传变异、存在频繁的结构重排和横向基因转移现象;核基因存在多拷贝、杂交、基因渗透和进化速率太快难以设大尺度的通用引物等复杂问题(王培培,2010)。核基因组的核糖体 DNA ITS基因在GenBank数据库中含有大量序列,且进化速率快、双亲遗传、引物通用等,在最初被视为植物候选条形码,但之后的研究结果发现,ITS片段的扩增成功率较低,且长度变异大、在部分植物类群尤其是裸子植物中致同进化不完全,降低了该片段作为 DNA条形码的应用性。而叶绿体基因组的进化速率位于线粒体和核基因之间、基因结构稳定,单亲遗传避免了基因重组、可以直接测序、在一个细胞中具有多个拷贝,即使材料高度降解也容易提取,因此目前植物DNA条形码研究主要集中在叶绿体基因组上。最初,生命条形码联盟及研究学者提出几个叶绿体片段,而这些片段有的进化速率太慢(如 rpoB,rpoC1),有的在某些植物类群中缺失(如YCF5在苔藓类植物中缺失,accD在禾本科植物中缺失,ndhJ在松属植物中缺失、在部分兰花中变短或功能丧失),有的缺少通用的扩增引物(如 psbK-psbI,matK),且越来越多的研究表明,单一基因片段不可能对所有植物物种进行鉴定。研究者相继提出各种组合,如Kress等(Kress,2005)对有花植物的11个基因或基因间区进行比较分析,提出多位点组合的可能,并认为ITS和trnH-psbA可以作为被子植物基因条码选择的出发点,后来又提出以rbcL+trnH-psbA作为陆生植物DNA条形码;Newmaster等(Newmaster,2006)建议一种以 rbcL作为核心条形码,根据需要在不同类群中选择不同二级条形码的分层方法;第二届国际生物条形码大会提出matK+atpF-atpH+psbK-psbI和matK+atpF-atpH+trnH-psbA两个组合及rpoC1+rpoB+matK或rpoC1+matK+trnH-psbA两个组合作为陆地植物的条形码标记;生命条形码国际联盟植物工作组(CBOL Plant Working Group,2009)综合考虑通用性、序列质量、鉴定水平等方面,建议使用rbcL+matK作为核心条形码,并针对不同类群的具体结果,增加相应的候选基因;2009年11月在墨西哥城召开的第三届国际DNA条形码会议上生命条形码联盟植物工作组又建议叶绿体 trnH-psbA片段和核基因片段 ITS为补充条形码,并在今后一年半时间内对这两个条形码进行评估。然而,叶绿体片段的各种组合对于植物物种的分辨率可能存在一个上限。Sass等(Sass,2007)在苏铁目中检测了生命条形码联盟植物工作组提议的7个标记片段,发现任何一个标记都无法完全识别所有物种。Fazekas等(Fazekas,2008)分析了陆生植物的8个质体片段和1个线粒体片段作为候选条码的可能性,并观察了各种片段组合的物种鉴定结果,4个片段组合时得到鉴定的物种数与7个片段组合时相当(70%左右)。Starr等(Starr,2009)对莎草科苔草属(Cyperaceae,Carex)DNA条形码进行评价,使用的基因片段有 matK,rbcL,rpoC1,rpoB,trnH-psbA,所有的单片段和多片段组合的物种分辨率都不超过60%。Gonzalez等(Gonzalez,2009)在对法属圭亚那热带森林两公顷内所有树木全面调查的基础上,评价八个 DNA标记(rbcL,rpoC1,rpoB,matK,ycf5,trnL,trnH-psbA,ITS)在热带植物生物多样性调查中的应用,所有单片段或多片段组合的物种分辨率都不超过70%。研究者还发现,研究类群的采样策略对 DNA条形码的分辨率有明显影响。Meyer等(Meyer,2005)首次对条形码在不同类群中的分辨能力进行评价,认为 DNA条形码在分类学基础完善、采样充分的类群中表现较好,而在采样不完全的类群中表现较差。Little等(Little,2007)以裸子植物为例对使用DNA条形码鉴定样品的几种方法进行了比较,建议结合地理分布将有助于物种水平的鉴定,并认为最可靠的物种鉴定依赖于包含所有物种所有单倍型的引文数据库的建立。
2.2 植物DNA条形码数据库
生物条形码工程的首要目标是建立可用来作为鉴定标本工具的基因序列数据库(Hebert,2004)。目前还没有专门的植物条形码数据库,其中最重要的是BOLD。BOLD:全称为Barcode of Life Data Systems,BOLD是最早开发也是全世界最大的DNA条形码数据库,由生命条形码联盟进行维护,是一个在线的鉴定平台,可进行条形码序列的搜集、管理、分析和物种鉴定。其中植物以rbcL+matK作为条形码。截至 2012年 5月,BOLD系统已经收载了153078个物种,1601017条用于条形码鉴定的序列,其中植物169607条 (http://www.boldsystems.org/views/login.php)。BOLD数据库提交的 DNA条形码信息需同时包括7种数据元素才能被视为正式的条形码,这7种数据包括:物种名(可以是临时物种名);凭证信息(标本的目录号与馆藏号等信息);采集记录(采集人、采集日期、纬度与海拔高度 GPS定位参数等标本采集信息);样品鉴定人;条形码序列(至少500 bp);条形码序列的PCR扩增引物;跟踪文件(如标本的照片以及标本采集生境的描述等)。
2.3 我国科学家在植物DNA条形码的研究上也取得了重要进展
我国学者在Paul Hebert提出DNA条形码的概念之后不久就开始关注这项技术。宁淑萍等(宁淑萍,2008)分别以综述形式对植物DNA条形码技术进行了介绍。葛学军研究组在科级水平上利用10种分子标记对藓类植物进行了评价,发现 rbcL、rpoC1、trnH-psbA、rps4和 trnL-trnF可以作为候选的DNA条形码(Liu,2011)。陈世林课题组(Yao,2010)在药用生物中筛选DNA条形码,通过对6000余份药用植物样本进行DNA条形码序列筛选,表明ITS2序列的鉴定能力优于国际条形码协会植物工作组推荐的matK+rbcL组合,首次提出将ITS2序列作为药用植物鉴定的通用DNA条形码,并建立了以ITS2为核心,psbA-trnH为补充序列的药用植物DNA条形码鉴定体系。任保青等(任保青,2010)利用4个DNA片段(ITS、rbcL、matK和 trnH-psbA)对桦木科桤木属(Alnus)全世界所有的物种(26种)的131个个体进行取样分析,发现4个片段在种级水平上的分辨能力分别 10%(rbcL)、31.25%(matK)、63.6%(trnH-psbA)和 76.9%(ITS),而将 ITS和trnH-psbA结合在一起使用可以分辨全部种类中88.5%。
2009年8月起,李德铢等(China Plant BOL Group,2011)联合全国19个科研院所和高校62名研究人员组成的中国植物条形码研究团队,深入开展了种子植物DNA条形码的研究。研究团队根据对主要来自中国的种子植物75科141属1757种共约6286个样本(每个种至少两个样本)的4个DNA候选条形码片段(rbcL,matK,trnH-psbA和ITS)引物通用性、序列质量和物种分辨率等的综合分析,发现3个质体DNA候选条形码片段具有较高的通用性;核糖体核DNA候选条形码ITS在被子植物中的通用性较高,而在裸子植物中稍低。研究还发现,ITS具有最高的物种分辨率,与3个质体 DNA条形码片段的任何一个组合均可分辨69.9%~79.1%的物种,显著高于 rbcL+matK条形码组合49.7%的分辨率。此外,ITS的部分序列 ITS2也表现出较高的物种分辨率。
3.1 DNA条形码最初的目的有两个:将样品鉴定到物种水平;促进发现新物种,尤其是那些隐藏的、细微的、形态上复杂或者难以获得的其他生物体。另外,还可以利用形态学、生物地理学和DNA序列数据分析,揭示隐存种。隐存种不是新物种,是指在传统分类法中,没有被划分出来,被归属为同一个物种的不同物种。例如,Lahaye等(Lahaye,2008)单独使用matK片段对分布在中美洲的1000多种兰科植物进行分析,显示单独使用 matK片段能够揭示隐种并且证明了DNA条形码的可行性。协助传统分类方法发现那些形态相似但存在遗传分化的隐种是DNA条形码技术对分类学研究的重要贡献,可显著提高实地生态学考察研究的准确性和效率。
3.2 在其他一些方面植物DNA条形码也有重要应用。DNA条形码和DNA芯片两种技术平台结合可以在出入境检验检疫领域得到应用;DNA条形码还可为外来入侵物种提供快速、准确的监测,有效避免外来入侵物种的进入;此外,DNA条形码还可以应用于食品安全、法律鉴定、病虫害防治等领域。在保护生物学中,DNA条形码可以正确评价濒危物种的遗传多样性,为其科学保护和种群恢复提供可靠依据(Vogler,2007)。
3.3 目前,区域性条形码分析与生态学结合成为DNA条形码的主要发展趋势之一。对加拿大北极群岛的莎草(Carex and Kobresia,Cyperaceae)进行条形码研究(王培培,2010)发现,由于在群岛内缺少比较近缘的物种,该地区的莎草得到很好的鉴定,matK单基因的分辨率就高达95%,除matK+atpFH,所有的两片段组合都能达到100%鉴定率。如果这一现象普遍存在,将来有望开发基于 DNA序列鉴定物种的新算法,即在当地及地区植物区系的范围内考虑条形码序列。
4.1 局限性
DNA条形码概念提出后,取得了丰硕的研究成果,不过,持怀疑态度的学者也大有人在。有效的DNA条形码需要满足两个前提条件(Toffoli,2008):一是种内遗传差异显著小于种间差异,二者间存在条形码间隙;二是研究对象在物种系统发生上彼此互为单系群(monophyletic group)。当 DNA条形码分析的样品数量足够大时,种内遗传组成差异可能随地理种群数量增加而显著提高,而种间遗传差异则降低,种内最大遗传距离和种间最小遗传距离可能重叠交叉,条形码间隙消失,可能得出错误的结论。有研究显示确实存在种内分化过高和种间分化不足现象(程希婷,2011)。目前的 植物DNA条形码主要为线粒体和叶绿体基因,而二者均为单亲遗传,鉴定存在杂交的生物类群时明显有缺陷。许多生物类群存在不完全支系演化(incompletelineage sorting)与杂交等基因渗入(introgression)现象,DNA条形码鉴定难以区分。新近形成的物种,其分子间差异不一定达到显著区分的程度,而且分子进化速率的差异可能导致二次突变也会影响分析的结果;近缘和近期分化的物种是否能用该方法验证一直备受争议。
4.2 分类鉴定的阈值难以统一
如果用于传统形态学分类较困难的物种,DNA条形码分析很可能遇到诸多问题。不同物种的变异范围可能不一致,种内和种间变异范围模糊,很难界定区分种内和种间差异的标准;其它各分类阶元上不同生物类群判断标准同样也难以确定。目前,很多研究取材时取材的种群数量很少,每个种群仅仅分析1或2个个体,必然导致种内变异的低估;或者没有分析姊妹类群,高估了种间差异,这可能虚高了DNA条形码的有效性和准确率(闫化学,2010)。
4.3 一些误区
一些科研人员提出在应用DNA条形码进行物种鉴定时,应首先对分类群进行系统发育分析,了解谱系进化线和物种的关系。其实这并不是DNA条形码的应用初衷,事实上依靠几百bp的序列长度来建立系统发育树是困难的。条形码分析中通常采用标准的分子系统学方法(比如 NJ、UPGMA、ML、MP、Bayes)建立多种系统树。然而,建树的目的并不是利用条形码重建系统发育树,而是为了检验每个物种的单系性,即同一物种的不同个体能否紧密聚类到一起。
尽管还存在上述诸多问题,但随着植物DNA条形码研究的大量开展,相信通过大规模的分析和整体评价,最终将会找出通用且适合的植物DNA条形码。
[1]CBOL Plant Working Groups.A DNA barcode for land plants[J].J.PNAS,2009,106(31):12794 ~12797.
[2]China Plant BOL Group.Comparative analysis of a large dataset indicates that internal transcribed spacer(ITS)should be incorporated into the core barcode for seed plants[J].PNAS,2011,108:19641~19646.
[3]Clerc-Blain J L,Starr J R,Bull R D.A regional approach to plant DNA barcoding provides high species resolution of sedges(Carex and Kobresia,Cyperaceae)in the Canadian Arctic Archipelago[J].Molecular Ecology Resources,2010,10:69 ~91.
[4]Fazekas A J,Kesanakurti P R,Burgess K S.Are plant species inherently harder to discriminate than animal species using DNA barcoding markers?[J].Molecular Ecology Resources,2009,9((Suppl.1)):130 ~139.
[5]Gonzalez M A,Baraloto C B,Engel J.Identification of Amazonian Trees with DNA Barcodes[J].PLoS ONE,2009,4(10):e7483.
[6]Hebert P D N,Ratnasingham S,de Waard J R.Barcoding animal life:cytochrome c oxidase subunit 1 divergences among closely re-lated species[J].Proc Biol Sci,2003,270:S96 ~99.
[7]Hebert P D N,Stoeckle M Y,Zemlak T S,et al.Identification of birds through DNA barcodes[J].PLoS Biol,2004,2:e312.
[8]Kress W J,Wurdark K J,Zimmer E A.Use of DNA barcodes to identify flowering plants[J].PNAS,2005,102:8369 ~8374.
[9]Lahaye R,Bank M,Bogarin D.DNA barcoding the floras of biodiversity hotspots[J].PNAS,2008,105:2923 ~2928.
[10]Liu Y,Cao T,Ge XJ.A case study of DNA barcoding in Chinese Grimmiaceae and a moss recorded in China for the first time[J].Taxon,2011,60(1):185 ~193.
[11]Little D P,Stevenson DW.A comparison of algorithms for the identification of specimens using DNA barcodes:examples from gymnosperms[J].Cladistics,2007,23:1 ~21.
[12]Meyer C P,and Paulay G.DNA barcoding:Error rates based on comprehensive sampling[J].PLoS Biol.,2005,3(12):e422.
[13]Newmaster S G,Fazekas A J,Steeves R A D,Janovec J.Testing candidate plant barcode regions in the Myristicaceae[J].Molecular Ecology Resources.2008,8:480 ~490.
[14]Sass C,Little D P,Stevenson DW.DNA Barcoding in the Cycadales:Testing the Potential of Proposed Barcoding Markers for Species Identification of Cycads[J].PLoS ONE,2007,2(11):e1154.
[15]Starr J R,Naczi R F C,Chouinard BN.Plant DNA barcodes andspecies resolution in sedges(Carex,Cyperaceae)[J].Molecular Ecology Resources,2009,9(Suppl.1):151 ~163.
[16]Toffoli D,Hrbek T,de Araújo M L G,et al.A test of the utility of DNA barcoding in the radiation of the freshwater stingray genus Potamotrygon(Potamotrygonidae,Myliobatiformes).Genet.Mol.Biol.,2008,31(1):324 ~336.
[17]Vogler A P,Monaghan M T.Recent advances in DNA taxonomy.J Zoolog Syst Evol Res,2007,45:1 ~10.
[18]Yao H,Song JY,Liu C,et al.Use of ITS2 Region as the Universal DNA Barcode for Plants and Animals.PlonS One,2010,5(10):13102.
[19]程希婷,王爱民,顾志峰,等.DNA条形码研究进展[J].基因组学与应用生物学,2011,30(6):748 ~758.
[20]宁淑萍,颜海飞,郝刚,葛学军.植物DNA条形码研究进展[J].生物多样性,2008,16(5):417 ~425.
[21]任保青,陈之端,2010,植物DNA条形码技术[J].植物学报,45(1):1~12.
[22]肖金花,肖晖,黄大卫.生物分类学的新动向——DNA条形编码[J].动物学报,2004,50(5):852 ~855.
[23]王培培.DNA条形码在不同地理分布的云杉属物种中应用初探[D].成都:成都理工大学,2010.
[24]闫化学,于杰.DNA条形码技术在植物中的研究现状[J].植物学报,2010,45(1):102~108.