段义忠 杜忠毓 王海涛
(1.榆林学院陕西省陕北生态修复重点实验室,榆林 719000; 2.宁夏大学西北土地退化与生态恢复省部共建国家重点实验室培育基地,银川 750021; 3.宁夏大学西北退化生态系统恢复与重建教育部重点实验室,银川 750021)
叶绿体(cp)是绿色植物进行能量转化和光合作用的主要场所,是质体的一种形式,且其分化程度非常高。叶绿体存在于绿色植物的叶肉细胞中,其不仅具有参与光合作用,并且还是叶绿素、脂肪酸、氨基酸、淀粉等物质的十分重要的合成场所[1~2]。自1986年首次获得烟草(Nicotianatabacum)完整的叶绿体基因组信息以来[3],已经有数百例叶绿体植物的叶绿体基因组序列被陆续公布[4]。叶绿体基因组一般情况下为双线环状分子,也有线状结构,由两个反向重复区序列(反向重复区A(IRa)和反向重复区B(IRb))及一个大单拷贝区(LSC)和一个小单拷贝区(SSC)构成[5]。叶绿体基因顺序和结构具有高度保守的特性[6~7],这使得其作为植物系统发育进化研究的重要标记,近年来,大量的叶绿体基因组序列被广泛的研究[8]。
四合木(Tetraenamongolica)属蒺藜科(Zygophyllaceae)的一个单种属古地中海孑遗植物,我国特有和狭长分布种,国家二级珍稀濒危植物,内蒙古自治区唯一的特有属植物,中国生物多样性保护的优先保护植物,在我国西鄂尔多斯高原有少量分布[9]。四合木起源古老、抗逆性较强,并且其为生物多样性起源和环境演变研究的理想对象,因此四合木具有重要的学术价值[10~12],然而,近年来,四合木分布区周围沙漠的地理隔离及城市化和工业化带来的土地滥用[13],导致四合木的分布面积不断缩小,种群数量快速下降并处于濒危状态[14]。其为单属种植物,长期的生活中,其种间杂交较为方便,但是当前研究人员对其基因的研究认识较为缺乏。
近年来,随着高通量测序技术的发展,其可作为一种高效的方法,为我们研究物种微观上的变化提供了诸多便利。第二代高通量测序技术是基于一种高通量的焦磷酸合成测序法,利用乳液聚合酶链反应(PCR),在一个皮升大小的流动池内进行测序。与第一代Sanger测序技术相比,第二代测序技术降低了测序成本,提高了测序速率,其具有结果较准确、迅速、高效等特点。推动了绿色植物完整叶绿体基因组的发展,虽然目前己经积累了大量的叶绿体基因组数据,但在蒺藜科植物的叶绿体基因组数据还相对较为缺乏。
本研究通过对四合木叶绿体基因组进行测序、组装、注释和比较,通过比较29种牻牛儿苗目和1种蒺藜目植物的叶绿体基因组,分析四合木叶绿体基因组的分布和结构特点,进行系统发育分析,为四合木叶绿体蛋白编码基因变异及环境适应性分析提供理论基础。
四合木新鲜幼嫩叶片取于内蒙古自治区乌海市四合木自然保护区(35°25′60″N,106°46′03″E),海拔1 089 m,新鲜叶片保存于-80℃液氮冷藏样品以备用。
传统的植物叶绿体DNA提取主要包括从细胞中分离完整叶绿体、裂解叶绿体及纯化叶绿体DNA三个基本步骤[15],提取无核污染、纯净完整的叶绿体是整个过程的核心,主要的方法有很多[16],本研究采用改良的蔗糖密度梯度离心法[17]。以分离提取四合木叶绿体DNA,具体改良步骤如下:(1)样品采集后在缓冲液中预处理;(2)14 600转下水平离心70 min;(3)叶绿体裂解提取DNA阶段;(4)裂解后提取DNA进行下一步的分离纯化。
基于Nano Drop 2000微量分光光度计检测cp DNA的浓度,并用0.8%的琼脂糖电泳检测cp DNA的质量。采用Invitrogen生化DNA产物纯化试剂盒,并对所提取的cp DNA进一步纯化以符合高通量测序要求。样品经北京诺和致源生物信息科技有限公司检测合格后,采用Illumina双末端测序技术进行建库测序,建库类型为400 bp DNA小片段文库,测序深度为10倍。
转录组Illumina HiSeq Xten测序由北京百迈客生物科技有限公司完成,得到原始图像数据文件,经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(Reads)的序列信息以及其对应的测序质量信息。进而对四合木基因组片段进行定位、排序,确认Contigs(重叠群)的链接顺序,所有gaps(缺口)的填补通过选取引物、进行PCR扩增,进一步通过测序获得,PCR产物符合之前预期,最终拼接获得两个完整的叶绿体基因组序列。
采用Hahn等[18]的组装方法,参考序列为同科植物三齿拉雷亚灌木(Larreatridentate)叶绿体基因组(KT272174),最终得到四合木的叶绿体基因组序列(长度为106 259 bp)。共有96 237条叶绿体reads参与组装,平均覆盖率为134.6X。采用SOAPdenovo 2.04软件(http://soap.genomics.org.cn/soap denovo.html)进行组装[19],多次调整得出最优结果[18]。采用与GenBank现有近缘种三齿拉雷亚灌木(L.tridentate)(KT272174)等叶绿体基因组比对的方式进行注释。将注释好的四合木叶绿体基因组各个蛋白质编码基因碱基序列的数据转变为fasta格式文件,导入Sequin软件。并检验转换文件内存在的错误对其更正,在确定无误之后逐个添加rRNA与tRNA基因,导出为GeneBank格式序列文件的结果,提交序列文件至NCBI(National Center for Biotechnology Information)的网站(http://www.ncbi.nml.nih.Gov/)的GeneBank(基因文库),最终得到基因组序列号(MH325021),采用OGDraw在线工具(http://ogdraw.mpimp-golm.mpg.de/)[20]进行基因组图谱绘制。
利用mVISTA软件[21],在Shuffle-LAGAN模型下,将四合木叶绿体基因组与三齿拉雷亚灌木(L.tridentate)、凤仙花(Francoasonchifolia)、高桂花(Hypseocharisbilobata)3种植物的叶绿体基因组进行序列比较分析。mVISTA是用于多个DNA序列比对的在线工具,可通过比较编码区与非编码区、内含子和外显子来评估序列的相似性[22]。利用BLAST软件分析四合木叶绿体基因组蛋白质编码区(coding sequence,CDs)与其他三种植物的相似性。
我国的《中国植物志》[23]将四合木归为牻牛儿苗目(Geraniales),而国外的分类系统则将四合木归为蒺藜目(Zygophyllales)(http://www.catalogueoflife.Org/annual-checklist/2014/details/species/id/16739396)。因此选取GenBank现有29种牻牛儿苗目和1种蒺藜目植物及四合木共31个物种的叶绿体基因组,使用软件Clustalw对31个由蛋白质序列连接形成的子集。经行多重序列比对,结果经手工检查与调整后。用近邻结合法(neighbor-joining,NJ)法对系统进化关系进行分析。采用MEGA6软件[24]构建系统发育树(自举值Bootstrap value设为1000)。将自举置信大于50%的进化枝显示在系统进化树中。
测序得到的数据,经低质量数据过滤后,最终得到Clean_Reads,以保证信息的质量。然后进行碱基类型分布检查。碱基类型分布检查用于检测有无AT、GC分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续分析。高通量所测序列为基因组随机打断后的DNA片段,由于位点在基因组上的分布是近似均匀的,同时,G/C、A/T含量也是近似均匀的。因此,根据大数定理,在每个测序循环上,GC、AT含量应当分别相等,且等于基因组的GC、AT含量。同样因为重叠簇的关系会导致样品前几个碱基AT、GC不等波动较大,高于其他测序区段,而其它区段的GC、AT的含量相等,且分布均匀无分离现象。碱基类型分布图,其中横坐标为reads的碱基位置,纵坐标为碱基所占的比例,前150 bp为双端测序序列的第一端测序Reads的碱基分布,后150 bp为另一端测序reads的碱基分布。每个bp代表测序的每个碱基,如第一bp即表示该项目所有测序reads在第一个碱基的A、T、G、C的分布情况。由图1所示,A和G、C和T的含量非常接近,且N的含量接近0,这说明四合木的测序质量较好。
四合木叶绿体基因组总长度为106 259 bp,包含大单拷贝区(LSC),小单拷贝区(SSC),和两个反向互补重复区(IRa和IRb),其中大单拷贝区长80 390 bp,小单拷贝区长17 255 bp,IR区长8 614 bp(图2)。从以上四合木叶绿体基因组图谱中可以得到,编码基因共98种,包括65种蛋白编码基因、29种tRNA基因和4种rRNA基因;其中反向重复区IR区中有七种基因,包括四种PCG基因(RPL2,RPL23,RPS19,YCF15),三种tRNA基因(TrNi-CaU,TrNL-CAA,TrNH-GUG)。
四合木叶绿体基因组全长106 259 bp,GC含量为33.6%,其结构由4个区域组成,包括LSC区,SSC区及IR区,这四个区的长度分别为:80 390 bp,17 255和8 614 bp(表1,图2),GC含量较为均匀,LSC区含量最低,占比32.2%,SSC区占比37.4%,IRa区和IRb区占比最高,均为37.9%;叶绿体基因组注释结果表明:四合木叶绿体中共注释105个功能基因,包括64个蛋白编码基因,32个tRNA基因和4个rRNA基因(表2)。四合木叶绿体基因组CDs的总长度为86 072 bp,占整个叶绿体基因组长度的81.0%。
图1 碱基类型分布图Fig.1 Distribution figure of base type
图2 四合木叶绿体基因组图谱Fig.2 Genome map of T.mongolica chloroplast
表1 四合木叶绿体基因组碱基组成
Table 1 Chloroplast genome composition ofT.mongolica
位置LocationT(U)(%)C(%)A(%)G(%)长度Length(bp)基因总长Total34.017.332.416.3106259大单拷贝区LSC33.015.734.716.580390小单拷贝区SSC30.517.331.920.117255反向重复区IR28.318.133.719.88614蛋白质编码区CDs30.816.932.619.786072
从以上四合木叶绿体基因组图谱中tRNA中一共包含有10种基因(tna-ugc,tng-ucc,tni-gau,tnl-uaa,tnv-uac,clpp,rps1,rps12,rpl2,ATP f)。其中9种基因包含一个内含子,而只有一种基因(ycf3)包含两个内含子。如图2所示,在叶绿体基因组中,有4个rRNA基因(16S,23S,4.5S和5S)和28个tRNA基因(trnA-UGC,trnI-GAU,trnR-UCU,trnY-GUA,trnC-GCA,trnL-CAA,trnS-GCU,trnH-GUG,trnD-GUC,trnL-UAA,trnS-GGA,trnR-ACG,trnE-UUC,trnL-UAG,trnS-UGA,trnW-CCA,trnF-GAA,trnM-CAU,trnT-GGU,trnV-UAC,trnfM-CAU,trnN-GUU,trnT-UGU,trnQ-UUG,trnG-GCC,trnP-UGG,trnV-GAC,trnG-UCC)。
表2 四合木叶绿体基因组注释基因信息
表3 四合木叶绿体基因组SSR序列
Table 3 The chloroplast genome SSR sequence ofT.mongolica
叶绿体简单重复序列(simple sequence repeats,SSR)是一种高效的分子标记,其不仅具有标记数量丰富、重复性高及共显性遗传等优点,而且还兼具叶绿体基因组结构简单、单亲遗传及相对保守等特点,因此目前已经广泛应用于物种鉴定及群体和个体水平的遗传差异分析[25~26]。本研究中,我们在四合木中共计搜索到79个SSR位点,其中包括62个单核苷酸重复基序,6个二核苷酸重复基序,1个三核苷酸重复基序,9个四核苷酸重复基序,1个五核苷酸基序。在四合木所有的SSR中,重复最多的基序是A/T,然后依次是AT/AT,AAAT/ATTT,AATC/ATTG,这些重复基序占总数的94.6%(表3)。
单核苷酸重复在四合木叶绿体基因组SSR中占比78.48%,二核苷酸重复在四合木叶绿体基因组SSR中占比7.58%,三核苷酸重复在四合木叶绿体基因组SSR中占比1.27%,四核苷酸重复在四合木叶绿体基因组SSR中占比11.39%,五核苷酸重复在四合木叶绿体基因组SSR中占比1.27%。单核苷酸占比最多,三核苷酸和五核苷酸占比最少。在62个单核苷酸SSR中,包含A碱基SSR有30个,包含T碱基SSR有32个(表4)。
IR区对于植物叶绿体基因组长度的多样性来说具有很重要的作用[27],叶绿体基因组大小的差异主要体现在IR区边界的收缩与扩展[28]。通过对四合木近缘种4个物种的叶绿体基因组IR区边界进行比较(图3),发现IR边界比较表明,大单拷贝区与反向重复区和小单拷贝区与反向重复区的边界分布的基因包括rpl22,trnH-GUG,trnL-CAA,trnL-UAG,rpl32,psbA,rpl23,ycf1,rps15,ndhF,rpl2,ndhA。四个近缘物种边界基因分布差异较大,不固定,四合木总长度较短(106 259 bp),而双叶黄耆最长(100 010 bp),四合木LSC、IR相比其他物种最短,反而SSC最长,这与其他3个物种均不同。
序号Code重复类型SSR type简单重复序列SSR大小Size起始Start终止End1p1(A)1313149215042p1(A)1010167216813p1(T)1212381638274p1(A)1010429643055c(A)12ttatcctc(T)1131444644766p1(A)1010585658657p1(T)1717613961558p1(T)141463716349p1(T)13136609662110p4(AAAT)3126763677411p1(T)10107086709512p1(A)15158685869913p1(T)14148837885014p1(A)1919104941051215c(T)12caaatccaaagaatttttattacttgatacataggtcatcgattcagcattctaaaaaaggaggttgttaaataaccca(T)10 acagagagggctcaaaagattttatCgatatgagtgttttctac-cgaaaaaaatttccaactattcttaattatgtcttaattatgaaattcaaaattc(T)12212112061141716p1(T)1414118961190917p1(T)1212169451695618p1(T)1111171241713419p1(T)1111176571766720p2(AT)510184971850621p1(A)1010211912120022p4(AAAT)312216142162523c(TA)5tgtaattaatttgg(A)1337256822571824p1(T)1010294982950725p1(A)1616302603027526p1(T)1414304403045327p4(ATTT)312311643117528p1(T)1010313413135029p1(T)1010344003440930c(A)10t(A)1122347883480931p1(A)1010354973550632p2(AT)510358493585833p1(T)1010362013621034p1(T)1111430294303935p1(T)1313449414495336p2(AT)510460204602937p1(A)1111461674617738p1(T)1111466454665539p1(A)1111472134722340p1(A)1010477234773241p1(T)1111484244843442p1(T)1111486484865843c(T)10caaccgaagaaaccccagAacctggaggagtagaattagttCtcataataataaaattaaatatgtctaaattttg(T)14100513775147644p1(T)1212521195213045p4(ATTG)312558245583546p1(A)1212559905600147p1(A)1212561295614048p2(AT)714563085632149p1(A)1010564635647250p2(TC)510574285743751p4(AAAG)312597505976152p1(T)1717614816149753p1(A)1313635926360454p1(A)1111640706408055p1(A)1111645216453156c(T)11aaacgagaatccttatttgtgTttgcctacttgaactcattttatttTtattcttgagttcattttttcaaattcaattcattcaat(A)10108649806508757p1(A)1313672936730558p2(AT)6126824968260
续表4 Continued table 4
序号Code重复类型SSR type简单重复序列SSR大小Size起始Start终止End59p1(A)1515701497016360p4(AAAT)312715627157361p1(T)1010726777268662p1(T)1212729767298763p1(A)1010760327604164p1(T)1313762967630865p5(ATAAT)315769647697866p1(T)1010771327714167p1(A)1111775867759668p1(T)1010781717818069p1(T)1111786367864670p1(T)1616804038041871p4(TTAT)312854958550672p1(A)1010868168682573p4(TTGA)312874068741774p1(A)1414878088782175p1(T)1212880778808876p3(TTG)412888308884177p1(A)1111890528906278p1(T)1414894468945979p1(T)1515901659017980p1(A)1212906089061981p4(CTAC)312925049251582p1(A)1212982049821583p1(A)1313986979870984p1(A)1010991959920485p1(A)1616106232106247
注: p.单个SSR类型;p1/p2/p3中数字分别表示构成基序的碱基个数;c.复合SSR类型
Note:p.Indicates single SSR type;The numbers in p1/p2/p3 indicate the number of bases constituting the motif,respectively; c.Indicates composite SSR type
图4 基于31个物种进行构建的四合木系统发育树Fig.4 T.mongolica phylogenetic tree constructed based on 31 species
叶绿体基因组对于了解植物进化等具有十分重要的价值[29]。为确定四合木的系统发育关系,本研究利用构建邻接法(Neighbor-Joining,NJ),选取31个物种进行四合木的系统发育树的构建,对四合木进行构建系统发育树并分析确定四合木在植物中的系统进化位置(图4)。结果显示,有22个节点的检验分值达到了100%,聚类结果的可靠性较高,如Pelargoninm、Geranium、Erodium、Monsonia等属的物种均聚在了一起。本研究中,通过叶绿体基因组进行系统发育树的构建,发现四合木与三齿拉雷亚灌木为最近,同属蒺藜科,其次便是牻牛儿苗科智利白桦植物,与牻牛儿苗科天竺葵属和牻牛儿苗科高桂花属亲缘关系最远,然而,《中国植物志》和有花植物系统分类(APG Ⅳ)对于对于蒺藜科是否归为牻牛儿苗目或者蒺藜目还有待进一步研究。
植物叶绿体基因组总长度一般约为107~218 kB,其中小单拷贝区长约18~20 kB,大单拷贝区约81~90 kB,2个反向重复区长约20~30 kB[30]。很多植物叶绿体结构比较保守,但是其基因组大小却不相同。叶绿体基因组的差异主要是由反向重复区的收缩与扩张或者其缺失引起的[31]。反向重复区对于叶绿体基因组架构的稳定和大小方面起着十分重要的作用[32~33]。改良的高密度梯度离心法,经显微检测,分离纯化效果较为良好,无细胞碎片等杂质的污染,这种方法可以保证所得四合木叶绿体基因组的可靠性,同时,也相对降低了成本。
本研究利用高通量测序技术对四合木叶绿体基因组进行测序,通过分析可以发现,四合木叶绿体基因组全长106 259 bp,为一环状DNA分子,同样也是由4个区域(大单拷贝区(LSC)、小单拷贝区(SSC)和2个反向互补重复区(IR))构成。且四合木叶绿体基因组高度保守,与多数被子植物一样。通过对四合木共编码98种基因,包括65种蛋白编码基因、29种tRNA基因和4个rRNA基因。IR区中有七种基因,包括四种PCG基因(RPL2,RPL23,RPS19,YCF15)和三种tRNA基因(TrNi-CaU,TrNL-CAA,TrNH-GUG),这七种基因位于红外区域内。tRNA中一共包含有10种(tna-ugc,tng-ucc,tni-gau,tnl-uaa,tnv-uac,clpp,rps1,rps12,rpl2,ATP-f),9种基因包含1个内含子,1种基因(ycf3)包含2个内含子。98种基因按照功能可以分为4大类(自身复制所需基因、光合作用相关基因、其他功能基因和未知功能基因)。
四合木与其他被子植物相比,叶绿体基因组中重复序列较少,五个以上基因组中共统计出1个,所有重复序列中,最大的重复序列为18 bp,重复序列的数量与长度相比其他被子植物来说相对较短,例如禾本科植物有20多个重复,最长可达132 bp[34]。有研究表明,重复序列在基因组中扮演的角色也许很重要,其可以在某种条件下进行重排和序列变异[27],目前在四合木叶绿体基因组中没有发现。对于四合木叶绿体基因组中SSR的统计结果显示,四合木SSR中含有较多的AT,却没有发现GC,这种现象较少。
本研究为确定四合木的进化地位和亲缘关系,选取了GenBank现有29种牻牛儿苗目和1种蒺藜目植物叶绿体基因组,加上本研究得到的四合木共31个物种的叶绿体基因组,进行系统发育分析,发现四合木与三齿拉雷亚灌木为最近的姐妹种,同属蒺藜科,其次便是牻牛儿苗科智利白桦植物亲缘关系较近,与牻牛儿苗科天竺葵属和牻牛儿苗科高桂花属亲缘关系最远。目前在国内植物学教学过程中,沿用的仍然是传统的分类系统。《中国植物志》中,蒺藜科的四合木被分类到牻牛儿苗目[23],然而,在国外的植物学科学研究和教学中被广泛应用的是APG植物分类系统[35],蒺藜科的四合木被分类到了蒺藜目。对于是否将蒺藜科单独作为一个目来进行分类,还需要进一步的研究。