鹅耳枥属树种叶绿体基因组结构及变异分析

2021-04-07 08:52赵儒楠褚晓洁何倩倩祝遵凌
关键词:内含子叶绿体变异

赵儒楠,褚晓洁,刘 维,何倩倩,祝遵凌,3*

(1.南京林业大学风景园林学院,南方现代林业协同创新中心,江苏 南京 210037;2.浙江师范大学化学与生命科学学院,浙江 金华 321004;3.南京林业大学艺术设计学院,江苏 南京 210037)

叶绿体(chloroplast)是绿色植物进行光合作用的细胞器,具有可自主遗传的基因组,即叶绿体基因组(chloroplast genome)[1]。绝大多数植物的叶绿体基因组是1个双链环状DNA,具有1个长单拷贝区(LSC)、1个短单拷贝区(SSC)以及2个反向重复区(IRa和IRb)4个区域[2]。绝大多数高等植物叶绿体基因组的结构特征与基因组成相对保守[3-4],但因树种间的杂交、树种进化以及基因渐渗等原因导致不同树种的叶绿体基因组结构会发生不同程度的变异。叶绿体基因组具有单亲遗传的特性,研究表明裸子植物的叶绿体基因组是父系遗传,而大多数被子植物叶绿体基因组为母系遗传,还有一小部分被子植物叶绿体基因组为双亲遗传或父系遗传[5-6]。叶绿体基因组包含着大量的DNA信息,其中很多基因是重要的DNA条形码,因此叶绿体基因被广泛用于树种分类、系统发育、树种起源以及避难所等研究中。

鹅耳枥属(Carpinus)是桦木科(Betulaceae)植物中进化最大的类群之一[7],目前全属包含约50种,我国约有33种,其中有27种为我国特有种[8-9],这些树种中还有一些是濒危的树种,例如普陀鹅耳枥(C.putoensis)。目前仅有一小部分鹅耳枥属树种的叶绿体基因组被测序、组装。如普陀鹅耳枥[11]、天台鹅耳枥(C.tientaiensis)[12]、太鲁阁鹅耳枥(C.hebestroma)[13]、宝华鹅耳枥(C.oblongifolia)[14]以及疏花鹅耳枥(C.laxiflora)[15]等少数几个树种,其他鹅耳枥属树种的叶绿体基因组特征以及鹅耳枥属树种叶绿体基因组的种间变异情况,尚缺乏充分研究。由于鹅耳枥属树种间普遍存在杂交、渐渗等现象,所以到目前为止鹅耳枥属的进化机制与树种间的系统发育关系尚未得到充分阐明[16-17]。此外,叶绿体基因在植物树种形成与系统发育研究中扮演者重要角色,由于大多数叶绿体基因在不同属中存在不同程度的变异,因此研究适用于不同属的树种界定与系统发育分析的叶绿体基因是十分必要的[17-18]。对鹅耳枥属叶绿体基因组的结构特征及变异情况进行分析对今后鹅耳枥属树种系统发育及DNA条形码的选择具有重要意义。

本研究通过对鹅耳枥属16种的叶绿体基因组进行比较分析,以进一步了解鹅耳枥属树种叶绿体基因组成及结构特征,揭示IR区边界收缩与扩张,为进一步研究鹅耳枥属的系统发育关系、树种鉴定以及基因组进化研究奠定基础,同时为鹅耳枥属DNA条形码的开发提供参考。

1 材料与方法

1.1 数据收集

于GenBank数据库(http://www.ncbi.nlm.nih.gov/genbank)中检索已发表叶绿体全基因组序列的鹅耳枥属树种信息,共检索到16个树种信息,下载其叶绿体基因组序列。检索到的16个树种名称、基因组登录号[11-16,18]见表1。

表1 鹅耳枥属树种及其叶绿体基因组GenBank登录号Table 1 The species of Carpinus and their chloroplast GenBank accession numbers

1.2 研究方法

本研究以天目铁木(Ostryarehderiana,GenBank登录号NC_028349.1)的叶绿体基因组作为参考,以在线工具GeSeq(https://chlorobox.mpimp-golm.mpg.de/geseq.html)对16个鹅耳枥属树种的叶绿体基因组进行了基因注释。随后利用Geneious 10.2.2软件(https://www.geneious.com/)统计叶绿体基因组各类型基因数目、GC含量以及LSC、SSC和2个IR区长度等信息。

为了直观展示鹅耳枥属叶绿体基因组基本特征,利用在线工具OGDRAW (https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)[19]绘制鹅耳枥属叶绿体基因组结构图谱。在叶绿体基因组4个区连接位点差异分析中,利用IRscope (https://irscope.shinyapps.io/irapp/)[20]可视化鹅耳枥属叶绿体基因组边界收缩扩张。在鹅耳枥属叶绿体基因组序列变异分析中,利用基因组在线分析程序mVISTA (http://genome.lbl.gov/vista/index.shtml)[21],以Shuffle-LANGAN模式进行叶绿体全基因组比较。

1.3 系统发育分析

以麻栎(Quercusacutissima,GenBank登录号NC_039429.1)为外类群,利用BioEdit 7.2.5 (http://www.mbio.ncsu.edu/BioEdit/BioEdit.html)对叶绿体全基因组进行序列比对。将叶绿体基因组序列首尾对齐后,以MEGA 10.1.7(https://www.megasoftware.net/)[22]中的ME法(minimum-evolution method)构建系统进化树,利用Bootstrap method进行重复检验,重复1 000次。

2 结果与分析

2.1 鹅耳枥属叶绿体基因组结构的基本特征

鹅耳枥属16个树种的叶绿体基因组图谱见图1。由图1可知,鹅耳枥属16种植物的叶绿体全基因组均为双链环形结构,均具一个4分体结构,包含1个LSC、1个SSC、2个IR区,它们的叶绿体基因组大小为158 681~160 583 bp,其中欧洲鹅耳枥(C.betulus)最大,雷公鹅耳枥(C.viminea)最小,两者相差1 902 bp。LSC区长度为87 808~89 445 bp,SSC区长度为17 184~18 872 bp,IR区长度为26 032~27 568 bp。川黔千金榆(C.fangiana)、千金榆(C.cordata)、紫脉鹅耳枥(C.purpurinervis)、多脉鹅耳枥(C.polyneura)、云南鹅耳枥(C.monbeigiana)以及疏花鹅耳枥的IRa与IRb长度完全相同,其余鹅耳枥属树种的IRa与IRb区长度仅相差1~3 bp。各树种GC含量为36.30%、36.40%或36.50%,差异较小。

图1 鹅耳枥属树种叶绿体基因组图谱Fig.1 Gene map of chloroplast of Carpinus species

鹅耳枥属16个树种叶绿体基因组比较结果见表2。由表2可以发现,鹅耳枥属16种的叶绿体基因组各基因数量相对保守,其中总基因数为122~126个,普陀鹅耳枥的总基因数最少,川黔千金榆的总基因数最多。核糖体RNA(rRNA)数量最为保守,所有树种均为8个。转运RNA(tRNA)数为29~31个,其中天台鹅耳枥、普陀鹅耳枥、紫脉鹅耳枥、岩生鹅耳枥(C.rupestris)、欧洲鹅耳枥和雷公鹅耳枥为29个,美洲鹅耳枥(C.caroliniana)和川黔千金榆的tRNA数为31个,其余各树种均为30个。蛋白编码基因数为85或86个,其中普陀鹅耳枥和太鲁阁鹅耳枥的蛋白编码基因为85个,其余各树种的蛋白编码基因均为86个。

表2 鹅耳枥属16个树种叶绿体基因组比较Table 2 Comparison of chloroplast genomes of 16 Carpinus species

2.2 鹅耳枥属叶绿体基因组IR与SC边界

由于叶绿体基因组为环形结构,为具有1个LSC、1个SSC和2个IR区的4分体结构,所以叶绿体基因组存在IRb-LSC、IRb-SSC、IRa-SSC以及IRa-LSC这4个边界。在叶绿体基因组进化过程中,其边界会发生扩张或收缩。鹅耳枥属叶绿体基因组在序列长度、基因组成以及GC含量等方面相对保守,但4个边界存在多样性(图2)。

鹅耳枥属16种的IRb-LSC边界均位于ribosomalproteinS19(rps19)和rpl2的基因间区或rps19的编码区。其中昌化鹅耳枥(C.tschonoskii)、川陕鹅耳枥(C.fargesiana)、美洲鹅耳枥、太鲁阁鹅耳枥、紫脉鹅耳枥、疏花鹅耳枥和宝华鹅耳枥的IRb-LSC边界位于rps19的编码区,而岩生鹅耳枥、多脉鹅耳枥、云南鹅耳枥、雷公鹅耳枥、欧洲鹅耳枥、天台鹅耳枥、普陀鹅耳枥、川黔千金榆和千金榆的IRb-LSC边界位于rps19和rpl2的基因间区(图2)。

除美洲鹅耳枥外,鹅耳枥属绝大多数种的IRb-SSC边界与NADHdehydrogenasesubunit5(ndhF)基因存在10~156 bp的间隔,且ndhF基因位于SSC区。美洲鹅耳枥ndhF基因缺失,其IRb-SSC边界与mitochondriallyencodedtRNAisoleucine(trnI)基因存在152 bp的间隔。同时川黔千金榆的IRb-SSC边界位于hypotheticalchloroplastopenreadingframe1(ycf1)假基因上。而天台鹅耳枥和千金榆的ycf1假基因完全位于IRb区内(图2)。

鹅耳枥属16种的IRa-SSC边界均位于ycf1基因内,ycf1基因在IRa区中的序列长度为1 163~2 740 bp,其中仅有欧洲鹅耳枥的ycf1基因在IRa区中的序列长度为2 740 bp,其余均为1 163~1 192 bp。此外,鹅耳枥属16种的IRa-LSC边界具有较高的保守性,其边界均位于rpl2及tRNA-His(trnH)基因的基因间区(图2)。

图2 鹅耳枥属树种叶绿体基因组的4部分IR区边界比较Fig.2 Comparisons of four parts of IR region boundary of chloroplast genomes in Carpinus

2.3 鹅耳枥属叶绿体基因组序列变异分析

本研究利用mVISTA对鹅耳枥属叶绿体基因组序列比较结果进行可视化(图3),结果发现鹅耳枥属叶绿体基因组排列顺序基本一致,具有较高的保守性。鹅耳枥属叶绿体基因组非基因编码区存在较明显差异,变异程度较高。而基因编码区差异较小,具有较高的保守性。在叶绿体4个部分中,LSC区的变异程度最高,而IRa区的变异程度最低。

鹅耳枥属叶绿体基因组中psbA、rps16、atpA、rps19、ndhF、ndhI以及ycf1等基因的编码区存在显著差异。此外,ycf3-tRNA-Ser(trnS)、trnS-rps4、trnH-psbA、psbZ-tRNA-Met(trnfM)、matK-rps16、rps16-tRNA-Gln(trnQ)、trnQ-psbK、ccsA-ndhD、acetyl-accD-psaI、ndhC-tRNA-trnV、tRNA-trnT-tRNA-trnL、tRNA-trnF-ndhJ、atpB-ribulose-1,5-rbcL、trnT-psbD、tRNA-trnE-trnT、tRNA-trnD-tRNA-trnY、rpl32-trnL等基因间隔区的非编码区差异较大(图3)。

图3 鹅耳枥属树种叶绿体基因组比对分析Fig.3 Alignment of chloroplast genome sequences of Carpinus

2.4 鹅耳枥属叶绿体基因组内含子分析

鹅耳枥属16种的叶绿体基因组中内含子基因的编码区长度和基因全长见表3。由表3可见,鹅耳枥属16种的叶绿体基因组中总检测到11个含内含子的蛋白编码基因,包括rps16、atpF、rpoC1、ycf3、clpP、petB、petD、rpl16、rpl2、ndhB和ndhA。在这11个含内含子的蛋白编码基因中,基因长度变异主要来源于内含子长度或编码区长度。绝大部分基因的编码区长度较为保守,其中petD和ndhB基因的内含子长度以及基因长度在16种间无任何变化。clpP基因的编码区长度在各树种间无任何变化,仅有内含子长度存在变异,在天台鹅耳枥和普陀鹅耳枥中发现petB基因缺失或内含子丢失。rpl2基因的全长在16种间无任何变化,但内含子长度存在改变。其余各基因在内含子长度或编码区长度均存在少量改变。

表3 鹅耳枥属16种的叶绿体基因组中含内含子基因的编码区长度和基因全长Table 3 Length of the coding region and the intron-containing gene in chloroplast genome of 16 species in Carpinus bp

2.5 系统发育分析

图4 基于鹅耳枥属叶绿体基因组序列构建的系统发育树Fig.4 Phylogenetic tree based on chloroplast genome sequence of Carpinus

以麻栎为外类群,将鹅耳枥属16种的叶绿体全基因组序列比对后,进行系统发育分析(图4)。系统发育树将鹅耳枥属划分为千金榆组与鹅耳枥组,千金榆组最先从鹅耳枥属中分离出来,是鹅耳枥属的原始组。鹅耳枥组中欧洲鹅耳枥与美洲鹅耳枥由于地理隔离,与其他鹅耳枥属树种存在较远的亲缘关系。而其余鹅耳枥属树种可分为2支,雷公鹅耳枥、岩生鹅耳枥、天台鹅耳枥和普陀鹅耳枥为1支;多脉鹅耳枥、川陕鹅耳枥、昌化鹅耳枥、云南鹅耳枥、疏花鹅耳枥、紫脉鹅耳枥、太鲁阁鹅耳枥以及宝华鹅耳枥为另1支。

3 讨 论

被子植物的叶绿体基因组大小多为120~160 kb,其结构与序列具有高度保守性[23-24]。鹅耳枥属树种的叶绿体基因组均为双链环状结构,在结构上为包含1个LSC区、1个SSC区以及2个IR区的4分体结构。鹅耳枥属树种的叶绿体基因组长度均在160 kb左右,不同鹅耳枥属树种叶绿体基因长度最大差异仅为1 902 bp,这也表明鹅耳枥属树种具有较长的叶绿体基因组。一般而言,植物叶绿体基因组LSC区长为80~90 kb,SSC区长为16~27 kb,IR区长为20~28 kb[24]。本研究发现,鹅耳枥属树种LSC区长度为88~90 kb,SSC区长度为17~19 kb,IR长度为26~28 kb,可以发现鹅耳枥属树种具有较大的叶绿体基因组主要是其拥有较大的LSC区和IR区。

IR区在维持叶绿体基因组的稳定性中起到重要作用[25-26],长的IR区可以使叶绿体基因组免受结构重排的影响,而大多数失去IR区的叶绿体基因组比没有失去IR区的叶绿体基因组经历了更多的结构重排[27]。被子植物叶绿体基因组IR区为20~30 kb,鹅耳枥属树种IR区为26~28 kb,因此鹅耳枥属树种叶绿体基因组可以具有较高的保守性。虽然IR区中基因的突变率明显低于位于单拷贝区的基因[28],但绝大多数被子植物IR区的扩张与收缩如同基因和内含子的缺失一样具有高突变性[29],因此鹅耳枥属IR与SC边界存在明显的多样性。

鹅耳枥属自被建立为属以来,其分类以及系统发育研究备受关注。迄今为止,仍有诸多新种被逐渐发现,例如香港鹅耳枥(C.insularis)[30]、岚皋鹅耳枥(C.langaoensis)[31]、西藏鹅耳枥(C.tibetana)[32]、大苞鹅耳枥(C.gigabracteatus)[33]等。早在20世纪,Chen等[34]利用ITS序列、rbcL基因以及形态特征对桦木科进行系统发育研究,发现鹅耳枥属与铁木属是姊妹类群。鲁志强[35]利用ITS序列对鹅耳枥属30个树种进行界定,初步将30个鹅耳枥属树种分为9 个种和3个复合种,但复合种的界定和分类以及系统发育关系仍需进一步深入研究。前人对鹅耳枥属树种的系统发育研究多集中在属间系统发育关系方面,对于鹅耳枥属种间的系统发育分析仍有待进一步研究。

在植物树种分类以及系统发育研究中,叶绿体基因组的某些片段或基因常作为DNA条形码被广泛使用,例如matK和rbcL。杨霄月[17]利用桦木科24个树种的叶绿体基因组及ITS序列对桦木科进行系统发育分析,发现鹅耳枥属与铁木属为姊妹类群,此外matK、rbcL、rpoB以及rpoC1等常用的DNA 条形码只在少数类群中具有较多数量的变异位点。本研究在鹅耳枥属叶绿体基因组序列变异分析中发现,psbA、rps16、atpA、rps19、ndhF、ndhI以及ycf1等基因的编码区在鹅耳枥属树种间存在明显差异,这些基因或许可以作为鹅耳枥属系统发育研究的DNA条形码。叶绿体基因组为系统发育研究提供了新的证据,但鹅耳枥属树种因存在广泛的杂交与基因渐渗,导致其分类以及系统发育研究存在诸多困难,在今后的研究中仍需利用多种方法与数据进一步阐明鹅耳枥属树种的系统发育关系以及分类关系。同时,鹅耳枥属树种中仅有少数树种的叶绿体基因组完成测序,为了更加全面地揭示鹅耳枥属树种叶绿体基因组特性及其系统发育关系,未来也还需要对更多的鹅耳枥树种进行叶绿体基因组测序。

本研究利用鹅耳枥属16个树种的叶绿体基因组,对鹅耳枥属树种叶绿体基因组进行比较分析,最终发现鹅耳枥属树种叶绿体基因组长度差异较小,最大差异仅为1 902 bp,其中欧洲鹅耳枥叶绿体基因组最长,雷公鹅耳枥最短。鹅耳枥属树种叶绿体基因组具有较高的保守性,其基因排列顺序基本一致,未检测到大规模的倒位或基因重排,但其IR与SC边界存在明显的多样性。比较发现,鹅耳枥属叶绿体基因组非基因编码区存在较明显差异,而基因编码区差异较小,具有较高的保守性。系统发育分析支持将鹅耳枥属树种划分为千金榆组与鹅耳枥组,叶绿体全基因组序列在一定程度上可以说明鹅耳枥属树种的系统发育关系,为进一步的系统发育与进化研究提供依据。鹅耳枥属叶绿体基因组中psbA、rps16、atpA、rps19、ndhF、ndhI以及ycf1等基因的编码区存在明显差异,这些可以为开发新的DNA条形码提供参考。

猜你喜欢
内含子叶绿体变异
线粒体核糖体蛋白基因中内含子序列间匹配特性分析
变异危机
变异
不同方向内含子对重组CHO细胞中神经生长因子表达的影响
更 正
内含子的特异性识别与选择性剪切*
南方红豆杉叶绿体非编码序列PCR体系优化及引物筛选
变异的蚊子
茶树叶绿体DNA的PCR-RFLP反应体系优化
烟草叶绿体密码子的偏好性及聚类分析