余 潇,宋雨茹,赵振宁,刘子榕
(西南林业大学a.园林园艺学院,b.林学院,昆明 650224)
叶绿体是质体之一,是植物之间转换能量和进行光合作用的重要细胞器,通常存在于陆地植物、藻类和一些原生生物中[1]。不同科属植物的叶绿体基因组大小通常在100~200 kb 之间[2-3],大多数被子植物的叶绿体DNA 大小通常在110~160 kb 之间。叶绿体基因组的双链闭合环通常分为4 个区域:大单拷贝区(LSC)、小单拷贝区(SSC)、反向重复区A(IRa)和反向重复区B(IRb)。两个IR区域由LSC和SSC分开,在相反方向上长度相同[4]。研究表明,IR 区域的变化是叶绿体基因组变化的主要原因[4-5]。叶绿体DNA 编码的基因约有110~130 个,包括rRNA 编码基因、蛋白质编码基因和tRNA 编码基因[6]。一般来说,基因复制发生在所有rRNA 基因中,还有一些蛋白质编码基因和tRNA基因。根据叶绿体DNA编码基因的功能,它可以分为三类:光合系统基因,如petB;与转录和翻译相关的遗传系统基因,如tRNA-UGC;与氨基酸合成相关的生物合成基因,以及开放阅读框(ORF),如accD、matK 和ycf1[7]。叶绿体基因组快速发展的一个原因是高通量测序技术的出现,在1986 年建立了烟草(Nicotiana tabacum)[8]和地钱(Marchantia polymorpha)[9]的完整叶绿体基因组之后,第一代测序技术[10-12],包括传统的“双脱氧”测序技术、化学降解方法以及基于它们开发的改进荧光自动测序技术的发展使得研究人员[13]更加关注植物的叶绿体基因[14]。
苏铁是地球上现存最古老以及最原始的一类种子植物,源于古生代二叠纪(Permian period),迄今为止已有2.8 亿年的历史[15],到侏罗纪(Jurassic)的时候,苏铁植物已遍及全球,成为恐龙的主要食物。经过亿万年的演变进化,接受过数轮冰川期和间冰期的考验,而今是珍稀濒危的“植物活化石”[16]。现存的苏铁属植物是众多祖先类群遗留下的少数后裔演化而来的,因此苏铁这类孑遗植物已被国际誉为“植物界的大熊猫”。1974 年,国际保护自然与自然资源联合会(IUCN)将全部苏铁植物归入《濒危野生动植物物种国际贸易公约》(CITES)中,同时,我国也将国内分布的所有苏铁属植物列入《国家重点保护野生植物》,成为国家一级重点保护植物[17]。苏铁科(Cycadaceae)下仅有苏铁属(Cycas)1 属,根据1999 年出版的《Flora of China》中介绍,苏铁属全属约60 种,主要分布于东亚、东南亚、南亚、马达加斯加、东非沿海、澳大利亚北部及西太平洋岛屿[18]。我国有分布的苏铁属植物共有约16 种,其中有12 种属于中国特有分布,如葫芦苏铁(Cycas changjiangensis)、德保苏铁(Cycas debaoensis)等。由于苏铁植物自身的复杂性,如形态分类特征较少且易受生长环境的不同而改变,种间杂交现象普遍存在且种内形态变异和分化较大等原因,导致到目前为止苏铁属的进化机制与树种间的系统发育关系尚未得到充分阐明[19]。叶绿体基因组是一种宝贵的多层次分类学资源,具有丰富的遗传信息,在植物系统发育与进化、物种鉴定和分类学方面有着广泛的应用。对苏铁属叶绿体基因组的结构特征及变异情况进行分析对今后该属物种系统发育及DNA条形码的选择具有重要意义[20]。
本研究通过对中国特有分布的9种苏铁属植物的叶绿体基因组进行分析比较,包括叶绿体基因组结构、重复序列、密码子偏好性等,这为苏铁属的系统发育、DNA条形码的开发提供了一定的数据基础。
在GenBank 数据库(http://www.ncbi.nlm.Nih.gov/genbank)中下载已公布的中国特有苏铁属9 个种的叶绿体基因组序列。检索到的9个物种名称、基因组登录号及保护等级信息等见表1。
表1 中国特有苏铁属植物叶绿体基因组信息Table 1 Complete chloroplast genome information of Cycas endemic to China
在Geneious 软件中打开9种苏铁属植物的叶绿体基因序列,以葫芦苏铁(C.changjiangensis)作为参考,校正注释信息后, 用MAFFT 软件进行序列比对, 再进行手工校对[21]。利用Cpgview (http://www.1kmpg.cn/cpgview/)[22]和MEGA5.2[23]用于绘制叶绿体基因组的结构特征,并统计叶绿体基因组注释基因信息。
简单重复序列(simple sequence repeat,SSR),又称微卫星序列,是由1~6个碱基作为重复单元组成的重复序列,对植物种群的研究具有重要意义。长度超过10 bp 的SSR 倾向于滑链错配,这被认为是SSR 多态性的主要突变机制[1]。此外,在叶绿体基因组的种内位置可变的SSR 经常被用作种群遗传和进化研究中的遗传标记[24-25]。利用MISA web 软件(http://webblast.ipk-gatersleben.de/misa/)鉴定工具对9 种苏铁属植物叶绿体基因组序列进行SSR鉴定,最小重复次数参数设置为:单、二、三、四、五、六核苷酸参数分别为10,5,4,3,3,3,两个SSR之间的最小距离设置为100bp。
使用REPuter在线工具(https://bibiserv.cebitec.uni-bielefeld.de/reputer)[26]分别识别九种苏铁属植物的分散重复序列,包括正向重复(forward repeat,F)、反向重复(reverse repeat,R)、互补重复(complement repeat,C)和回文重复序列(palindromic repeat,P)。检测参数设置为:最小重复距离为30 bp,最大重复距离300 bp,翰明距离(hamming distance)为3,编辑距离为默认值,重复序列相似度大于80%。
利用IRscope(https://ir-scope.shinyapps.io/irapp/)分析比较9 种苏铁属植物叶绿体基因组序列边界可视化,分析其边界处的扩张收缩情况。
利用mVISTA 软件(ShuffleLAGAN 模式)[27]以苏铁(C.revoluta)基因组为参考,完成9 种苏铁属叶绿体基因组的变异位点分析,步长设置为200 bp,窗口长度设置为800 bp。
相对同义密码子使用(RSCU)是一种同义密码元相关效应,它重视64 个重要的同义密码子[28]。RSCU 计算为实际观测值与同义密码子平均使用量的比值。RSCU 的值可以分为3 种类型:大于1、小于1 和等于1。如果RSCU 值大于1,则表明密码子的使用频率高于其他密码子;如果RSCU 的值小于1,则意味着该密码子的其他同义密码子的使用频率高于该密码子;如果RSCU的值等于1,则表明密码子的使用没有偏差。
以云南松(Pinus yunnanensis)(NC_043856.1)和日本五针松(Pinus parviflora)(NC_039615.1)为外类群。利用9个中国特有苏铁属植物叶绿体基因组序列和从NCBI中检索到的9个苏铁属近缘物种的基因组来构建系统发育树。首先使用MAFFT多重序列比对软件[29]的默认参数对所有核苷酸序列进行比对,然后采用完整叶绿体基因组和CDS序列构建最大似然(ML)系统发育树。ML系统发育树使用RAxML 8.2.11[30]和GTR+Gamma核苷酸替代模型进行;节点支持率采用1 000次重复的bootstrap进行计算。
9个苏铁属植物的叶绿体全基因组均为双链环状结构,由4个部分构成,包括1个大单拷贝区(LSC)、1个小单拷贝区(SSC)、1 对反向重复区(IR),以葫芦苏铁为代表绘制了叶绿体基因组图谱(图1)。9 个苏铁属植物的叶绿体基因组大小介于161 993~163 403 bp之间(表2),其中台东苏铁最大,叉叶苏铁最小,两者相差1 410 bp。总GC 含量除台东苏铁和滇南苏铁两个物种为39.5%以外,其他7 个苏铁属植物均为39.4%,所有物种的总GC 含量相似。大单拷贝区长度介于88 780(叉叶苏铁)~90 216 bp(台东苏铁)之间,大单拷贝区GC 含量为38.7%~39.8%;小单拷贝区长度介于23 039(台东苏铁)~25 088 bp(灰干苏铁)之间,小单拷贝区GC 含量为36.5%~36.60%;单个反向重复区长度介于23 057(灰干苏铁)~25 097 bp(德保苏铁)之间,单个反向重复区GC 含量为42%~42.1%。
图1 葫芦苏铁叶绿体基因组图谱Figure 1 Chloroplast genome map of C.changjiangensis
由表2可知,9种苏铁属植物叶绿体基因组长度不同,基因数量和蛋白编码数量也表现出一些差异,9种苏铁属植物的叶绿体基因组各基因数量相对保守,其中总基因数为131~135个,闽南苏铁的总基因数最少,台东苏铁的总基因最多。蛋白质编码基因为87 或89 个,其中台东苏铁和闽南苏铁均为89 个,其余均为87 个。rRNA 数量最为保守,所有物种均为8个。tRNA 数为34~38个,除台东苏铁为38个,闽南苏铁为34个以外,其余各物种均为37个。
表2 苏铁属9个物种叶绿体基因组比较Table 2 Comparison of chloroplast genomes of 9 Cycas species
同样以葫芦苏铁叶绿体基因组为代表来分析基因注释信息(表3),葫芦苏铁叶绿体基因组共有133 个基因,根据其功能可以分为4大类:与光合作用有关的基因(48个)、与自我复制有关的基因(76个)、其他基因(7个)和未知功能基因(6 个)。这133 个基因中有15 个含双拷贝基因, 包括ndhB、rps12、rps7、rrn16、rrn23、rrn4.5、rrn5、trnA-UGC、trnH-GUG、trnI-GAU、trnL-CAA、trnN-GUU、trnR-ACG、trnV-GAC和ycf2。另外,还有17个基因含有内含子,其中15个基因含有1个内含子,包括ndhA、ndhB、petB、petD、atpF、rpl16、rpl2、rps12、rps16、rpoC1、trnA-UGC、trnG-UCC、trnI-GAU、trnK-UUU和trnL-UAA;另外,还有2 个基因含有2 个内含子,包括clpP、ycf3。ndhB、rps12、trnA-UGC、trnI-GAU等为具有1个内含子的双拷贝基因,tufA为假基因。
表3 葫芦苏铁叶绿体基因组注释基因信息Table 3 Genes present in the chloroplast of C.changjiangensis
由图2a 可知,9 种苏铁属植物叶绿体基因组均含有46~54 个SSR 位点,主要以单核苷酸和四核苷酸为主,未检测出五核苷酸和六核苷酸。检测到的单核苷酸数量介于32~39,其中最多的是闽南苏铁,最少的是叉孢苏铁和葫芦苏铁。二、三、四核苷酸数量总体差异较小,分别介于5~7,1~2,7~9个之间。从核苷酸类型来分析(图2b),单核苷酸的数量最多,以A 和T 重复类型为主。这一结果说明了苏铁属植物的简单重复序列的类型和数量上总体差异较小,表现相对保守。
使用REputer 在线工具对9 种苏铁属植物叶绿体基因组的分散重复序列分析,统计结果如图2c,正向、反向、回文和互补重复4种类型均有被检测到,结果显示苏铁属植物之间分散重复序列差异较大。从检测到的分散重复序列总数上来看,9种苏铁属的重复序列总数介于50~288 之间,最少的为德保苏铁,而葫芦苏铁的总数最多。对9种苏铁属植物的分散重复序列长度进行分析发现所有物种的长度均集中分布于30~39 bp这个区间范围内,且均占每个物种重复序列总数的95%以上。
图2 9种苏铁属植物的重复序列分析Figure 2 Repetitive sequence analysis of 9 Cycas species
边界扩张收缩分析表明(图3),9 种苏铁属植物的JLB(LSC-IRb)均位于trnI基因中;JSB(IRb-SSC)均位于ndhF中;JSA(SSC-IRa)均位于chlL和trnN基因间区;JLA(IRa-LSC)均位于trnH和psbA基因间区。总体来看,苏铁属叶绿体基因组延续了序列长度、基因组成以及GC 含量相对保守的特性,其进化关系保守,结构差异较小,边界扩张收缩较为稳定相似,只在个别种中发生了较小的变异。
图3 苏铁属物种叶绿体基因组边界扩张收缩比较Figure 3 Comparison of the expansion and contraction of chloroplast genomic boundary in Cycas species
9 个苏铁属植物叶绿体基因组序列同源性比对结果显示苏铁属植物叶绿体基因组排列顺序相似,具有较高的保守性,变异位点少,种间差异较小(图4)。苏铁属9种植物的非编码区变异大于编码区,同时大单拷贝区(LSC)的变异程度最高,而反向重复区(Ira)的变异程度最低。苏铁属叶绿体基因组中ycf12、atpH、psbM、ndhG和chlL等基因编码区存在显著差异,同时trnK-UUU、trnF-GAA、trnC-GCA、trnM-CAU、trnH-GUG、trnL-CAA、trnP-GGG、trnH-GUG等基因间隔区的非编码区也存在不同程度的变异,这些基因可以作为苏铁属植物分子鉴定的候选基因。
图4 苏铁属叶绿体基因组结构比较Figure 4 Comparison of chloroplast genome structure of Cycas
为进一步分析9种中国特有苏铁属植物密码子使用模式,利用CodonW 软件分别计算9种苏铁属植物的同义密码子的使用频率(RSCU),共筛选出704条符合条件的蛋白编码基因序列,每个苏铁属植物中均有64条,所有物种的密码子RSCU 值相似(图5)。其中RSCU>1的氨基酸均有30个,为总数的46.88%。除编码亮氨酸的密码子UUG 外,其余29个都以A或U结尾,说明中国特有苏铁属植物叶绿体基因组密码子偏好以A和U结尾,是该属叶绿体基因组偏好的密码子。RSCU<1的氨基酸均有32个,密码子中除CUA 和AUA 以A 结尾外,其余均以C 或G 结尾,说明以C、G 结尾的密码子出现频率比较低,是非偏好密码子。以上结果分析表明,苏铁属9 种物种之间密码子的偏好性保持高度的一致。
对9 个苏铁属植物的CDS 基因按照ENC 值进行排序,根据高低表达基因中密码子的RSCU 值和ΔRSCU 值来确定其最优密码子,筛选得到的最优密码子如表6。最优密码子数量介于14~17 个之间,苏铁属9 种植物的最优密码子都大多以A或T(U)作为第3位碱基,说明其最优密码子偏向于使用A和T(U)作为结尾。对其共有最优密码子进行分析,发现其共有最优密码子有12 个,分别为GCU、CGU、CAA、GGU、AUC、CUA、CCU、UCU、ACC、ACU、GUA、GUU,其中有3个以A作为末碱基,9个以U作为末位碱基,共有密码子的第3位碱基均为A和U。
表6 苏铁属叶绿体基因组最优密码子Table 6 Analysis of the optimal codons of chloroplast genomes of Cycas
基于叶绿体全基因组构建的系统进化树与基于叶绿体CDS序列的系统发育树进行分析(图6),结果显示,两种系统发育树具有很高的相似性,所有苏铁属植物以100%的支持率聚为一个单系,灰干苏铁(C.hongheensis)、滇南苏铁(C.diannanensis)、海南苏铁(C.hainanensis)和葫芦苏铁(C.changjiangensis)在两种系统进化树中展现出了相同的系统发育位置。但两种系统发育树也显现出了一定的差异,基于叶绿体全基因组的系统发育树显示台东苏铁(C.taitungensis)和闽南苏铁(C.taiwaniana),德保苏铁(C.debaoensis)和叉孢苏铁(C.segmentifida)分别聚为一个亲缘分支,而基于CDS 序列构建的系统发育树(图5b)则将台东苏铁(C.taitungensis)和叉孢苏铁(C.segmentifida)聚为近缘物种,德保苏铁与海南苏铁(C.hainanensis)、葫芦苏铁(C.changjiangensis)的关系更为密切。总的来说,叶绿体基因组的两种系统发育树展现出来的系统发育关系既存在着部分差异,也存在着一定的相似性。
图5 9种苏铁属植物叶绿体同义密码子的使用频率Figure 5 Frequency of synonymous codon usage in chloroplasts of nine Cycas species
图6 基于CDS序列和叶绿体全基因组构建的苏铁属物种系统发育树Figure 6 Phylogenetic tree of Cycas constructed based on CDS and complete chloroplast genome
在本研究中9 种苏铁属植物中其叶绿体基因组均为双链环状结构,在结构和含量上具有相似的裸子植物特征[31],叶绿体基因组长度差异较小,AT 含量高于GC 含量,rRNA 数量最为保守。以往的研究证实ycf3是一种与光合作用相关的基因[32],因此ycf3基因的出现可能提供对苏铁属植物叶绿体的新的研究方向。苏铁属叶绿体基因组中可以发现内含子的单拷贝和多拷贝现象[33-34],研究表明内含子在调节基因表达方面发挥着重要作用[35],它可能会控制不同时空中的基因表达水平[36-37]。苏铁属植物的简单重复序列的类型和数量上总体差异较小,表现相对保守,主要以单核苷酸序列为主,且以A/T 基元为主要重复类型。A/T 重复频率较高的一个潜在原因是许多物种叶绿体基因中mRNA 末端的聚腺苷酸化。此外,在叶绿体复制过程中,A/T 的链分离比G/Cs 相对容易,这增加了滑脱的链错配[38]。而物种之间离散重复序列差异较大,9 个物种的重复序列总数介于50~288之间,正向、反向、回文、互补4种类型均有被检测到,4种重复类型的差异较小,与杨属[39]、芸苔属[40]等结果相似,说明物种的亲缘关系与重复序列的种类及数量存在一定的相关性。
通过分析IR-LSC/SSC 区域的边界信息,对研究叶绿体基因组结构的差异、物种进化等具有重要意义[41-42]。早期研究表明,IRs区域是叶绿体基因组中最保守的区域[43],它在边界的收缩和扩张是一个常见的进化形式,是叶绿体基因组大小变化和重排的主要原因。有许多报告表明叶绿体基因在大多数陆生植物中是保守的,但也有报告表明,有些植物的叶绿体基因组中有许多序列发生了重排,然后影响到边界的收缩扩张[44-45]。对9 种中国特有苏铁属植物的IR 边界分析发现所有物种的基因的数量和顺序是相似的,只是各基因与边界的距离在9个物种中略有差别,表明中国特有的9种苏铁属树种叶绿体基因组具有较高的保守性[46]。HEBERT[47-48]提出可通过DNA 序列、ITS2、matK、psbA-trnH和rbcL等DNA 条形码方法来识别物种。在目前的研究中,对9 种苏铁属叶绿体基因组比对的分析显示,trnK-UUU、trnF-GAA、trnC-GCA、trnM-CAU、trnH-GUG、trnL-CAA、trnPGGG、trnH-GUG等基因间隔区的非编码区也存在不同程度的变异。因此,这些区域可以作为不同的命名片段来识别苏铁属植物[49-50]。
分子进化中性理论认为,基因的碱基突变对密码子的影响是中性的或近似中性的[51]。但如果基因组的密码子受到外界环境选择的影响,则会导致密码子的使用和碱基组成出现偏向性[52]。中国特有苏铁属植物叶绿体基因组密码子偏好以A和U结尾,是该属叶绿体基因组偏好的密码子,这一结果与小檗属[53]和睡莲属[54]的情况相似。对于最优密码子的筛选工作可以为后续苏铁属植物的遗传育种工作提供重要的参考依据。
基于叶绿体全基因组和CDS序列构建的两种系统发育树展现出来的系统发育关系具有相似性,这也说明了蛋白质编码序列的碱基突变与生物的进化历程存在一定联系,基于叶绿体基因组CDS序列的系统发育关系能在一定程度上对物种的系统发育关系和生物进化历程进行补充。基于叶绿体全基因组的进化关系和基于CDS的进化关系的不同,推测出现这种情况的原因可能是CDS序列包含了基因组的位点突变和非编码区序列等的相关遗传信息,叶绿体基因组非编码区在系统进化中也有一定作用,非编码区序列差异导致不同完全谱系分选[53],这种现象及推测也在樱亚属(subg.Cerasus)[55]、天胡荽属(Hydrocotyle)[56]构建的系统发育树中得到证实。本研究使用生物信息学手段,对中国特有的九种苏铁属植物叶绿体基因组进行分析在一定程度上可为分子水平上的系统发育地位与进化研究提供依据。