张 雨 苏 旭,3 刘玉萍* 刘 涛 郑长远 苏丹丹 王亚男 吕 婷
(1. 青海师范大学生命科学学院,西宁 810008;2. 青海师范大学青海省青藏高原药用动植物资源重点实验室,西宁 810008;3. 青海师范大学高原科学与可持续发展研究院,西宁 810016)
叶绿体是存在于所有绿色植物和某些自养生物细胞中的一种重要细胞器,也是它们进行光合作用的重要场所,具有合成多种蛋白质、淀粉等功能。叶绿体基因组是叶绿体内带有遗传信息的一套DNA序列,叶绿体基因组一般较小,大小介于120~180 kb。研究认为,绝大多数陆生植物的叶绿体基因组非常保守,为共价闭合的四分体结构,即包括2 个反向的重复区域(Inverted re‑peats,IRa/IRb)、1 个短单拷贝区域(small single copy,SSC)和1 个长单拷贝区域(large single copy,LSC)4 个部分。叶绿体基因组在研究系统发育、遗传多样性、物种形成机制等方面具有重要作用。随着测序技术的快速发展,植物叶绿体基因组数据库得以迅速扩大。近年来,诸多药用植物的叶绿体基因组已被完成测序和数据分析,取得了较好的研究成效,如通过对姜黄()、天目地黄()、刺苍耳()和牛蒡()等多种植物叶绿体基因组研究,解析了它们的叶绿体基因组特征和密码子偏好性,确定了各自的系统位置及其与近缘物种的亲缘关系;同时,先前学者对多种红景天属()植物如红景天()、狭叶红景天(.)等的叶绿体基因组特征及其物种系统发育分析关系也作了探讨,但这些研究仅涉及叶绿体基因特征及物种系统进化关系,并未对其进行全面深层次的探讨。
红景天属是景天科(Crassulaceae)中一类多年生草本或亚灌木植物,中国分布有73 种、7 变种,青藏高原有32种、2变种。大部分红景天属植物在我国被作为药用植物,《本草纲目》和《晶珠本草》对其均有记录。现代医学研究显示,红景天属多种植物的提取物具有重要的药用成分和药理作用。譬如,关伟等研究发现高山红景天提取物——红景天苷具有良好的抗抑郁作用。尤为重要的是,喜马红景天()是红景天属的一种重要多年生药用植物,主要分布于我国青海、西藏、云南和四川西部等地,是青藏高原的一个高山特有种;喜马红景天通常生长于海拔3 500~5 000 m 的山坡、林下、灌丛中。喜马红景天全草入药,具有治疗咳血、咯血、妇女白带等功效。迄今,国内外诸多学者喜马红景天的研究主要集中于其化学成分鉴定、药理作用和遗传多样性等方面,然而关于喜马红景天叶绿体基因组的系统研究尚鲜见报道。据此,本研究以喜马红景天为试验材料,利用高通量测序技术对喜马红景天的叶绿体基因组进行测序,并对其进行密码子偏好性、SSR 位点、IR 区边界收缩和扩张及系统亲缘关系等多种分析,为今后喜马红景天群体遗传多样性、种群历史动态乃至景天科植物系统发育与亲缘关系研究奠定基础。
喜马红景天新鲜叶片采自青海省海西州德令哈市蓄集乡(37°49′11″N,97°23′8″E,海拔4 345 m),获取叶片后立刻放于变色硅胶中储存,凭证标本存于中国科学院西北高原生物研究所青藏高原生物标本馆(HNWP)。
利用改良的CTAB 法获取喜马红景天叶片中的基因组DNA;采用1%琼脂糖凝胶电泳分析DNA 完整性、Nanodrop 检测DNA 纯度(OD)和浓度,然后对基因组DNA进行纯化,直至DNA样品检测合格;应用Covaris 超声波破碎仪随机打断纯化后的DNA,使其形成小片段,经序列末端修复、加A尾、加测序接头、纯化、PCR扩增等多步操作完成文库的制备;文库质检后,使用Illumina高通量测序平台NovaSeq 6000对叶绿体基因组进行测序。
从NCBI 数据库下载红景天叶绿体基因组序列(GenBank 登录号:MH410216.1)作为参考序列,应用NOVOplasty软件对喜马红景天叶绿体基因组进行组装,采用默认参数;然后利用PGA(Plas‑tid Genome Annotator)软件对叶绿体基因组注释,默认参数;注释完成后,采用Chloroplot 软件绘制喜马红景天叶绿体基因组图谱。
运用CodonW1.4.2 软件统计分析喜马红景天叶绿体基因组密码子的偏好性RSCU(relative synonymous codon usage);采用网站在线工具(https://webblast.ipk-gatersleben.de/misa/index.php?action=1)对喜马红景天叶绿体基因组序列简单重复序列(simple sequence repeats,SSRs)分析,其中单核苷酸的设置为10、二核苷酸为6、三、四、五和六核苷酸最小重复数都为5。
IR 区的收缩和扩张会造成叶绿体基因组长度的变化。为此,选取喜马红景天的5个近缘种圣地红景天(.)、四轮红景天(.)、狭叶红景天、背药红景天(.)和大花红景天(.),利用IRscope(http://irscope.shinyapps.io/irapp/)分析其IR 区的收缩和扩张情况,绘制对比图。
以蔷薇科(Rosaceae)中欧李(,MN259192.1)作为外类群,对喜马红景天及其18 个近缘种构建系统发育树。首先,利用Phylo‑Suite 软件包中的MAFFT将所有物种的叶绿体基因组序列进行比对并校正;然后,应用PhyloSu‑ite 软件包中的IQ tree进行分析并构建系统发育树,bootstrap值设为5 000。
采 用 在 线 工 具OGDRAW(http://ogdraw.mpimp-golm.mgp.de/cgi-bin/ogdraw.pl)对喜马红景天及其18个近缘种的叶绿体基因组进行四分区域注释并提取序列,然后利用MAFFT 软件对它们进行多重序列比对,最后使用DnaSP 软件对序列特征和SNP进行筛选。
喜马红景天叶绿体基因组全长为151 074 bp,呈现典型的四分结构,其中包括1个长度为82 309 bp的长单拷贝区、1 个长度为17 017 bp 的短单拷贝区和1对长度为25 874 bp的互补重复区(见图1)。喜马红景天叶绿体基因组GC 含量为37.8%;长单拷贝区、短单拷贝区和互补重复区的GC 含量分别为35.7%、31.8%、42.9%(见表1)。喜马红景天叶绿体基因组编码130 个基因,包括编码蛋白基因、编码tRNA 基因和编码rRNA 基因,其数量分别为86、37、7 个(见表2)。因基因功能的不同,喜马红景天叶绿体基因组可分为有关基因表达(75 个)、光合作用(46 个)、开放阅读和其他编码蛋白(4个),以及未知功能(5个)的几大类基因。
图1 喜马红景天叶绿体基因组环形图谱图的中心包括物种名称和有关基因组的特定信息(长度和基因数量);圆圈内外的基因分别以顺时针和逆时针方向转录;彩色代表编码不同功能组的基因;基因名称与其密码子使用偏好被标记在最外层Fig.1 Circularized map of the chloroplast genome of R.himalensisThe species name and specific information regarding the genome(length and the number of genes)are depicted in the center of the plot;Genes on the outside and inside of the circle are transcribed in clockwise and counterclockwise directions,respectively;Genes belonging to different function‑al groups are color coded;The gene names and their optional codon usage bias are labeled on the outermost layer;The SSC,LSC and inverted repeat region(sIRA and IRB)are indicated
表1 喜马红景天叶绿体基因组碱基组成Table 1 Base composition of the chloroplast genome in R.himalensis
表2 喜马红景天叶绿体基因组注释信息Table 2 Gene annotation of the chloroplast genome of R.himalensis
从喜马红景天叶绿体基因组中共获得87 条CDS(coding DNA sequence)序列。为了保证研究结果的科学性,去除了叶绿体基因组长度小于200 bp 的CDS 序列,选用71 条CDS 序列用于密码子的偏好性分析。研究表明,喜马红景天叶绿体基因组共检测出25 513 个密码子,其中编码亮氨酸(Leu)的密码子数量最多,为2 721 个,占总密码子数的10.67%(见表3)。相对同义密码子(RS‑CU)大于1 的有30个密码子,仅1 个密码子的碱基以G结尾,其余密码子均以A/U结尾(见图2)。
图2 喜马红景天各氨基酸的RSCU分析Fig.2 RSCU analysis of each amino acid in R.himalensis
表3 喜马红景天各氨基酸相对同义密码子使用度Table 3 RSCU analysis of protein coding region in R.himalensis
研究结果表明,喜马红景天叶绿体基因组仅包含单核苷酸和二核苷酸2 种不同类型共44 个SSRs(见表4)。其中,单核苷酸重复序列最多,共40 个,有A(19 SSRs)和T(21 SSRs)2 种重复类型;二核苷酸重复序列仅有4 个,包括AT(1 SSRs)和TA(3 SSRs)2 种重复类型(见表4)。在44 个SSRs中,有14 个SSRs 位于基因的编码区(coding se‑quence,CDS);有30个SSRs位于基因的非编码区,其中8 个SSRs 位于基因的内含子(intron)区域,22个SSRs 位于基因间隔区(intergenic spacer,IGS)(见表5)。
表4 喜马红景天叶绿体基因组简单重复序列(SSR)信息Table 4 The number of SSRs identified in the chloro‐plast genome of R.himalensis
表5 喜马红景天叶绿体基因组SSR信息Table 5 SSR information of the chloroplast genome in R.himalensis
叶绿体基因组的IR区域具有收缩和扩张的特点,会引起叶绿体基因组长度的变化。本研究通过对喜马红景天与其5 个近缘种叶绿体基因组边界的比较,发现红景天属6种植物具有大致相似的基因组成和结构,即都有4 个基因位于IR 区边界处,分别是LSC/IRb 的、IRb/SSC 的、SSC/IRa的和IRa/LSC 的(见图3)。然而,红景天属6 种植物在基因组长度、和基因缺失以及基因收缩等特征上存在差异,如喜马红景天与大花红景天基因组长度相差693 bp,喜马红景天IRa 和IRb 区存在和基因缺失以及LSC 区具有基因收缩,而喜马红景天的5个近缘种IRb 区仅存在基因的收缩和扩张(见图3)。
图3 红景天属6种植物的叶绿体基因组IR区边界分析Fig.3 Boundary analysis of IR regions of chloroplast genomes from six Rhodiola plants
以欧李为外类群,基于景天科19 个物种叶绿体基因组构建的系统发育树表明,景天科19 个物种构成一个单系类群,靴带支持率(bootstrap)高达100%(见图4);同时,单系类群形成具有高支持率(100%)的两大分支(Clade 1 和Clade 2),其中Clade 1 由凹叶景天()佛甲草(.)、大唐米(.)、长叶瓦莲()、喜马红景天、圣地红景天、狭叶红景天、长鞭红景天()、云南红景天()、红景天、矮生红景天(.)、四轮红景天、红花红景天(.)、异鳞红景天(.)、圆叶八宝()、晚红瓦松()和石莲()17 个物种构成,Clade 2 由褐斑伽蓝()和大叶落地生根()2个物种组成(见图4);研究结果显示,喜马红景天位于分支1内,其与圣地红景天亲缘关系最近(见图4)。
图4 基于20个叶绿体基因组数据构建的景天科物种系统发育树“★”代表分支节点的靴带支持率为100%Fig.4 Phylogenetic tree of crassulaceae species constructed based on 20 chloroplast genome data“★”represents the bootstrap support rate of 100%on the branch
叶绿体基因组SNP 分子标记因密度高、鉴别力强和便于分析等特点,在植物种质资源精准鉴定中具有重要作用。研究结果表明,喜马红景天及其18个近缘种叶绿体基因组四分区域SNP位点相对较多。其中,LSC 区域长度为80 962~83 252 bp,存在11 303 个SNP 位点;SSC 区域长度为16 630~17 054 bp,存在3 380 个SNP 位点;IR 区域长度为25 427~25 811 bp,存在873个SNP位点;SSC区域变异频率最高(见表6)。
表6 喜马红景天及其18 个近缘种叶绿体基因组四分区域SNP位点数量Table 6 The number of SNP loci in the four regions of chloroplast genome in R. himalensis and its 18 related species
叶绿体是高等绿色植物最重要的细胞器之一,也是光合作用的场所,拥有独立完整的基因组,绝大多数植物为单亲遗传。先前研究表明,叶绿体基因组已被广泛用于植物分类修订、群体遗传结构、遗传多样性、种群动态历史和系统发育关系等诸多研究领域。近年来,叶绿体基因组数据库逐步完善,尤其在药用植物叶绿体基因组测序方面取得长足的进展。譬如,张慧等基于高通量测序技术对益母草()叶绿体基因组进行了测序、组装和注释,获得完整的叶绿体基因组序列,同时认为益母草与水苏属()植物亲缘关系较近;Zhou等通过对大黄属()多种植物叶绿体基因组的研究,开发了大黄属植物的超级DNA 条形码。研究表明,植物叶绿体基因组具有强大的物种鉴别能力,尤其用于亲缘关系较近的类群界定方面效果明显,因此测序并研究更多的药用植物叶绿体基因组显得十分必要。据此,我们对喜马红景天叶绿体基因组进行了测序。
喜马红景天叶绿体基因组长度为151 074 bp,其长度符合被子植物叶绿体基因组长度范围,并且同报道过的其他被子植物叶绿体基因组结构相吻合,为四分体结构GC 含量37.8%。喜马红景天叶绿体基因组在基因种类和结构上与绝大多数景天科植物的叶绿体基因组基本一致。密码子偏好性可以反映基因乃至物种的起源和进化方式,并且能够对基因功能及其编码蛋白的表达具有影响。通过对喜马红景天叶绿体基因组密码子偏好性的分析,本研究发现喜马红景天大于1的相对同义密码子有30 个,仅1 个密码子的碱基以G结尾,其余所有密码子均以A/U 结尾,具有明显的AU 偏向性,我们认为这可能是由于核苷酸突变和回复突变导致的。
简单重复序列(SSRs)是叶绿体基因组中一段长度为1~6 bp的重复序列,具有含量丰富、多态性高和单亲遗传等优点,常被用于植物物种鉴定、种群系统进化、遗传图谱构建和种质资源遗传多样性研究等领域。本研究结果显示,喜马红景天叶绿体基因组共检测到40 个单核苷酸、4 个二核苷酸SSRs。其中,二核苷酸SSRs 的重复单元以AT/TA 为主,其SSRs 序列组成与先前报道的被子植物相一致,从而证实了SSRs 主要由短的poly A和poly T构成的这个观点;尤其是本研究检测到的SSRs 序列可为今后红景天属药用植物分子遗传学研究提供候选的分子标记。叶绿体基因组存在IR 区域扩张与收缩的特点,这是一种进化上的常见现象。本研究发现,红景天属多数植物叶绿体基因组的IRb/SSC 边界位于基因和基因的重叠区,并且这2个基因具有不同程度的收缩与扩张;但喜马红景天叶绿体基因组的IRb/SSC边界无基因重叠,具有基因丢失现象,IRa 区基因丢失,LSC 区基因存在收缩现象,因此本研究认为红景天属植物LSC/IRb、IRb/SSC、SSC/IRa 和IRa/LSC 的边界变化是IR 区扩张与收缩的主要原因。
红景天属植物是传统的中药材,属内物种数量较多,尤其不同种间以及同种不同个体间具有复杂的形态变异,从而导致物种鉴定及系统发育存在较多争议。先前学者研究指出,完整的叶绿体基因组用途广泛,最大的用途即可作为超级DNA 条形码应用于植物物种鉴定和系统发育关系判定。本文基于叶绿体基因组序列通过对景天科19 个物种系统发育树的构建、四分区域注释和SNP 分析,发现景天科植物是一个单系类群且靴带支持率高达100%,喜马红景天与圣地红景天亲缘关系较近;SSC 区域SNP 变异频率最高。总之,我们认为利用叶绿体基因组数据,不仅能够确定喜马红景天的系统位置,阐明喜马红景天的系统发育关系,为今后景天科植物系统发育分析提供理论依据,而且运用叶绿体基因组SNP 位点结合高分辨率熔解曲线、数字PCR 等分析技术,可以建立精准的植物鉴别和检测技术。