李幸儿, 赵 艳, 李 雪, 任玉玲, 李 萍
(青海大学生态环境工程学院, 西宁 810016)
血满草(SambucusadnataWall. ex DC.)属忍冬科(Caprifoliaceae)接骨木属(Sambucus)多年生高大草本或半灌木,是一种传统的药用植物,主要分布于山西、甘肃、青海、四川、贵州、云南、宁夏和西藏等省区,特别是在西藏东南部和西藏南部的低海拔地区[1-2]。从血满草中分离出了多种化合物,包括苯丙酸类、酚类、黄酮类、三萜类、甾体类和芳香族酸[3],这些化合物具有祛风、利尿、促进血液循环和疏通络脉等功效,因此血满草被临床用于治疗急性和慢性肾炎、风湿病和其他疾病[4]。目前,关于血满草的研究主要集中在其化学成分分析[5-9]、多糖提取[10-12]、药用价值[13-14]以及遗传结构[15-16]等方面,而关于其叶绿体基因组信息和进化分析还未见报道。
叶绿体是植物细胞内最重要、最普遍的质体;细胞中由双层膜围成,含有叶绿素,能进行光合作用的细胞器是细胞能量转换和储存的场所,其遗传方式以母系遗传为主。叶绿体基因组在细胞中有多种构型,最常见的结构是双链环状结构,包括一个小的单拷贝区(SSC)和一个大的单拷贝区(LSC),这两个区域被一对反向重复区域(IRa,IRb)分开,形成典型的双链环状四分体结构[17]。20世纪50年代,当时的植物生物学家通过对叶绿体基因组的研究,首次发现叶绿体含有自身的DNA[18],Jansen等[19]在2005年发现,质体基因组的大小在35~217 kb之间,但绝大多数光合生物的大小在115~165 kb之间,而叶绿体基因组序列的长度往往由IR区的长度决定[20]。随着测序技术的不断完善和推广,二代测序凭借其测序性能强、周期短、无须参考基因组等优点,成为探究植物全基因组序列、遗传多样性的有效技术[21],为植物叶绿体基因组相关研究提供了技术支持,为后续系统发育、居群遗传和谱系地理等方面的研究提供了有效途径[22]。
虽然血满草的化学成分和生物活性已有报道,但对其基因组的相关研究鲜见报道。完整的叶绿体基因组通常被用来研究系统发育关系和稀有物种的保护[23]。因此,本研究基于Illumina测序对血满草的叶绿体基因组进行了分析,并与其他属的叶绿体基因组序列进行了比较,以期促进忍冬科的系统发育研究,为血满草的保护和利用提供参考。
血满草新鲜叶片样品采集于青海孟达天池山(102°674′9″E,35°791′7″N),经液氮快速冷冻处理后,-80 ℃冰箱贮存备用。植物凭证样本保存于青海大学藏药研究中心(TMSGS 21004)。
采用改良的CTAB方法[24]提取总基因组DNA,随后在百迈克生物科技有限公司(北京,中国)的IlluminaHiseqX-ten平台(圣地亚哥,美国)上对高质量的DNA进行测序。
叶绿体基因组组装采用SPAdes(3.9.0)软件[25],注释采用cpGAVAS 2软件,利用在线工具OGDRAW(http://ogdraw.mpimp-golm.mgp.de/cgi-bin/ogdraw.pl)分析绘制血满草叶绿体基因组图谱。将叶绿体基因组全序列提交Genbank获得其登录号(MZ 962405)。
借助软件 CodonW 1.4.2[26](http://mobyle. pasteur/fr/cgi-bin/portal.py?from=codonw)统计分析血满草叶绿体基因组的密码子偏好性 RSCU(Relative Synonymous Codon Usage);在网站(https://webblast. ipk-gatersleben. de/misa/index.php?action=1)对血满草叶绿体基因组序列开展微卫星扫描。
在NCBI数据库中下载忍冬科植物叶绿体全基因组序列,以人参(LG 149410)为外类群,将所有参试物种的叶绿体基因组序列选择MAFFT进行多序列比对,并将比对后的序列进行手动校正,使用PhyloSuite软件[27]中的RAxML构建系统发育树,Bootstrap值设为1 000。
经过测序,共获得10 508 826 bp较高质量的数据(Clean reads),3 146 741 892 bp较高质量的碱基(Clean bases),其中Q 20为97.15%,Q 30为92.46%(表1)。将注释得到的血满草叶绿体基因组提交到GenBank,登录号为MZ 962405。通过组装及可视化作图分析发现,血满草叶绿体全基因组是一个长度为158 610 bp的环状DNA分子,包含典型的4个部分:87 345 bp的大单拷贝区域、18 937 bp的小单拷贝区域及26 164 bp的两个反向重复序列(图1)。对血满草叶绿体基因组的碱基组成进行分析,发现GC含量占总碱基数的37.61%,其中IR区域中的GC含量(42.99%)高于LSC区域(36.27%)和SSC区域(31.89%)(表2)。
表1 血满草基因组测序的数据评估统计
图1 血满草完整的叶绿体基因组图谱
表2 血满草叶绿体基因组信息
从血满草叶绿体基因组中共检测到131个基因,包括86个编码蛋白质的基因、37个转运RNA基因和8个核糖体RNA基因,其中有18个基因在IR区域呈现双拷贝,分别是trnV-GAC、trnR-ACG、trnN-GUU、trnL-CAA、trnI-GAU、trnI-CAU、trnA-UGC、rrn23、rrn16、rrn5、rrn4.5、rps7、rps12、rpl2、rpl23、ndhB、ycf2、ycf1(表2,表3)。与光合作用有关的基因有45个,包括5个光合系统 Ⅰ 基因、15个光合系统Ⅱ基因、6个ATP合成酶基因、6个细胞色素复合物编码基因、11个NADH脱氢酶基因、1个核酮糖-1,5-二磷酸羧化酶大亚基基因和1个依赖ATP蛋白酶单元p基因;与转录和翻译有关的基因包含了4个DNA依赖性RNA聚合酶、9个核糖体大亚基基因和12个核糖体小亚基基因,还有9个其他功能基因(表3)。在大多数被子植物叶绿体基因组中发现的3个基因(rps16、infA和ycf4),包括早期分支谱系的代表[28-30]均存在于血满草叶绿体基因组中。
表3 血满草叶绿体基因组注释基因归类
表4 基于核苷酸重复单位数血满草叶绿体SSR的长度分布
重复序列又称为简单序列重复(SSR)或微卫星序列,在基因组中广泛存在,通常包含1~6个核苷酸,一般用于分析群体遗传学、进化关系以及物种鉴别等[31]。通过对血满草叶绿体基因组的SSR分析(表5),共发现6种类型的SSR,包括4种单核苷酸、2种二核苷酸,A/T单核苷酸重复是最多的一类,占总SSR的84.62%,AT/TA二核苷酸重复占总SSR的15.38%,A/T单核苷酸重复在其他物种中也较为多见[32],说明短的A/T单核苷酸重复是叶绿体基因组的普遍特征[33]。在血满草叶绿体基因组中没有发现三核苷酸、四核苷酸、五核苷酸以及六核苷酸重复的SSR,这些结果表明,SSR参与了血满草叶绿体基因组遗传多样性的鉴定。
表5 血满草叶绿体基因组中含有内含子的基因以及内含子和外显子长度
17个基因包含1个或2个内含子,其中11个位于蛋白质编码基因中,6个位于tRNA基因中(表5)。在血满草中,蛋白质编码基因rpl2包含1个673 bp的单个内含子,在包含内含子的基因中,trnK-UUU具有最大的内含子(2 519 bp),最小的内含子位于trnG-UCC(58 bp)中,ycf3基因有2个717 bp和749 bp的内含子。
一般来说,不同生物体核苷酸序列的同义密码子蛋白质结构的使用频率并不相同,但是密码子之间的选择相同[34]。同义密码子的不平等使用,被称为密码子使用偏差,被视为自然选择、突变压力和遗传漂变的复杂组合结果[35-36]。根据血满草叶绿体基因组131个基因序列,得出血满草叶绿体基因组的相对同义密码子使用情况(RSCU)[37],如图3。血满草叶绿体基因组密码子的使用反映了AT/GC偏倚。86个蛋白编码基因包含80 364 bp,编码26 788个密码子。在这些密码子中,2 842 个(10.61%)编码亮氨酸,304个(1.13%)编码半胱氨酸,分别是最普遍和最少的氨基酸。异亮氨酸(Ile)中AUU的密码子使用率最高,亮氨酸(Leu)和异亮氨酸(Ile)的密码子使用量也较高,起始密码子ATG被鉴定了649次(2.42%),所有3种终止密码子均存在,其中UAA是最常用的密码子(UAA 51.16%,UGA 24.42%,UAG 24.42%)。
图2 血满草叶绿体基因组中含有内含子的基因以及内含子和外显子长度
注:柱状图上方柱子的高度代表该氨基酸所有同义密码子RSCU值的总和,柱状图下部分方块代表每种氨基酸的所有同义密码子。
血满草叶绿体基因组密码子使用性检测结果表明,RSCU值大于1的密码子有30个,其中以A/U碱基结尾的有29个(96.67%);RSCU值小于1的密码子有32个,其中以G/C碱基结尾的有29个(90.63%),说明在血满草叶绿体基因组中的密码子更倾向以A/U碱基结尾;色氨酸(Trp)和甲硫氨酸(Met)的RSCU值为1,无密码子偏向性(表6)。对于血满草密码子使用偏好性的直观展示见图3。
表6 叶绿体基因组密码子使用率
从NCBI数据库中下载了14条忍冬科植物叶绿体全基因组序列,以人参(LG 149410)为外类群,利用15种叶绿体基因组序列进行系统发育分析。通过MEGA[38]软件中的最大似然法构建系统发育树,程序设置1 000步长检验。采用MrBayes v 3.2.6[39]完成贝叶斯推理(BI)分析(图2)。系统发育分析结果表明,血满草与接骨木(NC_051521和MT 457823)亲缘关系密切,该完整的血满草叶绿体基因组为进一步研究血满草及其相关属的系统发育和物种的进化以及资源的保护和利用提供了参考。
国内外关于血满草的研究报道较少,而关于血满草叶绿体的研究更是鲜有报道。随着新一代测序技术的发展,高通量测序技术的应用越来越广泛,植物叶绿体基因组序列为分类学、物种鉴定和系统发育提供了有价值的遗传信息,并被广泛用于评估物种遗传多样性和物种亲缘关系。为了开发国产药源,近年来对血满草进行了比较系统的研究。沈笑媛等[5]研究了血满草的化学成分,对血满草乙醇提取物的乙酸乙酯、正丁醇溶解部分进行分离纯化,得到4种化合物,分别为对羟基苯甲酸(p-hydroxybenzoic acid, 1)、齐墩果酸(oleanolic acid, 2)、熊果酸(ursolic acid, 3)、3,5-dimethoxy-4-hydroxy-1-O-β-D-glucopyranoside(4);唐柳怡等[6]对采自峨眉山的血满草进行了化学成分研究, 从氯仿部分及总浸膏的水悬浮液中分离得到5种化合物,分别是1-(3-羟基-4-甲氧基)乙烷-1′,2′-二醇(1-(3-hydroxy-4-methoxyphenyl)-1′,2′-ethane-diol,1),熊果酸(ursolic acid,2),1-(3,4,5-三甲氧基苯基)乙烷-1′,2′-二醇(1-(3,4,5-trimethoxyphenyl)-1′,2′-ethanediol,3),落叶松脂醇(lariciresinol,4),5,7,3′,4′-四羟基黄酮-3-O-吡喃鼠李糖(1→6)吡喃葡萄糖苷(5,7,3′,4′-tetramethoxyflavone-3-O-rhamnopyranosyl-(1→6)-glucopyranoside,5)。在提取血满草中多糖成分时发现,血满草粗多糖由鼠李糖、阿拉伯糖、甘露糖、葡萄糖、半乳糖构成,而后又从血满草叶片中分离纯化出了一种均一性酸性多糖SPS-1,并制备了其硫酸化多糖SSPS-1[10-12]。对药用价值的研究表明,血满草的提取物具有较好的抗炎、镇痛作用,可以治疗跌打损伤,骨折疼痛,小剂量可兴奋血管中枢,使肾区血流量增加起利尿作用;王凤琼,周红[14]研究表明,用血满草热浴局部治疗新生儿硬肿症效果较好。杨青松等[15]对血满草的遗传结构研究发现,不同海拔血满草居群之间遗传分化不明显,远低于异交生物平均水平。另外,谱系分析也表明,血满草不同居群之间的系统关系不清晰,与地理分布和海拔分布的关系不明显。无论是居群间还是居群内,供试血满草的遗传多样性均较低,居群间的遗传分化较小,可能还属于同一个大的居群[15-16]。尽管目前对血满草有所研究,但是针对血满草基因组信息尤其是细胞器基因组信息十分欠缺。
图4 基于15个叶绿体全基因组序列构建的血满草系统发育树
在光合植物中,叶绿体基因组以单性遗传的方式传递遗传物质,一般来说,大多数被子植物是母系遗传,而大多数裸子植物却为父系遗传[40-41]。血满草植物属于被子植物门,叶绿体基因组全长158 610 bp,呈现出与大多数被子植物,如海甘蓝[42]、密花香薷[43]、暴马丁香[44]等一样的由一个SSC区、一个LSC区、两个IR区构成典型四分体结构,与多数已发表的忍冬科物种叶绿体基因组相似,如苦糖果、冠果忍冬、盘叶忍冬、葶子藨、锦带花、双盾木、忍冬和蝟实[45]。密码子是体内遗传信息传递的基础部分,密码子的使用偏好性对于外源基因的表达具有重要意义,近年来,随着基因组测序的不断增加,关于密码子偏好性分析的论文也越来越多。之前已有藜芦属[46]、大黄[47]、菜头肾[48]、刺五加[49]等药用植物的密码子偏好性分析,相关研究为重要经济和药用植物的基因工程改良奠定了基础。
叶绿体基因组中的SSR基因通常是揭示种间和种内系统发育关系的有力工具[50]。目前应用叶绿体基因组中的SSR研究的药用植物有益智[51]、鸦胆子[52]、苦参[53]等。本研究结果表明,血满草叶绿体基因组中的SSR包含高频率的A或T重复,与很多植物如鱼腥草[54]等叶绿体基因组SSR序列的组成相似。本研究中14条忍冬科叶绿体基因组序列,以人参为外类群,构建的系统发育树中发现,血满草与接骨木亲缘关系密切,接骨木药用价值很高,具有疏通经络,活血化瘀止痛等作用,临床上也被广泛应用于风湿痹痛、跌仆伤痛、水肿及小便不利等症;据植物志[55]记载,血满草为民间跌打损伤药,能活血散瘀,亦可去风湿,利尿。这两种植物的药用价值在一定程度说明该物种的药用成分可能具有高度的相似性,这可能是由于化学物质构效关系引起的,因为植物体内的化学成分都是相关基因家族通过特定的生物合成途径生成的,故相近化学成分和药理作用的物种间可以根据需要互相增补和调换使用[56]。本研究可为忍冬科物种鉴定、分子进化和遗传系统发育研究提供重要的参考。