益母草叶绿体基因组序列与系统进化位置分析

2018-07-12 07:01张慧何帅兵孔繁德陈海梅唐泰山徐淑菲苗丽刘昶
中医药信息 2018年4期
关键词:益母草叶绿体基因组

张慧,何帅兵,孔繁德,陈海梅,唐泰山,徐淑菲,苗丽,刘昶*

(1.中国医学科学院北京协和医学院,药用植物研究所,北京 100193;2.厦门出入境检验检疫局技术中心,厦门 361026;3.江苏出入境检验检疫局,江苏 南京 210001;4.河南出入境检验检疫局,河南 郑州 450003)

益母草(Leonurusartemisia(Lour.)S.Y.Hu)为唇形科(Lamiaceae)益母草属1年或2年生草本植物,具有活血化瘀、调经利水的功能[1]。作为临床常用中药,益母草素有“妇科要药”之称。现代研究表明,益母草不仅在妇科疾病治疗方面发挥着重要作用,而且对包括心血管疾病、免疫系统疾病在内的多种其他疾病也都有很好的治疗效果[2]。可以说益母草不仅具有重要的药用价值,同时也具有良好的社会效益。

益母草属植物全球分布23种,我国有12种和2个变种,广泛分布于全国各地[3]。在实际应用中,益母草属不同物种之间存在混用、误用的现象。而物种的分类与精准鉴定能够有效避免这一现象的发生,对保障临床用药的有效性具有重要意义。近年来,随着基因测序技术的快速发展,越来越多植物的叶绿体基因组信息得以解析。目前,基于叶绿体基因组的植物精准鉴定和系统发育学研究得到了越来越多研究者的青睐,被认为是植物鉴定与系统发育关系研究的一种有效手段。自1986年首个植物叶绿体基因组——烟草叶绿体基因组测序完成,研究者对植物叶绿体基因组的关注逐渐升温[4]。截至目前,GenBank数据库已经收录了包括陆地植物,海洋植物在内的2 470种植物的叶绿体基因组信息。然而,益母草属植物叶绿体基因组信息尚且无人提供,这在一定程度上阻碍了该属植物的精准鉴定。本研究以益母草为研究对象,通过对其叶绿体基因组的组装和分析,探讨益母草叶绿体基因组的结构信息,旨在为益母草种质资源的开发和利用提供科学依据,同时也为今后益母草属植物的系统进化关系和植物分类学研究提供具有参考意义的线索。

1 材料与方法

1.1 DNA提取和建库测序

益母草新鲜叶片采自中国医学科学院药用植物研究所药用植物园。经中国医学科学院药用植物研究所张昭研究员鉴定为益母草(Leonurusartemisia(Lour.)S.Y.Hu)。利用植物DNA提取试剂盒(TIANGEN,北京)提取益母草新鲜叶片总DNA。利用琼脂糖凝胶,NanoDrop2000微量分光光度计(Thermo Scientific,美国)和Qubit 3.0检测总DNA的浓度和质量,各项检测指标满足测序要求后,最终交由测序公司完成测序。采用Illumina Miseq PE300双末端测序策略进行建库测序,测序所得数据量为5.8 G。

1.2 叶绿体基因组组装与注释

首先,以GenBank数据库下载的的1 688条叶绿体基因组作为参考序列。利用BLASTN程序,设置阈值E-value为1e-5筛选出与参考序列相似的reads,并用SPAdes (v3.10.1)软件进行组装。然后使用Python脚本对第一轮组装结果进行延伸,从而完成完整叶绿体基因组序列的组装。为了验证序列组装的正确性,应用Bowtie 2(v2.0.1)13软件将原始reads映射(mapping)到益母草叶绿体基因组序列上来检测叶绿体基因组序列覆盖度和各contig连接处的正确性。最后,通过Cpgavas软件实现叶绿体基因组的自动注释,并通过Apollo软件手工调整、校正基因边界位置[5-6]。在完成益母草叶绿体基因组的注释与校正之后,利用sequin软件提交益母草叶绿体基因组数据至GeneBank数据库(注册号:MG673937)。最终,基于OrganellarGenomeDRAW软件实现益母草叶绿体基因组的可视化[7]。

1.3 叶绿体基因组序列特征分析

利用TRF 4.04(http://tandem.bu.edu/trf/trf.html)软件预测串联重复序列,参数采用软件默认参数;基于MISA软件(http://pgrc.ipk-gatersleben.de/misa/)检测叶绿体基因组简单重复序列(simple sequence repeats, SSR),参数设置为:1)1-8、2-4、3-4、4-3、5-3和6-3,即1个碱基重复≥8次、2/3个碱基重复≥4次、4/5/6个碱基重复≥3次;2)2个SSR之间的最小距离设置为100 bp,若距离小于100 bp,则2个SSRs序列组成一个复合微卫星。最终,利用EMBOSS软件包中的的Cusp和Compseq程序分析益母草叶绿体基因组密码子相对使用度和GC含量分布情况。

1.4 系统进化分析

为了确定益母草的系统发育关系,本研究基于APG IV系统选择了17种被子植物的完整叶绿体基因组序列,以烟草和拟南芥为外类群,利用65个共有蛋白序列构建最大似然(maximum-likelihood, ML)系统发育树。通过ClustalW软件完成多重序列比对[8],利用Raxmal软件构建ML系统进化树。参数设置如下:“raxmlHPC-PTHREADS-SSE3 -f a -N 1000 -m PROTGAMMACPREV/GTRGAMMA -x 551314260 -p 551314260 -o Buxus_microphylla, Pachysandra_terminalis -T 20”。

2 结果与分析

2.1 益母草叶绿体基因组序列特征

益母草叶绿体基因组为典型的的环状双链分子。总长度为151 610 bp,呈典型的四分状结构,包括一对反向重复区(inverted repeat,IR)、一个大单拷贝区(large single copy region,LSC)和一个小单拷贝区(small single copy region,SSC),其长度分别为25 634 bp、82 827 bp和17 515 bp。益母草叶绿体基因组的整体GC含量为38.41%,低于IR区的GC含量(43.37%)但高于SSC区(32.23%)和LSC区(36.65%),这主要是由于IR区存在4个高GC含量的rRNA基因造成的[9]。蛋白编码序列包含了27 013种密码子,其中使用频率最高的为亮氨酸密码子,使用频率高达2 894(10.71%)次。与之相反,半胱氨酸密码子的使用频率最低,其使用频率为310次(1.15%)。密码子的第一位,第二位和第三位的A/T含量分别为59.71%、60.66%、和62.69%。与其他大多数陆地植物中观察到的现象相一致,密码子第三位的A/T含量偏高[10]。

表1 益母草叶绿体基因组碱基组成

图1 益母草叶绿体基因组环形基因图注:内侧基因顺时针转录;外侧基因逆时针转录;不同功能的基因以不同颜色表示

2.2 益母草叶绿体基因组中的基因归类

益母草叶绿体基因组共编码基因134个,去除重复基因后共有115个基因。其中83个基因编码蛋白,28个基因编码tRNAs,4个基因编码rRNAs。位于IR区的基因包括7个(rpl2, rpl23, ycf2, ycf15, ndhB, rps7, rps12)蛋白编码基因、7个tRNA基因和所有的4个rRNA基因。益母草叶绿体基因组中共有20个基因含有内含子,包括13个蛋白编码基因和7个tRNA基因。其中,clpP和ycf3基因分别含有2个内含子。此外,在益母草叶绿体基因组中,蛋白编码序列、tRNAs序列和rRNAs序列分别占整个基因组序列长度的53.65%、6.84%和6.19%。而其他33.32%的序列,为包括内含子、基因间区和假基因在内的非编码序列。

表2 益母草叶绿体基因组编码的基因

注:括号中的数字代表基因重复的次数,CDS代表编码序列

表3 益母草基因组中包含内含子基因及内含子、外显子长度

注:括号中数字代表基因重复的次数

2.3 益母草叶绿体基因组重复序列分析

在益母草叶绿体基因组中共预测到49个串联重复序列(tandem repeat sequences),包括19个正向重复、24个回文重复、5个反向重复和一个互补重复。串联重复序列长度均在18~41 bp之间,占叶绿体基因组序列的0.77%。在49个重复序列中,33个分布在基因间区,14个位于基因编码区,另外2个在内含子区。此外,益母草叶绿体基因组中共含有166个简单重复序列(SSR),包括122个单核苷酸重复,35个双核苷酸重复,3个三核苷酸重复和6个四核苷酸重复。在单核苷酸重复中,约96% (117)的重复是由T/A碱基重复组成的。该研究结果与既往文献报道的SSRs通常由polyA或者polyT重复组成而很少包含G或C重复是一致的[11]。同时,研究结果也表明SSRs在益母草叶绿体基因组上的分布是不均匀的,LSC区段含有110个SSRs,而SSC区段和IR区段分别仅有30个和26个SSRs。该研究得到的重复序列将为分子标记开发和种群进化研究提供具有参考意义的线索。

表4 益母草叶绿体基因组中的重复序列

续表4

注:P:回文重复,F:正向重复,R:反向重复。IGS:基因间区,CDS:RNA或蛋白编码序列

表5 不同类型SSR在益母草叶绿体基因组中的出现次数

2.4 益母草叶绿体基因组系统发育分析

叶绿体基因组数据为植物进化、分类和系统发育研究提供了丰富的数据基础。在过去的几十年里,完整的叶绿体基因组及其蛋白编码基因已经被用于揭示任何分类级别系统进化关系[12]。在本研究中,笔者为了确定益母草在野芝麻亚科中的进化位置,利用15个野芝麻亚科和2个外类群物种的65个共有蛋白序列构建ML系统进化树。结果表明,益母草和水苏属的亲缘关系较近,在所有15个节点中有11个支持率为100%。进化树的高支持率表明叶绿体基因组可以有效的解决该科的系统进化关系。

图2 利用17个物种的65个共有蛋白序列构建的分子进化树

3 结论

本研究基于二代测序技术首次获得了益母草属第一个完整的叶绿体基因组。并在此基础上,对益母草叶绿体基因组的结构进行了系统的分析。最终基于既往文献报道的14种野芝麻亚科植物的叶绿体基因组信息探讨了益母草的系统发育关系。研究结果表明,益母草叶绿体基因组的结构和基因组成具有高度的保守性,不存在类似豆科、桔梗科等科属IR区缺失、收缩或扩张的现象[13-14]。通过系统发育关系分析,本研究确定了益母草在野芝麻亚科中的系统进化位置,结果表明益母草属与水苏属进化关系比较近。益母草作为临床常用中药,具有重要的药用和经济价值。通过对其叶绿体基因组的测序和分析,不仅为益母草属进化关系和物种鉴定提供数据基础,同时也为唇形科系统进化关系和植物分类学研究提供了重要的参考信息。

猜你喜欢
益母草叶绿体基因组
“植物界大熊猫”完整基因组图谱首次发布
益母草中的1个新二萜苷
牛参考基因组中发现被忽视基因
益母草的毒副作用
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
共生
人不吃饭行吗
益母草到底能治疗哪些妇科病?
5种干燥方法对益母草质量的影响