苏丹丹 刘玉萍 刘 涛 郑长远 张 雨 王亚男 秦 娜 苏 旭,3*
(1. 青海师范大学生命科学学院,西宁 810008;2. 青海师范大学青海省青藏高原药用动植物资源重点实验室,西宁 810008;3. 高原科学与可持续发展研究院,西宁 810016)
叶绿体普遍存在于高等植物细胞中,是光合作用的主要场所,也是一种半自主性细胞器,拥有自身独立的遗传物质,即叶绿体基因组。叶绿体基因组编码与光合作用相关的上百种基因,大小介于120~180 kB,一般为共价闭合的环状四组分结构。典型的环状叶绿体基因组结构包括长单拷贝区(large single copy,LSC)、短单拷贝区(small single copy,SSC)及2 个反向重复序列(inverted re⁃peats,IRS)。研究表明,叶绿体基因组在物种分类、系统发育、遗传多样性、物种形成、适应性进化等诸多研究中具有重要作用。随着高通量测序技术的发展、组装软件的推陈出新和测序成本的降低,NCBI上叶绿体基因组的数量也在逐年增加。目前,大量豆科植物的叶绿体基因组得到研究报道,并且主要集中在蝶形花亚科(Papilionoideae)植物中,如木豆()、苦豆子()、沙冬青()、瓜儿豆()、虫豆()等。该亚科植物的叶绿体基因组发生了较大变异,如IR 区缺失、基因组倒置、内含子丢失等。
苦马豆()是豆科(Fabace⁃ae)、蝶形花亚科苦马豆属()的一种多年生草本植物,也是我国特有种。苦马豆主要分布于中国吉林、辽宁、内蒙古、河北、山西、陕西、宁夏、甘肃、青海和新疆等地;全草入药,具有利尿、止血、消肿等药用价值,对治疗肾炎、肝硬化、慢性肝炎、浮肿等有较好疗效。近年来,许多学者对苦马豆的外部形态特征、化学成分、内生微生物、病理和药理作用等进行大量研究,然而有关苦马豆叶绿体基因组结构和特征分析的研究未见报道。据此,本文利用高通量测序技术文对苦马豆的叶绿体基因组进行测序,并对其密码子偏好性、SSR 位点、系统亲缘关系等分析,以期为今后苦马豆群体遗传多样性、种群历史动态乃至豆科植物系统发育与亲缘关系研究奠定基础。
苦马豆新鲜叶片采自青海省格尔木市乌图美仁乡幸福村(36°47′24″N,93°39′36″E,海拔2 702 m),野外采摘后立即放置于变性硅胶中干燥,凭证标本保存于中国科学院西北高原生物研究所青藏高原生物标本馆(HNWP)。
采用改良的CTAB 法从硅胶干燥的苦马豆叶片中提取基因组DNA,用1%的琼脂糖凝胶电泳分析DNA 的纯度和完整性、Nanodrop 检测DNA 的纯度(OD/OD比值)以及Qubit 2.0 荧光定量仪检测DNA的浓度。
DNA 样品检测合格后,利用Covaris 超声波破碎仪随机打断,经序列末端修复、加A尾、加测序接头、纯化、PCR扩增等完成整个文库制备;建好的文库质检后,使用Illumina 高通量测序平台NovaSeq 6000(天津诺和致源科技有限公司)进行测序。
在NCBI 上下载苦豆子叶绿体基因组序列(Genbank 登录号:NC036102.1)为参考序列,采用NOVOPlasty软件对苦马豆叶绿体基因组进行组装,参数采用默认设置;序列注释前首先进行BLAST比对确认基因边界,然后利用软件GeSeq对叶绿体基因组进行注释,采用默认参数;注释完成后,采用在线工具OGDRAW(http://ogdraw.mpimp-golm.mgp.de/cgi-bin/ogdraw.pl)对苦马豆叶绿体基因组图谱绘制。
运 用CodonW1.4.2 软 件(http://mobyle.pas⁃teur/fr/cgi-bin/portal.py?from=codonw)对苦马豆叶绿体基因组的密码子偏好性RSCU(relative synon⁃ymous codon usage)进行统计分析;采用在线网站(https://webblast. ipk-gatersleben. de/misa/index.php?action=1)对苦马豆叶绿体基因组序列进行微卫星扫描分析,设置参数单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的重复数分别为10、5、4、4、4和4。
在 NCBI 数 据 库 中 下 载 骆 驼 刺(MW349013.1)、苦 豆 子(NC036102.1)、苦 参(MH748034.1)、沙 冬 青(MK704436.1)、木 豆(KU729879.1)等21 个豆科、不同属植物的叶绿体基因组序列,同时以远志科(Polygalaceae)远志(,NC050829.1)作为外类群,将所有参试物种的叶绿体基因组序列选择MAFFT进行多序列比对,并将比对后的序列进行手动校正,使用PhyloSuite 软件中的RAxML 构建系统发育树,bootstrap值设为1000。
苦马豆叶绿体基因组全长为123 327 bp,GC含量为34%,与大多数蝶形花亚科植物相似,存在IR 序列丢失现象(见图1)。苦马豆叶绿体基因组共编码108个基因,包括74个蛋白编码基因、30个tRNA 基因和4 个rRNA 基因(见表1)。根据不同功能可以将苦马豆叶绿体基因组划分为3大类,即基因表达相关基因57 个、光合作用相关基因44个、开放阅读和其它蛋白编码基因5个以及未知功能基因2 个;同时,基因表达相关基因又可再被划分为6个小类,其中数量最多的基因为转运RNA基因,翻译起始因子数量最少、仅有1个(见表1)。
图1 苦马豆叶绿体基因组环形图谱Fig.1 Circularized map of the chloroplast genome of S.salsula
表1 苦马豆叶绿体基因组注释信息Table 1 Gene annotation of the chloroplast genome of S.salsula
通过对苦马豆叶绿体基因组密码子研究表明,苦马豆共检测出411 09 个密码子。其中,编码亮氨酸(Leu)的密码子4 184 个,占总密码子数的10.18%,数量最多;色氨酸(Trp)密码子的使用频率最低,仅为1.23%;异亮氨酸Ile(9.24%)和丝氨酸Ser(9.34%)介于前两者之间(见图2)。相对同义密码子(RSCU)大于1的有31个,其中有28个密码子的碱基构成以A/U结尾,其余3个以G和C结尾。
图2 苦马豆各氨基酸的RSCU分析Fig.2 RSCU analysis of each amino acid in S.salsula
从苦马豆叶绿体基因组中共鉴定出3 种不同类型的99 个SSR 位点(见表2)。其中,单核苷酸重复序列最多,共75 个,仅有A(37SSRs)和T(38SSRs)2种重复类型;AT/TA/TC组成的2种二核苷酸类型共17 个;三核苷酸重复序列最少,仅有7个(见表2)。非编码区包括内含子(Intron)和基因间隔区(intergenic spacer,IGS),绝大多数SSR 分布于非编码区(见表3)。
表2 苦马豆叶绿体基因组简单重复序列(SSR)信息Table 2 Number of SSRs identified in the chloroplast ge‐nome of S.salsula
表3 苦马豆叶绿体基因组SSR信息Table 3 Distribution of SSR in the chloroplast genome of S.salsula
续表3 Continued table 3
基于苦马豆及其近缘种叶绿体基因组数据构建的系统发育树表明,豆科21 个物种构成一个单系类群,靴带支持率(bootstrap)高达100%(见图3)。进一步分析显示,豆科植物又可划分为两大类群(Clade Ⅰ和Clade Ⅱ),同样得到100%的支持率;其中Clade I 由苦马豆、骆驼刺()、湖 北 紫 荆()、鞍 叶 羊 蹄 甲()、红花羊 蹄甲()、缅茄()和梭梭()物种组成,且苦马豆与姊妹种骆驼刺关系最近;Clade Ⅱ由苦豆子、苦参、沙冬青、美丽相思子()、刀豆()、鼎湖鱼藤()、瓜儿豆、木豆、虫豆、长角豆()、链荚豆()、单节假木豆()、美国土圞儿()、距瓣豆()、落花生()物种组成(见图3)。
图3 基于22个叶绿体基因组构建的豆科系统发育树“★”代表分支节点的靴带支持率为100%Fig.3 Phylogenetic tree constructed based on data of 22 chloroplast genomes“★”represents the bootstrap support rate of 100%on the branch
叶绿体是高等绿色植物最重要的细胞器之一,也是光合作用的场所,拥有独立完整的基因组,绝大多数植物为单亲遗传。近年来,随着测序技术的提高及测序成本的降低,植物叶绿体基因组数据库越来越完善。研究表明,被子植物叶绿体基因组长度通常介于120~180 kB,编码基因常为100~130 个,其中蛋白编码基因至多80 个、tRNA 编码基因30~32 个,rRNA 编码基因数稳定,常有4种。本研究发现,苦马豆叶绿体基因组在基因种类、组成和结构上具有高度保守性,与绝大多数豆科物种基本一致;同时,依据基因功能不同叶绿体基因组可被划分为基因表达相关基因、光合作用相关基因及其他未知功能基因。苦马豆叶绿体基因组大小、编码基因数目和种类等与上述研究结果一致。通常情况下,被子植物的叶绿体基因组为双链环状DNA 分子,由LSC、SSC 和2 个IRs 构成。然而,研究发现蝶形花科95 种植物中,有24个物种存在IR区丢失,认为IR序列丢失是蝶形花亚科植物叶绿体基因组结构缺失的一种常见现象。苦马豆作为蝶形花亚科的一种重要旱生植物,我们同样发现其叶绿体基因组也存在IR 区丢失现象,进一步验证了先前研究的正确性和合理性。
在许多植物中,存在某一或几种特定密码子频率高于其他同义密码子(RSCU)的现象,即密码子偏好性。密码子偏好性在一定程度上能够反映基因乃至物种的起源和进化方式,并对基因功能及其编码蛋白表达有一定影响。本文通过对苦马豆叶绿体基因组密码子偏好性分析表明,大于1的相对同义密码子有31 个,其中28 个密码子的碱基构成以A/T结尾,与大多数被子植物同义密码子相似。简单重复序列(SSR)是整个基因组中1~6 bp 的重复序列,也是高等真核生物基因组的重要组成部分,在植物物种鉴定、群体遗传多态性和遗传分析研究中具有重要作用。本研究表明,苦马豆叶绿体基因组中检测到75 个单核苷酸、17个双核苷酸和7 个三核苷酸SSRs。其中,双核苷酸SSRs的重复单元以AT/TA/TC为主,而三核苷酸SSRs的重复单元则由AAT/ATA/TAA/TTA 构成,这与先前报道的其他被子植物叶绿体基因组的SSRs序列构成一致,从而验证了叶绿体基因组的SSRs 主要由短的poly A 和poly T 构成,而不是由C或G 串联重复。叶绿体基因组数据能有效进行植物物种鉴定和系统亲缘关系分析。尤其在近缘物种间具有更理想的效果。本文基于叶绿体基因组序列通过对豆科21 个物种系统发育树的构建,发现豆科植物是一个单系类群且靴带支持率高达100%;苦马豆与骆驼刺属于姊妹群,具有最近的亲缘关系,并且BV 值为100%,这为以后苦马豆豆系统位置和亲缘关系确定,遗传多样性分析和群体遗传结构研究提供了基础数据。