朱斌 甘晨晨 王洪程
(贵州师范大学生命科学学院,贵阳 550001)
球花石斛(Dendrobium thyrsiflorum)为兰科(Orchidaceae)石斛属(Dendrobium)植物,主要分布在我国云南地区,以及亚洲中南半岛的部分国家[1],因其花序呈“松果状”而得名。研究证实球花石斛药用价值很高,具有抗凝血、降血压、缓解多种慢性疾病等功效[2-3],其药用成分主要为香豆素、黄酮、联苄类等化合物[2]。此外,球花石斛花型优美,花期较长,色彩艳丽,也被用作庭院、室内造景。近年来,由于石斛市场的需求膨胀,导致野生球花石斛资源急剧减少,其遗传多样性的保护亟需加强,而且,球花石斛在石斛属内的分类地位亦不明晰。目前,关于球花石斛的研究多为药理成分的发掘,提取工艺的优化,鲜有涉及球花石斛基因组或者细胞质基因组的研究。
高等植物中,叶绿体(chloroplast,CP)拥有独立遗传的遗传物质,即叶绿体基因组。与核基因组相比,叶绿体基因组(chloroplast genome)依赖于母系遗传,在基因组成及基因排列方面较为保守[5]。大多数植物的叶绿体基因组呈现典型的四分结构,大小在120 kb-160 kb之间,包含110-130个基因[6]。此外,叶绿体基因组的碱基替代率、基因组结构重排事件要远低于核基因组,使得叶绿体基因组成为探究物种遗传进化、谱系关系的理想工具[7-9]。特别是近些年,随着测序技术的发展,测序成本大幅度降低,越来越多的植物细胞质基因组被解析出来。目前在公共数据库National Center for Biotechnology Information(https://www.ncbi.nlm.nih.gov/,NCBI)中,可查询到的石斛叶绿体基因组已达数十个,但相关研究多数以短报道为主,有关石斛叶绿体基因组特征的系统研究较少。
本研究整合二代、三代测序数据,从头组装(de novo)了球花石斛的完整叶绿体基因组,并详细解析了该叶绿体基因组的特征,随后基于共有编码基因序列(CDs)对石斛进行系统进化分析,将所选石斛种类分为9大类群,并证实球花石斛与霍山石斛亲缘关系最为密切。本研究结果阐明了球花石斛的叶绿体基因组特征,有望为其资源筛选、鉴定以及遗传多样性分析提供分子依据。
球花石斛采自于云南省普洱市景东彝族自治县(100°22′12′′ E,23°56′26′′ N),随后种植于贵州师范大学生命科学学院温光培养室。
1.2.1 叶绿体DNA提取 大约5 g的幼嫩叶片用于DNA的提取。为减少核DNA的污染,采用柱式叶绿体提取试剂盒(北京百奥莱博)进行叶绿体DNA的提取。所提DNA经琼脂糖凝胶检测合格后,用干冰寄送于上海林恩生物有限公司进行建库及测序分析。
1.2.2 文库的构建及基因组组装 二代测序主要采用Illumina TruSeqTMNano DNA Sample Prep Kit方法构建文库,文库的DNA插入片段大约为450 bp,采用Illumina HiSeq X Ten平台进行测序;三代测序采用PacBio RS II DNA Template Preparation Kit方法构建文库,文库的DNA插入片段大约为20 kb,采用PacBio Sequel测序平台进行测序。
Illumina平台产生的是150 bp的双端reads,随后过滤测序质量值低的reads,并去除接头,获得高质量的clean data。随后clean data比对到近缘物种齿瓣石斛(D.devonianum)的叶绿体基因组(NC_035325),筛选出叶绿体基因组相关reads。随后以软件SOAP denovo v2.04(http://soap.genomics.org.cn/soapdenovo.html)将上述reads拼接成scaffolds,K-mer值为51。筛选长度不低于500 bp及质量不低于0.8的三代reads(PacBio subreads),随后通过PacBioToCA软件基于二代clean reads对过滤后的三代reads进行修正,去除单碱基的插入及缺失,软件参数为默认参数[10]。最后通过修正后的三代 reads以软件 PBjelly[11](https://sourceforge.net/projects/pb-jelly/)完成scaffolds的间隔序列拼接。此外,采用人工比对近缘物种更正组装出现的移码突变错误。
1.2.3 叶绿体基因组注释 球花石斛的叶绿体基因组编码基因及非编码基因通过软件Dual Organellar GenoMe Annotator[12](DOGMA,http ://dogma.ccbb.utexas.edu/)完成注释,参数设置为默认。其中编码基因的内含子与外显子的边界序列通过人工进行修正,而tRNA 通过软件tRNAscan-SE 1.23(http://lowelab.ucsc.edu/tRNAscan-SE/)进行检验。最终通过软件OGDraw v1.2绘制完整的叶绿体基因组。球花石斛的完整叶绿体基因组数据上传GenBank数据库,访问号为MN413199。
1.2.4 SSR位点及密码子偏好性检测 采用MISA软 件(https://webblast.ipk-gatersleben.de/misa/)检测球花石斛叶绿体基因组的SSR(simple sequence repeat)位点,参数设置为单碱基重复10以上,二碱基重复5以上,三碱基重复4以上,四碱基、五碱基、六碱基的重复3以上。球花石斛叶绿体基因组编码基因密码子偏好性分析,使用软件CodonW1.4.2(https://www.softpedia.com/get/Science-CAD/CodonW.shtml),参数设置为默认。
1.2.5 叶绿体基因组比较 为了深入比较石斛属植物叶绿体组的差异,基于系统发育结果,从不同类群中选取5个有代表性的石斛叶绿体基因组与球花石斛基因组进行比较,主要比较所含基因的增减,边界序列的差异,其中边界序列的差异通过软件IRscope(https://irscope.shinyapps.io/irapp/)进行可视化,数据来源为GenBank。
1.2.6 基于叶绿体基因组的系统发育分析 为探究球花石斛与其它石斛属植物的亲缘关系,从NCBI数据库中下载了26种石斛(表1)的叶绿体基因组,提取共有基因的CDS序列,以MEGA7软件构建进化树,使用的建树方法为最大似然法(maximum likelihood),基于Tamura-Nei 模型建树,同时设置1000次重复保证进化树的稳定性。
通过高通量测序,我们共获得了31 967 786个二代测序reads,以及12 144个平均读长为4 874 bp的三代reads。质控之后,有效的二代、三代reads数分别为25 713 108、12 144。随后基于这些数据从头组装了球花石斛的叶绿体基因组。球花石斛的叶绿体基因组全长为151 686 bp,呈典型的四分结构,其长编码区(LSC)长84 749 bp,短编码区(SSC)长14 351 bp,反向重复区(IR)长26 293 bp。其中IR区序列的GC含量最高(43.43%),SSC区的GC含量最低(30.44%),全基因组的平均GC含量为37.55%。该叶绿体基因组一共组装了106个unigenes,其中编码基因为71个,tRNA为31个,rRNA为4个。所组装的基因中位于LSC区的基因有78个,SSC区的基因有8个,IR区的基因有18个(图1)。共有19个基因为双拷贝基因,包含6个蛋白编码基因、9个tRNA及4个rRNA(表1)。
在所组装的基因中含有一个内含子序列的基因有14个,含有两个内含子序列的基因3个,其余基因均不含内含子序列。随后对组装的基因进行注释,所有基因均注释到基因功能(表2),其中37个基因参与了光合作用的各个途径,所有的非编码基因,以及大多数的rpl、rps基因参与了叶绿体的自我复制,此外,ycf类基因并未注释到具体功能,通常认为该类基因具有较快的进化速率,推动了基因组的分化[13]。
表1 球花石斛叶绿体基因组的详细特征Table 1 Detail chracteristics of the complete cp genome of D.thyrsiflorum
通过MISA软件,在球花石斛叶绿体基因组中检测到17种类型的共58个SSR位点,其中包含复合4个SSR(两个SSR序列间距小于100 bp)位点(表3)。在这些SSR位点中,最为丰富的是单碱基重复,有4种类型共35(60.34%)个SSR位点,以A/T类型为主;其次两碱基重复有3种类型(AT/TA/GA)12(20.69%)个;三碱基重复为两种类型(TAT/ATA)2个;而四碱基重复含5种类型(AGAA/AGAT/ATTA/TTCT/GTCT)6个;五碱基(ATATG)、六碱基(CCATCT)各1个。最长的SSR序列为六碱基重复,大小为18 bp。
图1 球花石斛叶绿体基因组基因分布图Fig.1 Genes distribution of D.thyrsiflorum cp genome
通过密码子偏好性分析发现,球花石斛的叶绿体基因组编码序列共编码23 747个氨基酸(含终止密码子)(表4),其中使用比例最高的是亮氨酸(Leu),共检测到2 410(10.15%)个,其次为异亮氨酸(Ile),共检测到1 959(8.25%)个;使用频率最低的为半胱氨酸(Cys),数目仅为279(1.17%)个。随后我们检测了编码各氨基酸的密码子相对使用频率(relative synonymous codon usage,RSCU),在64种密码子种,偏好性密码子(RSCU>1)有31(48.44%)个。偏好使用的密码子中,除编码亮氨酸的密码子UUG外,其余均以A/U结尾。偏好性最强的密码子为编码精氨酸(Arg)的AGA,RSCU值为1.94。
为了深入比较不同种石斛的叶绿体基因组差异,基于聚类结果选取了来自不同类群的5个叶绿体基因组与球花石斛叶绿体基因组进行比较(图3,表5)。这5个石斛物种分别为矮石斛(D.bellatulum)、玫瑰石斛(D.crepidatum)、齿瓣石斛(D.devonianum)、反瓣石斛(D.ellipsophyllum)以及霍山石斛(D.huoshanense)。如表5所示,所选6种石斛的叶绿体基因组大小相似,差异范围仅在1.5 kb以内(151 686-153 188 bp),但在部分基因组在四分结构上差异明显。例如,玫瑰石斛的LSC区要超出其它基因组近30 kb,而IR区仅有其它基因组的一半大小。此外,6种石斛的基因含量也不尽相同,相较于其它5个基因组,球花石斛叶绿体基因组没有注释到基因ndhD、ndhE、ndhF、ndhG、ndhH、及psbN,但球花石斛所注释基因增加bpf1。相较于玫瑰石斛、齿瓣石斛、及反瓣石斛,其它3个石斛叶绿体基因组减少了一个ycf1的拷贝。
表2 球花石斛叶绿体基因组基因功能总结Table 2 Summary of assembled gene functions of D.thyrsiflorum cp genome
表3 球花石斛叶绿体基因组SSR位点类型及数目Table 3 Summary of simple sequence repeats in D.thyrsiflorum cp genome
为进一步解析所选石斛的叶绿体基因组结构差异,比较了这6个种的边界区域(图2)。整体而言,所选6种石斛叶绿体基因组的边界序列均不保守,出现了不同程度的变异,其中以IRb/SSC、IRa/LSC区域变异幅度较大。例如,对于IRb/SSC区,玫瑰石斛、齿瓣石斛、反瓣石斛的IRb/SSC区均位于基因ycf1和ndhF之间,而矮石斛及霍山石斛的IRb/SSC区仅存在其中一个基因,球花石斛的IRb/SSC区两个基因均消失。6种石斛叶绿体基因组中SSC/IRa区最为保守,除霍山石斛外(ndhF横跨区间),均为基因ycf1横跨区间两侧,且仅有数个碱基的差异。
在所选的27个石斛叶绿体中,提取了60个共有CDs序列,用以构建石斛的亲缘关系。如图3所示,27个石斛材料共形成了24个分支,支持率超过50%的有23个分支,其中球花石斛与霍山石斛聚为一类(100%),证实两者亲缘关系最为紧密。根据聚类结果,可以将所选石斛种类归为9个大类,其中球花石斛、霍山石斛、梵净山石斛(D.fanjingshanense)、细茎石斛(D.moniliforme)、金钗石斛(D.nobile)及重唇石斛(D.hercoglossum)构成了第一大类(I)。此外叠鞘石斛(D.denneanum)及流苏石斛(D.fimbriatum)与其它石斛亲缘关系较远,形成了外类群体(IX)。
不论是核基因组还是叶绿体基因组均富含SSR位点[4],而SSR位点可被用于遗传多样性分析,物种鉴别,连锁作图,及分子标记辅助选择育种等方面[14-15]。我们在球花石斛叶绿体基因组中共检测到58个SSR位点,与细茎石斛[16]检测到的SSR位点(53个SSR位点)数目相当,且A/T单碱基均占优;然而,除单碱基、二碱基重复外,两者在其余碱基重复的类型及数目上均有较大差异,例如在细茎石斛中检测到的三碱基重复类型为AAT/ATT,而在球花石斛中为TAT/ATA,且细茎石斛中并未有六碱基重复的SSR类型,证实石斛种间叶绿体基因组的SSR多态性广泛,基于叶绿体SSR位点开发的标记可用作种类的鉴别。
通常来讲,同属(科)植物的叶绿体基因组高度保守[9,17]。然而,我们通过对选取的6种石斛叶绿体基因组进行比较,发现这6种石斛叶绿体基因组除基因组全长外,在四分结构、基因构成、及边界序列上均存在明显的差异。例如,玫瑰石斛具有一个较长的LSC区及缩小版的IR区;球花石斛相较于其他5种石斛,缺失了基因ndhD、ndhE、ndhF、ndhG、ndhH、及psbN,增加了基因bpf1。研究认为叶绿体基因组边界区域的变异是导致叶绿体基因组结构变异的主要驱动力[18]。在所选的6种石斛中,其边界区域存在明显的差异,即使是通常认为比较保守的SSC/IRa区域,在所选石斛中也出现明显的差异。种种迹象表明,石斛植物可能并非是单一起源。
表4 球花石斛叶绿体基因组密码子使用及氨基酸类型统计Table.4 Summary of codon usage and amino acids patterns of D.thyrsiflorum cp genome
续表 Continued
表5 六种石斛叶绿体基因组特征比较Table 5 Comparison of six chloroplast genomes of Dendrobium species
石斛属植物分布约1 500种,我国分布近80种[19],部分石斛在种间表型相似,生境相同,同时可发生种间杂交[20],使得其亲缘关系复杂,难以鉴别。由于叶绿体基因组为母系传递,碱基替代率,基因组结构重排事件要远低于核基因组,使得叶绿体基因组成为了探究物种遗传进化、谱系关系的理想工具[7-9]。随着测序成本的降低,越来越多的石斛叶绿体基因组被获得,这也使得基于叶绿体基因组探究石斛亲缘关系成为可能。本研究基于27种石斛叶绿体基因组的共有CDs序列将所选石斛分为9大类,其中球花石斛与霍山石斛、梵净山石斛、细茎石斛、金钗石斛及重唇石斛聚为一大类。该结果与武立伟等[18]在细茎石斛中的研究结果一致,证实了叶绿体基因组在解析石斛亲缘关系上的可靠性。
图2 六个石斛叶绿体基因组边界序列及接头附近基因的分析Fig.2 Analysis of the boundaries of LSC/SSC/IR and adjacent genes among six Dendrobium cp genomes
图3 基于叶绿体基因组共有CDs序列的27个石斛亲缘关系聚类图Fig.3 Phylogenetic analysis of 27 Dendrobium species based on the common CDs of selected cp genomes
球花石斛叶绿体基因组全长151 686 bp,包含106个unigenes,共检测到58个SSR位点,以单碱基重复A/T类型为主。密码子偏好性分析显示,亮氨酸为使用频率最高的氨基酸(10.15%),具有偏好性的密码子有31个,且绝大多数偏好性密码子均以A/U结尾。系统进化分析结果显示,将所选石斛分为9大类群,其中球花石斛与霍山石斛亲缘关系密切。本研究的结果为今后石斛资源筛选、鉴定、保存,及遗传多样性分析提供了分子依据。