杜致辉 杨澜 张朝君 许红娟 陈之林
摘 要:本研究结合Illumina高通量测序和Nanopore测序技术,对黑喉石斛(Dendrobium ochreatum)的叶绿体基因组(cpDNA)进行测序,组装得到其cpDNA全长序列并绘制结构图谱。黑喉石斛cpDNA全长154 935 bp,注释共得到125个基因,其中有unigenes 103种,包含73种蛋白编码基因,26种tRNA基因和4种rRNA基因。特征分析结果表明:黑喉石斛cpDNA中共存在58个SSR (simple sequence repeat)位点,大部分为单核苷酸重复和二核苷酸重复类型,碱基组成以A/T碱基类型为主;其偏好的密码子共32个,其中有30个以A/U堿基结尾。以黑喉石斛与其他13种石斛的cpDNA构建系统发育进化树,结果显示,鼓槌石斛(D. chrysotoxum)和梳唇石斛(D. strongylanthum)与黑喉石斛具有较近的亲缘关系,IR/SC边界分析结果也映证了此结论。以黑喉石斛为参照,与3种近缘石斛的cpDNA进行全序列长对比,结果显示,4种石斛的序列变异主要发生在单拷贝区,基因间隔区的变异明显高于基因编码区。
关键词:黑喉石斛;叶绿体基因组;特征;比较分析
中图分类号:S682.31 文献标识码:A
Abstract: In this research, the complete chloroplast genome (cpDNA) of D. ochreatum was sequenced through the combination of high-throughput and nanopore sequencing, and the full-length sequence (154 935 bp) of chloroplast genome (cpDNA) was assembled and annotated. A total of 125 genes (103 unigenes) were annotated in the cpDNA, including 73 protein-coding genes, 26 tRNA genes and 4 rRNA genes. Characteristic analysis showed that the number of SSR sites in the cpDNA of D. ochreatum was 58, most of which were mononucleotide or dinucleotide repeats with A/T base preference. Codon bias analysis showed that there were 32 biased codons and the majority of the biased codons were ended with A/U base. The phylogenetic tree of D. ochreatum and 13 Dendrobium species was constructed using cpDNA sequences. Result indicated that D. chrysotoxum and D. strongylanthum were closely related to D. ochreatum, and the IR/SC junctions analysis of Dendrobium species was consistent with the former. Global alignment of cpDNA of 4 Dendrobium species showed that the sequence variations were mainly concentrated in single copy regions, and varia-tions in the intergenic region were significantly higher than that in the gene coding region.
Keywords: Dendrobium ochreatum; cpDNA; characteristic; comparative analysis
DOI: 10.3969/j.issn.1000-2561.2021.11.009
石斛属(Dendrobium Sw.)为兰科(Orchidaceae)多年生附生草本植物,既是我国的传统中药材,也是名贵的观赏花卉。石斛的幼年期较长,从营养生长到生殖生长转变一般需要3年,受基因型及生长环境条件影响而有所差异。大多石斛只能在2年生老茎上开花,而黑喉石斛(D. ochreatum)成熟植株在当年新长出的嫩茎上就能抽出花序并开花,其开花时间明显早于其他春石斛,是珍贵的育种亲本,也是研究早花石斛开花机理的重要材料[1]。黑喉石斛主要分布于印度阿萨姆邦、孟加拉、尼泊尔、缅甸、泰国、老挝等地区,其野生群体分布范围广,数量少,该物种与其他石斛的亲缘关系和物种进化研究未见报道。
兰科植物多达20 000余种[2],其部分物种的分类与进化研究长期以来存在较大争议[3]。在多数情况下,仅凭形态和解剖学特征分析已经无法满足属间或属内物种分类的需求[4]。有学者利用DNA序列进行物种鉴定和系统进化研究,但是受目标基因的选择与数量等问题的影响,其分析结果往往会存在较大分歧[5-7]。随着测序技术的发展,叶绿体基因组(chloroplast DNA, cpDNA)的全长序列测定与对比分析为植物的物种鉴定和系统进化研究提供了新的参考依据。叶绿体广泛存在于真核自养生物中[8],其拥有独立的基因组即叶绿体基因组。相比于细胞核基因组,叶绿体基因组较小,全长序列更易获得[6];其具有独特的母体遗传特征,不存在基因重组的问题,因而具有较高的保守性和适中的进化速率,被越来越广泛地应用于植物遗传进化与种间、种内多态性鉴定研究[9]。植物叶绿体基因组多为环状DNA双链结构,大小多为115~165 kb,通常包含2个反向重复区(inverted repeats, IRs),由1个大单拷贝区(large single copy, LSC)和1个小单拷贝区(small single copy, SSC)隔开,共4个分区[10]。叶绿体全基因组序列的测定在物种鉴定、分子标记、系统发育和转基因的研究中发挥着重要作用,在物种系统进化及其种间亲缘关系等方面同样有重要价值[11]。
本研究结合二代高通量测序和三代测序技术,获得了黑喉石斛叶绿体基因组的全长序列,对其特征与系统进化进行了分析,并将其序列与近缘物种的叶绿体基因组进行了比较分析,以期为黑喉石斛物种鉴定、遗传育种及分子进化研究提供理论依据。
1 材料与方法
1.1 材料
供试材料为长势良好且无病虫害的黑喉石斛植株,由贵州省园艺研究所保存并提供。
1.2 方法
1.2.1 DNA的提取与质量检测 取黑喉石斛新鲜叶片,使用CTAB法提取其总基因组DNA后,分别通过Nanodrop超微量分光光度计、Qubit荧光计和0.35%琼脂糖凝胶电泳检测黑喉石斛总基因组DNA的纯度、浓度与完整性。
1.2.2 建库与测序 高通量测序参照Illumina公司提供的标准protocol,将检测合格的DNA样品,经超声波机械打断的方式进行片段化处理,片段化的DNA经纯化、末端修复、3'端加A和连接测序接头等处理后,通过1%琼脂糖凝胶电泳选择其350 bp大小的片段进行PCR扩增(NEBNext®Ultra™DNA Library Prep Kit for Illumina®)形成测序文库,然后使用Illumina NovaSeq测序仪对该文库进行双末端测序,reads长度为150 bp。
三代测序实验流程参照Oxford Nanopore Technologies(ONT)公司提供的标准protocol,将检测合格的DNA样品,通过BluePippin全自动核酸回收系统回收其大片段DNA,使用SQK-LSK109连接试剂盒构建其测序文库,经过DNA损伤修复,末端修复,接头连接,磁珠纯化和Qubit文库定量等步骤后使用Nanopore测序仪进行测序。
1.2.3 黑喉石斛cpDNA序列的拼接、组装与注释 使用过滤软件SOAPnuke对测序得到的序列进行低质量数据过滤。使用unicycler软件对过滤后reads进行组装,首先用高准确度的illumina数据(Q30>85%)进行组装,得到高质量的叶绿体基因组骨架(contig),然后用Nanopore数据将高质量contig连接成更长的完整序列。将拼接结果与钩状石斛cpDNA(NCBI登录号:NC038077.1)进行比对,保留匹配且测序深度高于100的序列,最终确定候选序列的连接关系,得到黑喉石斛cpDNA。
通过专门针对叶绿体的注释软件CPGAVAS2对黑喉石斛cpDNA进行注释,并利用OGDRAW软件对注释后的结果绘图分析。
1.2.4 黑喉石斛cpDNA的特征与系统进化分析 采用MISA对黑喉石斛cpDNA叶绿体进行SSR检测,搜索参数设置为:单核苷酸单元重复数至少为10,二核苷酸重复单元数至少为5,三核苷酸单元的重复数至少为4,四、五、六核苷单元的重复数至少为3[12],2个SSR之间的最小距离设置为100 bp,循环排列或反向互补的SSR位点视为同一类型。
通过CodonW对黑喉石斛cpDNA中长度大于300,并且以ATG、TTG、CTG、ATT、ATC、GTG、ATA作为起始密码子,以TGA、TAG、TAA作为终止密码子的基因序列进行密码子偏好性分析,统计估算其相对同义密码子使用频率(relative synonymous codon usage, RSCU)即密码子使用偏好性。
从NCBI上下载铁皮石斛、齿瓣石斛、兜唇石斛等13个物种的cpDNA,使用MAFFT软件(version 7.467)将这些序列与黑喉石斛cpDNA进行多序列比对,然后基于最大似然法的RAXML(randomized axelerated maximum likelihood)软件构建系统进化树。
1.2.5 黑喉石斛cpDNA序列的比较分析 使用IRscope分析黑喉石斛与其他8种石斛的cpDNA结构中四大分区的SC/IR边界扩张收缩情况;通过mVISTA软件以黑喉石斛cpDNA为参照基因组,与其他3种石斛cpDNA进行全长对比分析,同时利用DnaSP分析其核酸变异情况,筛选高变异性位点。
2 结果与分析
2.1 黑喉石斛cpDNA结构与基因注释
黑喉石斛cpDNA全长154 935 bp,GC含量37.38%。結构为典型的环状双链四分体结构(图1),由1个大单拷贝区(LSC,85 124 bp),1个小单拷贝区(SSC,17 417 bp)和2个反向重复区(IR,26 197 bp)组成。4个区段中,GC含量最高的为IR区(43.43%),其次为LSC区(34.98%)。
注释黑喉石斛cpDNA共得到125个基因(LSC区78个,SSC区9个,2个IR区各19个),其中unigenes有103种,包含73种蛋白质编码基因,26种tRNA基因和4种rRNA基因(表1)。有rps19、rpl2、rpl23、ycf2、ycf15、rps7、rps12等7个蛋白质编码基因,trnH-GUG、trnM-CAU、trnL-CAA、trnV-GAC、trnE-UUC、trnA-UGC、trnR-ACG、trnN-GUU等8个tRNA基因和rrn16S、rrn23S、rrn4.5S、rrn5S等4个rRNA基因在IRs区域被重复1次,另有trnE-UUC和trnM-CAU在LSC区分别重复1次和2次。黑喉石斛cpDNA大部分基因无内含子,共有9种蛋白质编码基因(ycf1、rpoC1、atpF、petB、petD、rpl2、rpl16、rps12、rps16)和5种tRNA基因(trnE-UUC、trnA- UGC、trnL-UAA、trnS-CGA、trnV-UAC)含有1个内含子,2种蛋白质编码基因ycf3和clpP含有2个内含子。
2.2 黑喉石斛cpDNA的SSR位点和密码子偏好性分析
分析黑喉石斛cpDNA共找到58个SSR位点,其SSR标记密度0.374个/kb。所有SSR位点中,出现次数最多的为单核苷酸重复位点(表2)。黑喉石斛cpDNA编码序列共编码20 595个氨基酸(含终止密码子在内),其中编码亮氨酸(Leu)的密码子使用频率最高,为2078次(10.09%);其次是异亮氨酸(Ile)和丝氨酸(Ser),分别检测到1667次(8.09%)和1633次(7.93%);使用频率最低的是编码半胱氨酸(Cys)的密码子,仅出现237次(1.15%)。黑喉石斛cpDNA的64种密码子中,RSCU值大于1.00的密码子有32个,其中有30个以A/U碱基结尾,仅有2个以C/G碱基结尾;偏好性最强的密码子AGA,编码精氨酸(Arg),其RSCU值达到1.9(表3)。说明黑喉石斛cpDNA密码子偏好以A/U(T)碱基结尾。
2.3 黑喉石斛cpDNA系统进化分析
使用MAFFT对13种石斛的cpDNA与测序所得黑喉石斛cpDNA全长序列进行多重比对,基于比对结果构建Maximum Likelihood(ML)系统发育树。分析结果表明(图2),黑喉石斛cpDNA与鼓槌石斛和梳唇石斛序列亲缘关系较近,这3种石斛首先聚为一支,1000次检验水平上支持率达到100%;随后又与剑叶石斛聚为一支,支持率93%;然后才与石斛组的流苏石斛、叠鞘石斛和束花石斛聚为一类。
2.4 黑喉石斛cpDNA的SC/IR边界分析
分析黑喉石斛等9种石斛属植物cpDNA四分体结构的SC/IR边界收缩扩张情况,结果表明(图3),石斛属植物的LSC/IRb边界较为保守,基本都位于rpl22基因的编码区内,仅有鼓槌石斛LSC/IRb位于rpl22基因右侧的非编码区;IRb/SSC区边界存在较大分化,大部分石斛的IRb/SSC边界位于ycf1和ndhF基因的重叠区且向后者的编码区内扩张,黑喉石斛、梳唇石斛和鼓槌石斛的IRb/SSC边界左侧的ycf1编码区消失,边界向IRb区域方向扩张,黑喉石斛cpDNA同时出现了ndhF基因缺失现象;除鼓槌石斛外,大部分石斛cpDNA的SSC/IRa区边界皆位于ycf1基因的编码区内;IRa/SSC边界皆位于psbA基因左边的非编码区,黑喉石斛及与其亲缘关系较近的鼓槌石斛和梳唇石斛cpDNA的IRa/SSC不在rpl22基因的编码区内。
2.5 黑喉石斛cpDNA的比较分析
通过mVISTA软件以黑喉石斛cpDNA为参照基因组,与鼓槌石斛、梳唇石斛和束花石斛cpDNA进行全长对比分析,结果见图4,4种石斛cpDNA的编码区较为保守,除ycf类基因外,绝大部分编码序列的相似度皆保持在较高的水平;rRNA类基因所在的IR区,其变异程度明显低于LSC和SSC区;变异主要发生在相邻基因的间隔区内,如matK-rps16、trnF-GAA-ndhK、trns- GCU-trns-CGA等。
同时通过DnaSP6分析上述4种石斛cpDNA的高变异区,结果见图5,4种石斛cpDNA的核酸变异主要集中在LSC和SSC区,IR区大部分序列核酸变异程度处于较低水平,与序列对比分析结果一致;结合vMISTA图谱确定了变异度前3位的间隔区位置,分别为trnS-GCU-trnS-CGA(8531~ 9660 bp),trnF-GAA-ndhK(49 104~50 329 bp)和trnM-CAU-atpE(51 611~51 790 bp)。
3 讨论
通过分析黑喉石斛cpDNA特征发现,其单核苷酸和二核苷酸重复类型的SSR位点存在明显的碱基偏好性,以A/T碱基为主,比例为93.94%和81.75%;密码子偏好性分析结果表明其偏好的密码子有93.75%以A/U(T)碱基结尾。这种偏好性与黑喉石斛cpDNA富含A/T碱基的情况一致,且广泛存在于兰科及其他植物中。Niu等[13]和Mccoy等[14]认为A/T碱基包含的氮原子少于G/C碱基,A/T富集型的碱基突变会消耗更少的能量,而能量消耗上的优势产生了碱基的偏好性。这种碱基水平上的偏好不仅作用于SSR位点的类型和密码子的选择,也与cpDNA各个分区的稳定性存在重要的关联[15]。以黑喉石斛为参照分析4种石斛cpDNA的结构与序列变异性发现,GC含量较高的IR区(43.43%),其序列核苷酸的变异程度明显低于GC含量较高的LSC区(34.98%)和SSC区(30.88%)。
Kim[16]认为叶绿体基因组的IR/SC边界变异是叶绿体基因组结构变异的主要驱动力,IR/SC边界的收缩和扩张在植物cpDNA的演化过程中起重要作用[17-18]。絕大多数兰科植物的IR/LSC边界较为保守,其IR内靠近IR/LSC边界的位置往往会存在一个rpl22或着trnH-rps19基因簇[5, 19]。但IR/SSC边界的差异在不同兰科植物中较为显著,Luo等[5]按照IR/SSC边界的差异将兰科植物分为4类:TypeⅠ/Ⅱ类兰科植物IR/SSC边界分别位于ycf1-ndhF的间隔区或者ndhF的编码区内;TypeⅢ类兰科植物IR/SSC边界左侧的部分ycf1基因编码区变短;TypeⅣ类IR/SSC边界左侧的部分ycf1基因编码区消失,ycf1基因完全位于SSC区域内部。Luo等[5]根据这种分类情况提出假设即兰科植物的cpDNA存在2条演化路线:(1)TypeⅠ类SSC区内的ycf1基因向IRa区方向扩张,导致其在IRb区的部分编码区也向IR/SSC边界移动,并与ndhF基因发生重叠,形成TypeⅡ类;(2)TypeⅠ类的ycf1基因向SSC区内部持续移动,其位于IR/SSC边界的部分编码区越来越短,形成TypeⅢ类,随着ycf1基因完全嵌入SSC区,其位于IR/SSC边界的部分编码区消失,形成TypeⅣ类。从这种理论来看,黑喉石斛、鼓槌石斛和梳唇石斛皆归属于TypeⅣ类,其亲缘关系应当较为接近,与系统发育进化树分析结果一致。此外,黑喉石斛SSC区出现的ndhF基因缺失现象广泛存在于兰科植物内[20],一般认为cpDNA中ndh类基因的缺失是由于该类基因功能退化或者向核基因组发生转移,不会影响植物的生命活动,部分研究者认为真菌共生推动了这种现象的发生[21-22]。
本研究结合二代、三代测序技术,首次获得并报道了黑喉石斛cpDNA的全长序列,对其结构、SSR位点和密码子偏好性等特征进行了系统的分析和阐释。整合系统发育树和IR/SC边界图谱,初步分析了黑喉石斛与其他13种石斛的亲缘关系情况。同时与近缘物种的cpDNA进行了全序列比较分析,筛选高序列变异片段。这些研究结果为黑喉石斛的物种鉴定、标记开发利用、遗传育种及系统进化研究提供了新的参考。
参考文献
[1] 王爱华, 吴青青, 杨 澜, 等. 秋水仙素诱导黑喉石斛多倍体研究[J]. 西南大学学报(自然科学版), 2017, 39(1): 55-60.
[2] Chase M W, Cameron K M, Freudenstein J V. DNA data and Orchidaceae systematics: a new phylogenetic classification [M]. Malaysia: Natural History Publications, 2003: 69-89.
[3] Van Den Berg C, Goldman D H, Freudenstein J V, et al. An overview of the phylogenetic relationships within Epiden-droideae inferred from multiple DNA regions and recircum-scription of Epidendreae and Arethuseae (Orchidaceae)[J]. American Journal of Botany, 2005, 92(4): 613-624.
[4] Freudenstein J V, Rasmussen F N. What does morphology tell us about orchid relationships? a cladistic analysis[J]. American Journal of Botany, 1999, 86(2): 225-248.
[5] Luo J, Hou B W, Niu Z T, et al. Comparative chloroplast genomes of photosynthetic orchids: insights into evolution of the Orchidaceae and development of molecular markers for phylogenetic applications[J]. PloS One, 2014, 9(6): e99016.
[6] 牛志韜. 石斛属植物cpDNA研究及其代表种逆境下光合作用途径探讨[D]. 南京: 南京师范大学, 2017.
[7] 李亚梅, 段瑞军, 李瑞梅, 等. 3个木薯品种的叶绿体基因组16S rRNA-23S rRNA基因间隔序列的特征分析[J]. 热带作物学报, 2012, 33(10): 1772-1777.
[8] 王小柯, 郑乾明, 罗 怿, 等. ‘惠水金橘’的叶绿体基因组特征分析[J]. 果树学报, 2019, 36(3): 257-265.
[9] Zhang X, Zhou T, Kanwal N, et al. Completion of eight Gynostemma BL. (Cucurbitaceae) chloroplast genomes: characterization, comparative analysis, and phylogenetic re-lationships[J]. Frontiers in Plant Science, 2017, 8: 1583.
[10] Jansen R K, Saski C, Lee S B, et al. Complete plastid ge-nome sequences of three rosids (Castanea, Prunus, Theo-broma): evidence for at least two independent transfers of rpl22 to the nucleus[J]. Molecular Biology and Evolution, 2011, 28(1): 835-847.
[11] Wang W, Yang T, Wang H L, et al. Comparative and phy-logenetic analyses of the complete chloroplast genomes of six almond species (Prunus spp. L.)[J]. Scientific Reports, 2020, 10(1): 1-10.
[12] 郑 祎, 张 卉, 王钦美, 等. 大花君子兰叶绿体基因组及其特征[J]. 园艺学报, 2020, 47(12): 2439-2450.
[13] Niu Z T, Xue Q Y, Wang H, et al. Mutational biases and GC-biased gene conversion affect GC content in the plas-tomes of Dendrobium genus[J]. Multidisciplinary Digital Publishing Institute, 2017, 18(11): 2307.
[14] Mccoy S R, Kuehl J V, Boore J L, et al. The complete plas-tid genome sequence of Welwitschia mirabilis: an unusually compact plastome with accelerated divergence rates[J]. BMC Evolutionary Biology, 2008, 8(1): 1-16.
[15] Mukhopadhyay P, Basak S, Ghosh T C. Nature of selective constraints on synonymous Codon usage of rice differs in GC-poor and GC-rich genes[J]. Gene, 2007, 400(1/2): 71-81.
[16] Kim K J. Complete chloroplast genome sequences from Korean ginseng (Panax schinseng Nees) and comparative analysis of sequence evolution among 17 vascular plants[J]. DNA Research, 2004, 11(4): 247-261.
[17] Wang W C, Chen S Y, Zhang X Z. Whole-genome compar-ison reveals divergent IR Borders and mutation hotspots in chloroplast genomes of herbaceous bamboos (Bambu-soideae: Olyreae)[J]. Molecules, 2018, 23(7): 1537.
[18] Park S, An B, Park S. Reconfiguration of the plastid genome in Lamprocapnos spectabilis: IR boundary shifting, inver-sion, and intraspecific variation[J]. Scientific Reports, 2018, 8(1): 1-14.
[19] Wu F H, Chan M T, Liao D C, et al. Complete chloroplast genome of Oncidium Gower Ramsey and evaluation of mo-lecular markers for identification and breeding in Oncidii-nae[J]. BMC Plant Biology, 2010, 10(1): 1-12.
[20] Martín M, Sabater B. Plastid ndh genes in plant evolution[J]. Plant Physiology and Biochemistry, 2010, 48(8): 636-645.
[21] Chang C C, Lin H C, Lin I P, et al. The chloroplast genome of Phalaenopsis aphrodite (Orchidaceae): comparative analysis of evolutionary rate with that of grasses and its phylogenetic implications[J]. Molecular Biology and Evolution, 2006, 23(2): 279-291.
[22] Wang B, Qiu Y L. Phylogenetic distribution and evolution of mycorrhizas in land plants[J]. Mycorrhiza, 2006, 16(5): 299-363.
責任编辑:黄东杰