赵许朋,崔 奎,耿苗苗,赵晓朋,刘声传,刘 燕
(贵阳学院,贵阳 550005)
【研究意义】茶树[Camelliasinensis(L.) O.Kuntze]是山茶科山茶属多年生常绿灌木或小乔木,在全世界范围内广泛被种植[1-2],其栽培品种主要包括阿萨姆种(Camelliasinensisvar.assamica)和中国种(Camelliasinensisvar.sinensis)[3]。中国是世界上最早栽培和利用茶树的国家,同时也是世界茶树的起源中心[4-5]。由于其经济价值及绿色属性,茶树已经成为全世界重要的经济作物之一,据统计,全世界已经有60余个国家和地区进行商业种植,其年采摘量在5×106t以上[6]。植物叶绿体基因组具有结构简单、易于解析、高度保守、重组和变异率低等优点,常应用于物种鉴定、DNA条形码开发及叶绿体基因工程改造等领域,因此研究茶树叶绿体基因组结构和功能并将其应用于物种鉴定及其叶绿体基因组改造,从而产生品质优异茶树良种,对提高茶产量及经济效益具有现实意义。【前人研究进展】贵定鸟王茶主要分布于贵州省贵定县云雾镇鸟王村,是贵州省特有珍稀茶树品种[7],又称云雾茶[8],也是清朝八大名茶之一,更是贵州省唯一有碑文记载的贡茶[9]。由贵定鸟王茶制作的贵定雪芽近年来连获国际金奖,成为贵州省的三大名茶之一[10-11]。由于其巨大的应用价值和科研价值,研究者从其次级代谢产物差异、农艺和品质性状[10]、香气成分、产地土壤养分[7]和理化品质[13]等方面开展了全面的研究,如王春波等[12]的研究结果显示,贵定云雾茶本地种和引进种有14种代谢物含量存在显著差异;王春波等[9]研究发现,贵定鸟王茶共检出136种香气成分,其中酯类、酸类和醇类是形成鸟王茶独特香气的主要成分。叶绿体是高等植物细胞内一种半自主性细胞器,是植物进行光合作用的场所。叶绿体拥有独立于核基因组外能够自我复制和发挥功能的基因组,即叶绿体基因组,其能够编码光合作用相关蛋白参与光合作用并完成太阳能的固定。Wang等[14]研究发现,高等植物中不同物种叶绿体基因组长度为120~170 kb,差异较大;叶绿体基因组含有100~120个基因,主要包括蛋白编码基因、tRNA和4rRNA基因;高等植物叶绿体基因组通常呈环状,是由1个长单拷贝区(Large single copy region,LSC)、1个短单拷贝区(Small single copy region,SSC)和2个反向重复序列(Inverted repeats region,IRa/IRb)构成的典型四分体结构[15];与核基因组和线粒体基因组相比,叶绿体基因组具有序列保守、变异位点丰富、母系遗传等特点,被广泛应用于系统发育[16]、物种鉴定及多样性分析[17]、DNA条形码开发[16]及基因工程改造等领域。近年来,随着测序技术的发展及组装和注释软件的更新与开发,不断有植物叶绿体基因组被报道。Mehmetoglu等[18]分析鹰嘴豆叶绿体基因组并对其亲缘关系开展研究;Gogniashvili等[19]利用叶绿体基因组全序列测定技术对六倍体小麦开展遗传分析;Yu等[20]研究三桠苦的叶绿体基因组发现,三桠苦与花椒和香肉果的亲缘关系最近。【本研究切入点】贵定鸟王茶已有研究多集中在其次级代谢产物差异、农艺和品质性状等方面,鲜见其叶绿体及其特性的研究报道。【拟解决的关键问题】以贵定鸟王茶叶片为材料,采用高通量测序技术对其叶绿体基因组进行测序、组装和注释,并对其23种近缘植物的叶绿体基因组序列进行系统发育分析,验证其在系统发育中的位置,以期为该物种遗传多样性、种群历史动态及系统发育与亲缘关系研究奠定基础。
贵定鸟王茶成熟叶片采自贵州省农业科学院茶叶种植园。样品用75%医用酒精与无菌水洗涤处理后保存于-80 ℃的冰箱备用。
1.2.1 叶绿体基因组提取 采用改良CTAB法提取贵定鸟王茶叶片总DNA,分别用1.0%琼脂糖凝胶和Nanodrop检测检测DNA的完整性和纯度(OD260/280比值);超声波对合格DNA片段化,然后对其片段进行纯化、末端修复、3′端加A尾、加测序接头、构建文库等流程化操作;最后用Illumina Novaseq平台进行叶绿体基因组测序,测序读长为PE150,并用FastQC(http://www.bioinformatics.babraham.ac.uk/ projects/fastqc)对数据进行质控。
1.2.2 叶绿体基因组组装、注释 测序结果采用Fast-Plast(https://github.com/mrmckain/Fast-Plast)进行数据过滤、比对和组装。首先使用Spades将比对到叶绿体数据库的reads进行初步组装,然后用afin对其进行gap修补;最后依据叶绿体基因组典型四区域结构(LSC、IRB、SSC、IRA)确定基因组起始位点,完成叶绿体基因组组装。以Camelliasinensis为近缘物种,使用Geseq(https://chlorobox.mpimp-golm.mpg.de/geseq.html)对组装叶绿体基因组进行功能注释并绘制圈图。
1.2.3 密码子偏好性分析 用EMBOSS explorer(https://embossgui.sourceforge.net/demo/)对贵定鸟王茶叶绿体基因组密码子偏好性进行分析,内容包括:相对同义密码子使用度(RSCU)、GC平均含量(GCall)、第1~3位密码子GC含量(GC1、GC2和GC3);使用生信云在线软件的ENC计算工具(http://cloud.genepioneer.com: 9929/#/tool/ alltool/detail/291)计算CDS有效密码子数(Effective number of codons,ENC)含量。
1.2.4 散在重复序列、SSR位点、IR区边界的收缩与扩张分析 使用在线软件REPuter(https://bibiserv.cebitec.uni-bielefeld.de/reputer?id=reputer_manual_manual)对贵定鸟王茶叶绿体基因组进行散在重复序列分析,参数:minimal repeat size=30,hamming distance=3;使用在线软件MISA(https://webblast.ipk- gatersleben.de/misa/)对贵定鸟王茶叶绿体基因组SSR位点分析,参数:单核苷酸重复数、二核苷酸重复数、三核苷酸重复数和四五六核苷酸重复数分别大于等于10、5、4和3个;使用在线软件IRscope(https://irscope.shinyapps.io/irapp/)分析比较贵定鸟王茶与凤凰单枞柚花香(C.sinensiscultivar Youhuaxiang)、信阳10号(C.sinensiscultivar Xinyang 10)、黔茶1号(C.sinensisvar.sinensis cultivar Qiancha 1)、半天腰(C.sinensiscultivar Bantianyao)、白鸡冠(C.sinensiscultivar Baijiguan)、白叶1号(C.sinensiscultivar Baiye 1)、德宏茶(C.sinensisvar.Dehungensis)、龙井(C.sinensiscultivar Longjing 43)8个近源物种IR边界区的基因类型和基因分布情况。
1.2.5 贵定鸟王茶叶绿体基因组系统发育分析 从NCBI上下载山茶科山茶属信阳10号C.sinensiscultivar Xinyang 10(GenBank accession:MZ1532 37.1)、凤凰单枞柚花香C.sinensiscultivar Youhuaxiang(GenBank accession:MZ379786)、半天腰C.sinensiscultivar Bantianyao(GenBank accession:MW046255)、黔茶1号C.sinensisvar.sinensiscultivar Qiancha 1(GenBank accession:MZ043860)、龙井C.sinensiscultivar Longjing 43(GenBank accession:KF562708)、C.sinensis(GenBank accession:KC143082)、德宏茶C.sinensisvar.Dehungensis(GenBank accession:KJ806279.1)、白鸡冠C.sinensiscultivar Baijiguan(GenBank accession:MT773373.1)、白叶1号C.sinensiscultivar Baiye 1(GenBank accession:MN086819.1)、普洱茶C.sinensisvar.assamica(GenBank accession:JQ975030.1)、云抗C.sinensisvar.assamica cultivar Yunkang 10(GenBank accession:MH019307.1)、C.sinensisvar.assamicaisolate25A(GenBank accession:MH394407.1)、金花茶C.petelotii(GenBank accession:KJ806276.1)、小果金花茶C.petelotiivar.microcarpa(GenBank accession:MT157619.1)、安龙瘤果茶C.anlungensisvoucher CANLU20191106(GenBank accession:MN7565 94.1)、瘤果茶C.anlungensis(GenBank accession:OK046127.1)、西南红山茶C.pitardiivoucher HKAS(GenBank accession:KF156837.1)、滇山茶C.reticulata(GenBank accession:KJ806278.1)、尖连蕊茶C.cuspidatavoucher HKAS(GenBank accession:KF156833.1)、长管连蕊茶C.elongatavoucher YangSX 5065(GenBank accession:KY406791.1)、大理茶C.taliensis(GenBank accession:JQ975032.1)、C.taliensisvoucher HKAS-7 S.X.Yang3158(GenBank accession:KF156836.1)叶绿体基因组序列,以山茶科石笔木属贵州石笔木为外类群,与GD1-157071一起使用Geneious 9.0.2进行序列比对,使用MEGA 7.0采用近邻法(Bootstrap1000)与山茶属23个物种构建系统进化树。
从图1和表1看出,贵定鸟王茶叶绿体基因组(cpDNA)全长157 071 bp,其结构与闽鄂山茶、皱叶瘤果茶和海南山茶的叶绿体结构相似,含有4个典型区域,分别为大单拷贝区(LSC)、2个反向重复区(IR)和小单拷贝区(SSC),其长度依次为86 632、52 092和18 347 bp。贵定鸟王茶叶绿体基因组共预测到138个基因,其中,非重复序列基因120个,重复序列18个,均为双拷贝基因。在所有基因中,蛋白编码基因89个(如atpA、atpB、atpE),rRNA基因8个(如rrn5、rrn4.5、rrn23),tRNA基因41个(trnA-FME、trnC-GCA、trnD-GUC)。贵定鸟王茶叶绿体基因组蛋白编码基因可分为4类,光合作用相关蛋白质71个,自我复制相关基因53个,其他蛋白质基因6个和未知功能基因8个。贵定鸟王茶叶绿体基因组GC含量为37.29%,AT含量为62.71%。在贵定鸟王茶叶绿体基因中,LSC区覆盖62个蛋白编码基因和24个tRNA基因,数量最多;SSC区覆盖13个蛋白编码基因和1个tRNA基因,数量最少。贵定鸟王茶叶绿体基因组中有18个基因含有1个内含子,其中编码蛋白质基因12个。
对贵定鸟王茶叶绿体基因组蛋白编码区(CDS)密码子使用情况开展分析(表2)表明,贵定鸟王茶叶绿体基因蛋白编码基因长度为70 206 bp,占整个叶绿体基因组长度的44.71%。蛋白编码区基因密码子共22 995个,其中,编码亮氨酸密码子数量最多,为2375个,占总密码子个数的10.33%;编码半胱氨酸密码子数量最少,仅249个,占总密码子个数的1.08%。相对同义密码子(RSCU)≥1的有32个,其中,有29个密码子的碱基构成以A/U结尾,其余3个以G/C结尾,表明贵定鸟王茶叶绿体基因组偏爱以A和U结尾。贵定鸟王茶叶绿体基因密码子GC的平均含量为GCall=37.38%,第1位、第2位和第3位密码子GC的含量分别为GC1=45.48%、GC2=37.98%和GC3=28.67%,依次为GC1>GC2>GC3,表明贵定鸟王茶叶绿体基因组密码子不同位置碱基GC的含量存在差异,且呈GC1>GC2>GC3分布,亦表明贵定鸟王茶叶绿体编码基因偏好以A/U(T)结尾。83条CDS的ENC值为24.03~55.87,平均为44.65,表明贵定鸟王茶叶绿体基因组密码子的使用偏性较弱。
使用REPuter对贵定鸟王茶叶绿体基因组散在重复序列进行分析,结果显示,贵定鸟王茶叶绿体基因含有50条(IR未计入总数)重复序列,其中正向重复21条(F),回文重复29条(P),重复序列长度为30~82 bp,最长的4个重复(82 bp)均位于IR区ycf2基因上。检测到的重复序列大部分分布于LSC区和IR区,少部分分布于SSC区。在设定的检测范围内,未检测到反向重复(R)和互补重复(C)。
表1 贵定鸟王茶叶绿体基因组的注释信息
表2 贵定鸟王茶氨基酸的相对同义密码子(RSCU)
续表2 Continued table 2
SSR分析(图2)显示,贵定鸟王茶叶绿体基因组中共有SSR位点246个,其中50个分布于IR区,占比20.33%,数量最少;142个分布于LSC区,占比57.72%,数量最多;54个分布于SSC区,占比21.95%。在所有检测到的SSR位点中,单核苷酸重复有156个,数量最多,包含A、G、C、T 4种碱基重复类型,其中A和T碱基组成的SSR共152个,占比95%,表明SSR单核苷酸位点使用有A/T偏好性;双核苷酸重复有4个,分别有TA和AT 2种类型;三核苷酸重复有72个,包括AAC、AAG和AAT等31种类型;四核苷酸重复有16个,包括AAAT、AATA和AGAT等12种类型;六核苷酸重复有2个,包括AAAAAG和CTTTTT 2种类型。此外,研究结果显示,贵定鸟王茶叶绿体基因组SSR位点在基因间隔区数量最多,为126个,占比51.22%;其次是在内含子中,为94个,占比38.21%;在外显子中数量最少,为26个,占比10.57%。
叶绿体基因组IR区较为保守,然其边界区域的收缩与扩张却是常见的进化事件,也是导致叶绿体基因组大小发生变化的重要因素[21]。从图3看出,贵定鸟王茶与所选8个茶树品种叶绿体基因组边界区的基因种类、排列和长度较相似。9个茶树品种IR区长度为25 944~26 110 bp,其IR区边界区域基因主要有rps19、rpl2、ycf1、ndhF和trnH。除半天腰、白叶1号及龙井外,其余6个茶树叶绿体基因组LSC-IRb边界(JLB)均位于rps19基因内,且rps19基因分布于IRb区的长度均为46 bp,十分保守。在SSC/IRb 边界(JSB),除龙井外,其余8个茶树叶绿体基因组SSC-IRb边界(JSB)均位于ycf1基因内,凤凰单枞、白鸡冠、白叶1号和德宏茶的ycf1基因跨越JSB向IRb延伸了1068 bp,信阳10号、黔茶1号、半天腰和贵定鸟王茶的ycf1基因跨越JSB向IRb延伸了1059 bp,较保守。在SSC/IRa边界(JSA)区,凤凰单枞、黔茶1号、半天腰、白鸡冠和白叶1号5个品种叶绿体基因组存在跨越JSA边界基因(ycf1),而信阳10号、德宏茶、龙井和贵定鸟王茶4个品种叶绿体基因组无跨越JSA边界基因。在LSC/IRa边界(JLA),除黔茶1号、半天腰和白叶1号外,其余6个茶树品种叶绿体基因组JLA边界均位于trnH基因内,且trnH基因分布于IRa区的长度均为1 bp,十分保守。综上所述,9个茶树品种叶绿体基因组基因种类、排列和长度存在IR边界区收缩与扩张现象。在所选8个茶树品种中,仅有信阳10号与贵定鸟王茶IR区的4个边界区域收缩与扩张情况完全保持一致,其余7个品种叶绿体基因组IR区的收缩与扩张情况均与贵定鸟王茶存在不同程度的差异。
A:种类和数量;B:4个区域分布。A: Types and numbers of SSR in the chloroplast genome of Guiding Niaowang tea; B: Distribution of SSRs in genome,LSC,SSC and IR.图2 贵定鸟王茶叶绿体基因组简单重复序列种类和分布Fig.2 SSR types and distributions in the chloroplast genome of Guiding Niaowang Tea
图3 贵定鸟王茶与8个近源物种叶绿体基因组IR边界图Fig.3 IR boundary regions of complete chloroplast genomes of Guiding Niaowang tea and eight related species
从图4看出,以贵州石笔木为外类群,贵定鸟王茶与山茶属23个物种所构建的系统发育树由2个大分支组成,其中,山茶属的所有物种聚为1支,贵州石笔木单独成支。在山茶属的分支中,贵定鸟王茶、茶及普洱茶聚为1支,金花茶与瘤果茶聚为1支,红山茶与连蕊茶聚为1支,五柱茶聚为1支,表明贵定鸟王茶与茶和普洱茶的亲缘关系较近,而与金花茶、瘤果茶、红山茶、连蕊茶及五柱茶较远。在贵定鸟王茶、茶与普洱茶分支中,普洱茶单独聚为1支,贵定鸟王茶与茶聚为1支,表明贵定鸟王茶与茶的亲缘关系较普洱茶近。在茶与贵定鸟王茶的分支中贵定鸟王茶与信阳10号、凤凰单枞聚为1支,其中与信阳10号的亲缘关系最近,与IR区收缩与扩张分析的结果一致。
图4 24种山茶科植物叶绿体基因组序列系统进化树Fig.4 Phylogenetic tree of 24 chloroplast genomes of Theaceae
叶绿体基因组是独立于核基因组外能够自我复制和发挥功能的基因组,具有序列保守、变异位点丰富及母系遗传等特点,被广泛应用于系统发育、物种鉴定及多样性分析、DNA条形码开发及基因工程改造等领域。茶作为一种重要的无酒精健康饮料,其原料植物茶树的叶绿体基因组也是研究者关注的一个热点。本研究以贵定鸟王茶叶片为材料,测得其叶绿体基因组长度为157 071 bp,与NCBI中检索茶(C.sinensis)叶绿体基因组长度153 044~157 137 bp保持一致。叶绿体基因组分析结果表明,贵定鸟王茶叶绿体基因组包含大单拷贝区(LSC)、2 个反向重复区(IR)和小单拷贝区(SSC) 4个区间,LSC区覆盖蛋白编码基因和tRNA 基因数量最多,SSC区最少,与Li等[22-23]关于茶树叶绿体基因组结构的研究一致。本研究共预测到贵定鸟王茶叶绿体基因组基因138个,分为光合作用、自我复制、其他功能和未知功能共4类,与Li等[24]对武夷岩茶水仙叶绿体基因组基因功能的预测结果一致。综上表明,茶树叶绿体基因组整体组结构稳定,进化速率较慢。
遗传密码是识别和传递生物体遗传信息的载体,在生物遗传和变异中起着重要作用[25]。研究表明,密码子偏好性普遍存在,在叶绿体基因组中开展密码子偏好性分析对于叶绿体基因工程[26]、物种间的亲缘关系及物种的进化具有十分重要的作用[24]。密码子偏好性分析表明,贵定鸟王茶叶绿体基因蛋白编码基因占总基因长度的44.71%,共统计密码子22 995个,编码亮氨酸密码子数量最多,而编码半胱氨酸密码子数量最少,与Zhao等[23]对白花茶叶绿体基因组密码子分析结果亮氨酸和半胱氨酸密码子数量分别最多和最少,Zhang等[27]对油茶叶绿体基因组密码子分析结果亮氨酸密码子数量最多的结论一致。贵定鸟王茶>1.0的32个相对同义密码子(RSCU)中有29个密码子的碱基构成以A/U结尾,Zhao等[23]的研究结果也显示,白花茶叶绿体基因组偏爱以A和U结尾。同时,本研究对密码子第1位、第2位和第3位碱基GC含量GC1>GC2>GC3的研究结果也显示,贵定鸟王茶叶绿体编码基因偏好以A/U(T)结尾。综上表明,茶树叶绿体基因组整体密码子使用偏好性相对一致,该研究结果可为茶树物种间的进化和性状改良等提供理论依据。
重复序列是植物基因组的重要组成部分,在植物基因表达、遗传调控、物种鉴定及群体遗传多态性研究中具有重要作用[28]。本研究共检测到50条重复序列,序列长度为30~82 bp,此结果与Huang等[29]在13种茶树叶绿体基因组分析研究的结果一致;Huang等[29]研究还发现正向重复序列、回文序列及反向重复序列共3种类型,而本研究仅发现其正向重复和回文重复2种类型,表明贵定鸟王茶叶绿体基因组重复类型丰富度略低于其他茶树。
SSR在植物叶绿体基因组中分布广泛,具有高多态性,在植物物种鉴定、群体遗传多态性和遗传分析研究中具有重要作用[28-29]。本研究共检测到贵定鸟王茶叶绿体基因组SSR位点246个,高于Gao等[30]与Zhang等[27]的214和51个;然而,贵定鸟王茶单碱基SSR最多,六碱基SSR最少,与Gao等[30]的研究结果一致。本研究还发现,贵定鸟王茶SSR位点在基因间隔区数量最多,而在内含子和外显子中数量较少,与Huang等[29]对13种茶树叶绿体基因组分析的结果一致。综上表明,贵定鸟王茶SSR较丰富,能够为其SSR引物开发及系统发育研究奠定基础。
在植物叶绿体基因组中,IR区边界区域的收缩与扩张是常见的进化事件,也是叶绿体基因组长度和结构差异的重要原因[24]。IR区扩张和收缩分析结果表明,虽然贵定鸟王茶叶绿体基因组基因种类、排列和长度与所选其他8个品种较相似,然而却存在IR边界区收缩与扩张现象,与Huang等[29]的研究结果茶树叶绿体基因组边界区存在细微的差别却有显著的扩张和收缩现象一致。除信阳10号外,贵定鸟王茶4个IR边界区JLB、JSB、JSA和JLA与其他7个品种相比,均存在一定程度的扩张与收缩,可能也是不同茶树品种叶绿体基因组长度和结构差异性的一个重要原因[22,24];同时,不同物种之间边界区域的扩张与收缩也可以为茶树分类提供参考依据[31]。
叶绿体基因组常被用于系统发育和物种鉴定等领域[15,17]。系统分类结果显示,茶属物种分为1支,贵州石笔木单独成1支,该结果与Ramwal等[32]的研究结果一致,表明叶绿体基因组序列能够作为区分茶属与其他属亲缘关系的分类依据。在所选茶属物种中,茶树和普洱茶分别聚为1支,该结果与Peng等[33]的研究结果一致,并且也与传统形态分类结果保持一致。系统分类结果还表明,贵定鸟王茶与茶亲缘关系最近,其中与信阳10号的亲缘关系最近,与IR区收缩与扩张分析的结果一致。
贵定鸟王茶叶绿体基因组全长157 071 bp,包含138个基因;密码子中,编码亮氨酸密码子数量最多,编码半胱氨酸密码子数量最少;贵定鸟王茶的SSR较丰富;IR区边界的收缩与扩张和系统发育分析均表明,贵定鸟王茶与信阳10号的亲缘关系最近。揭示了贵定鸟王茶叶绿体基因结构及与其他茶树进化关系,为该物种遗传多样性、种群历史动态及系统发育与亲缘关系研究奠定了理论基础。