紫薇属植物叶绿体基因组研究进展

2022-12-02 07:54黄建睿缪绅裕
广东农业科学 2022年10期
关键词:叶绿体紫薇条形码

黄建睿,陈 涛,缪绅裕

(1.广州大学生命科学学院,广东 广州 510006;2.深圳市中国科学院仙湖植物园,广东 深圳 518004)

叶绿体是质体家族中的一种细胞器,含有丰富的叶绿素,是绿色植物进行能量转化和光合作用的主要场所,赋予植物在地球生态环境中充当生产者的角色。此外,叶绿体是许多生化过程的基本场所,如氨基酸、核苷酸、脂肪酸、植物激素、维生素的合成以及硫和氮的同化[1]。叶绿体中具有半自主性的细胞器,自身拥有相对独立的遗传物质,即叶绿体基因组DNA(cpDNA),其结构一般为双链环状的DNA 分子,少数为线形,是仅次于核基因组的第二大基因组[2]。与核基因组相比,叶绿体基因组因其相对稳定的基因组结构、基因内容和基因序列,已被证明是用于遗传多样性评估的DNA 条形码的重要数据来源,被广泛应用于植物系统学研究[3]。叶绿体基因组按功能可分为遗传系统基因、光合系统基因、合成系统基因、功能未知基因4类[4]。叶绿体基因组由于拷贝数高、母系遗传、基因结构和排列保守的特点,是研究近缘物种系统发育关系的有力工具[5-7]。在被子植物中,叶绿体的进化速率也极其缓慢[8]。植物叶绿体基因组为系统发育、DNA 条形码和种群间生物地理学提供了宝贵的资源。基因组学研究在基因组序列的遗传组成、结构、组织、功能多样性中,发挥了重要作用,尤其在系统发育研究中,能够直观地体现出植物间的进化关系[9-10]。

紫薇属(Lagerstroemia)隶属于千屈菜科(Lythraceae),全世界约有60 种紫薇属植物,目前已培育出500 多个品种[11]。我国现有紫薇属植物21 种,其中大花紫薇(Lagerstroemia speciosa)、南洋紫薇(L.siamica)、棱萼紫薇(L.turbinate)从东南亚引入[12]。紫薇属植物多为落叶或常绿灌木或乔木,树干多光滑,木材坚硬、耐腐,可作家具木材、建筑等使用,分布于亚洲东部、东南部、南部的热带、亚热带等地区[13]。紫薇(Lagerstroemia indicaL.)原产于中国,至少有1 500 年的种植历史,随后被引种到美国南部,采取杂交育种、诱变育种等多种培育方式,开始了紫薇属植物在国外的育种历程[14]。大多数紫薇属植物具有大而美丽的圆锥花序,花期通常在夏季和秋季持续约3 个月或更久。此外,紫薇属植物具有一定的药用价值,根和枝叶入药可用于治疗过敏反应,具有止痒功效,而花和叶入药有清热解毒、利尿的效果,其叶子还可通过吸收烟雾和灰尘来净化空气,因而紫薇属植物作为观赏、药用兼环保的优良花木,在园艺和园林应用中具有重要价值[15-17]。

本文以叶绿体基因组的研究现状为背景,归纳紫薇属植物叶绿体基因组的结构特征,总结了紫薇属叶绿体基因组在DNA 条形码、简单重复序列以及系统发育中的应用,并分析了已完成序列测定的22 种植物的系统发育关系,旨在进一步归纳总结紫薇属叶绿体基因组的研究现状以及应用前景,为紫薇属植物种质资源鉴定、分类和系统发育分析等方面的进一步研究提供理论铺垫,同时为紫薇属其他物种的叶绿体基因组研究以及物种进化和亲缘关系分析等研究提供数据基础。

1 叶绿体基因组研究概况

1.1 叶绿体全基因组序列测定

1986 年,植物叶绿体基因组的全序列测定最早在烟草(Nicotiana tabacum)中发表[18]。近年来,由于测序技术的不断发展,测序成本逐渐降低,利用快速发展的第二代测序技术,越来越多物种的叶绿体基因组先后被测序用于系统发育研究,美国国家生物技术中心(The National Center for Biotechnology Information,NCBI)中关于叶绿体全基因组的数据不断被增加充实。

最初,基因组测序主要使用以Sanger 测序为核心的测序技术,该法需要分离纯化叶绿体基因组DNA 或者构建全基因组细菌人工染色体(Bacterial artificial chromosome,BAC)文库,再利用含有物种叶绿体DNA 片段的载体进行测序,过程复杂且难度大,测序耗时长、成本高,因此未被大范围使用。直到新一代高通量测序的出现,极大地扩大了测序通量,缩短了测序时长,为大规模叶绿体基因组测序提供了可能[19-21]。随着测序成本的显著降低,对整个叶绿体基因组进行测序变得更为便捷。目前,NCBI 数据库已获得超过900 个陆地植物完整的叶绿体基因组[22]。此外,在叶绿体全基因组中开发了众多组装软 件,如 GetOrganelle[23]、Fast-Plast[24]、NOVOPlasty[25]、ORG.Asm[26]、chloroExtractor[27]、IOGA[28]、Chloroplast assembly protocol[29]等。

1.2 叶绿体基因组结构研究

叶绿体全基因组序列由于其相对稳定的基因组结构、基因内容和基因序列,已被广泛接受为在分子进化方面有价值的数据来源。叶绿体基因组具有高度保守的环状DNA 结构,少数为线形,是仅次于核基因组的第2 大基因组[30]。叶绿体基因组结构通常为高度保守的四分体结构,通常由1 个大单拷贝区(Large Single Copy,LSC)、1 个小单拷贝区(Small Single Copy,SSC)和2 个反向重复区(Inverted Repeats,IRs)组成。LSC区长约81~90 kbp,SSC 区范围在18~20 kbp,2 个反向重复区大小介于20~30 kbp[31]。虽然叶绿体基因组的结构和大小高度保守,但IR/SC 边界区域的扩张和收缩常被认为是造成高等植物叶绿体基因组长度差异的主要原因[32]。大多数被子植物的叶绿体基因组大小在107~218 kbp之间,由大约120 个基因组成,分别编码rRNA、tRNA和蛋白质[33]。虽然叶绿体基因组结构高度保守,但也会发生基因缺失现象,且可能存在突变热点[34-35],这为紫薇属叶绿体基因组的相关研究奠定了基础。

2 紫薇属植物叶绿体基因组结构研究现状

2.1 紫薇属植物叶绿体基因组测序

随着基因工程技术的发展,高通量技术的进步降低了测序成本,极大地促进了基因组和系统发育研究的进步。越来越多物种的叶绿体基因组序列被测序,这对紫薇属植物叶绿体基因组的比较研究提供了一定的分子基础,有助于提升对其叶绿体基因组应用价值的评价。目前,NCBI 显示已完成22 种紫薇属植物的叶绿体全基因组测序。表1 为目前已完成叶绿体全基因组测序的紫薇属植物和5 个近缘属的相关信息。

表1 来源于NCBI 的紫薇属植物和外群叶绿体基因组序列Table 1 Chloroplast genome sequence of Lagerstroemia and outgroups derived from NCBI

2.2 紫薇属植物叶绿体基因组结构特征

从NCBI 数据库下载紫薇(L.indica)和绒毛紫薇(L.tomentosa)的叶绿体基因组序列,登录号分别为NC_030484、MT019851,使用OGDRAW 在线软件生成叶绿体基因组图谱。由图1 和图2 可知,紫薇属植物的叶绿体基因组呈闭合环状结构,为高度保守的四分体结构,其叶绿体基因组通常也由4 部分组成,分别为1 个大单拷贝区(LSC)、1 个小单拷贝区(SSC)和2 个反向重复区(IRs),其中2 个反向重复区域的序列相同,但方向相反,通常命名为IRa、IRb,该区域会在紫薇属叶绿体基因组进化过程中延伸或者缩小;LSC 和SSC 区的变异大于IR 区,非编码区的分化程度大于编码区[36]。由表2 可知,22种紫薇属植物的叶绿体基因组大小约为150 kbp,最大的L.venusta长度为152 521 bp,最小的L.guilinensis长度为151 968 bp,其中LSC 区长度为83~84 kbp,SSC 区长度约为16 kbp,IR 区约为25 kbp,叶绿体基因组中嘌呤(GC)含量为37.6%~37.7%。紫薇属植物的叶绿体基因组的基因数量大多为112 个,其中包括78 个蛋白编码基因、30 个tRNA 基因、4 个rRNA 基因,但L.balansae的叶绿体基因组含有130 个基因,包括85 个蛋白编码基因、37 个tRNA 基因、8 个rRNA 基因。叶绿体基因组虽然在基因结构上高度保守,但IR/SC 边界区域的扩张和收缩引起的IR/SC 连接位置的变化,通常被认为是造成高等植物叶绿体基因组长度变异的主要机制[37-38]。Zheng等[39]发现13 种紫薇在IR/SC 交界区表现出相似的特征,而Xu等[40]在3 个新测序的紫薇叶绿体基因组中观察到rpl2 内含子缺失,紫薇rpl2 内含子缺失的发生被认为是千屈菜科中重要的进化事件之一。

图1 大花紫薇叶绿体基因组物理图谱Fig.1 Gene map of the choloroplast genome of Lagerstroemia speciosa

图2 绒毛紫薇叶绿体基因组物理图谱Fig.2 Gene map of the choloroplast genome of Lagerstroemia tomentosa

表2 紫薇属植物叶绿体基因组序列特征汇总Table 2 Summary of chloroplast genome sequence characteristics of Lagerstroemia

2.3 22 种紫薇属植物的系统发育关系

为了确定紫薇属植物的系统发育关系,根据表1 中由NCBI 下载的FASTA 序列,使用软件PhyloSuite,采用贝叶斯法(Bayesian inference,BI)构建22 种紫薇属植物的系统发育树,另设置5 个近源外群Duabanga grandif lora、Oenothera biennis、O.argillicola、Ludwigia octovalvis、Erodium carvifolium。由图3 可知,L.calyculata、L.loudonii、L.sp.2、L.tomentosa、L.sp.3、L.floribunda、L.balansae、L.intermedia、L.siamica、L.speciosa、L.venusta、L.anhuiensis、L.glabra、L.caudata、L.excelsa、L.indica、L.guilinensis、L.sp.4、L.limii、L.subcostata、L.fauriei、L.villosa共22 种紫薇属植物单独为一支,为单系群,具有较大的支持率。

图3 基于27 个物种的叶绿体全基因组用贝叶斯法(Bayes)构建的系统发育树Fig.3 Phylogenetic tree based on the 27 species chloroplast genome sequences with Bayes’method

3 紫薇属植物叶绿体基因组的应用研究进展

3.1 DNA 条形码研究

DNA 条形码(DNA barcode)是指生物体内能够代表该物种的、标准的、有足够变异的、易扩增且相对较短的DNA 片段。该技术是利用生物体DNA 中一个或几个保守片段对物种进行快速准确鉴定的新兴生物技术。叶绿体上的DNA序列片段(如matK、rbcL、trnH-psbA、rpoC1、rpoB、accD、ycf5 等)在植物DNA 条形码被广泛应用。Xu等[40]从6 种紫薇属植物的叶绿体基因组中选择12 个相对较高的变异区(trnK-rps 16、trnStrnG、trnG-trnR-atpa、trnE-trnT、rbcLaccd、psbL-psbF-psbE、trnP-psaJ-rpl33、rrn16-trni、ccsa、ndhG-ndhI、rps15-ycf1 和ycf1)作 为cp DNA 标记,推测它们在物种和品种水平上经历了更快的核苷酸替换,可以作为分子标记应用于紫薇属植物的系统发育分析和植物鉴定;Zheng等[39]从13 种紫薇属植物中选择识别度最高的7 个基因片段(ndhF、ycf1、trnK-rps16、psbKPSBI、trnR-ucu-atpa、rpl32-trnL 和rrn16-trni)作为DNA 条形码,结果发现这7 个条形码能有效鉴别13 个种。Dong等[41]比较了20 种紫薇属植物中的4 个高变量标记和国际DNA 通用条形码(rbcL、matK、psbA-trnH),发现4 个高变量标记的进化速率是DNA通用条形码的2.5倍。马丽[43]针对国际DNA 条形码对紫薇属植物的鉴定进行研究,结果发现trnH-psbA 在13 个紫薇属物种中变异最大,但是鉴定成功率仅为38.46%;MatK 和rbcL 变异太小不适合用作紫薇属DNA 条形码;而组合片段rbcL+trnH-psbA 和mat K+rbc L+trn H-psb A 鉴定能力高,可用作紫薇属特异性条形码;构建NJ 树对15 个高变片段进行评估,发现其 中5 个片段 petA-psbJ、ndh F-rpl32、ndhGndhI、trnS-trnG 和trnR-atpA 的鉴定能力最强,因此建议将它们作为紫薇属的候选DNA 条形码。前人从紫薇属叶绿体基因组中开发的DNA 标记能弥补国际通用条形码在紫薇属中的鉴定缺陷,对紫薇种质资源的种间鉴定、定向育种以及系统发育关系提供了强有力的分子手段。

3.2 SSR 研究

简单重复序列(Simple sequence repeat,SSR)是由1~6 个核苷酸组成的简单重复的串联序列,SSR 在基因组的不同位置不同分布,长度一般在200 bp 以下,通常有6 种核苷酸类型,即单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸以及六核苷酸,且SSR 在真核和原核生物中广泛分布[44-45]。SSR 分子标记具有在基因中覆盖率高、重复次数多、多态性丰富、稳定性好等优点,能够检测出品种亲缘关系之间的细小差异,现已经广泛应用于品种间亲缘关系及遗传多样性的研究[46]。

随着生物学技术的发展,分子标记已成为紫薇属植物在遗传多样性及亲缘关系分析等研究的重要手段。例如,王献等[47]设计并优化了20 个紫薇和南紫薇的AFLP 银染色反应系统,该技术还应用于分析30 个紫薇品种和2 个近缘种的亲缘关系;顾翠花[48]在王献等[47]的基础上针对紫薇建立AFLP 实验反应体系,筛选出可用于分析紫薇种质资源的引物,并用于评价13 个紫薇群体的亲缘关系;徐静静等[49]利用ISSR 技术,基于4个紫薇群体和48 个不同花色的紫薇品种,分析了紫薇属品种的花色遗传多样性;Wang等[50]利用78 个SSR 标记分析评价了51 个紫薇品种和5 个屋久岛紫薇品种的遗传多样性,验证了现有品种与已鉴定但未开发种质资源的品种之间的关系。这些研究在紫薇品种鉴定、分类、遗传多样性评价等方面取得了一定进展。

叶绿体基因组中的简单重复序列在种内水平上可能是高度可变的,因此经常被用作群体遗传学和进化研究中的遗传标记。Gu等[36]分析了22 种千屈菜科植物的SSR 位点,其中包含14种紫薇属植物,研究发现每个种均有211~332 个SSR,长度包含8~16 个碱基,共发现单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸6 种SSR,以单核苷酸的重复序列最常见,数量在123~212 个,其中,紫薇属植物中只有L.siamica和L.intermedia 存在六核苷酸。SSR 位于31 个编码基因和57 个基因间隔区中,结果表明叶绿体基因组变异较大的SSR 可用于近缘物种的鉴定和系统发育研究[35]。Xu等[40]分析了6 种紫薇属植物的叶绿体基因组中的SSR,发现SSR 的长度在10~15 个碱基之间,对6 个紫薇基因组序列的比较分析表明,共检测到5 类SSR(单核苷酸、二核苷酸、三核苷酸、四核苷酸和五核苷酸)重复。Zheng等[39]通过比较13 种紫薇属植物的叶绿体基因组中SSR 的分布和数量,发现了从单核苷酸到六核苷酸的SSR,前5 种SSR 分别存在于紫薇属13 种植物中,六核苷酸重复序列也仅存在于Lagerstroemia siamica和L.intermedia的叶绿体基因组中,发现SSR 序列分布在31 个基因编码区和57 个基因间隔区,这与Gu 在22种千屈菜科的14 种紫薇属植物的SSR 分布研究结果一致,SSR 在叶绿体基因组中分布不均的现象特征,有助于SSR 分子标记技术应用到种下层面的系统发育分析。马丽[43]研究了13 种紫薇的66 个SSR 位点,选择了7 个SSR 数量最高的基因,发现同源 SSR 没有显着差异,这也从侧面说明了SSR 的多态性。在紫薇属物种中鉴定SSR 位点为多态性SSR,为紫薇属SSR 标记的开发提供参考序列。

3.3 系统发育关系研究

系统发育也称为系统发展,它是指某一个类群的形成和发展过程。通过建立系统发育树,能更直观地分析类群的亲缘关系。Xu等[40]使用最大简约(MP)、最大似然(ML)和贝叶斯推断(BI)方法,基于4 个叶绿体基因组全序列、编码区、非编码区和12 个高变区,在高Bootstrap 支持下完全区分了所有6 个紫薇属分类群,获得了较大的支持率。Zheng等[39]基于32 种物种(其中包括13 种紫薇)的66 个共享蛋白质编码基因构建的系统发育树,揭示了紫薇属内物种的系统发育关系及其在桃金娘目中的系 统发育位置。紫薇属植物的系统发育,包括更具代表性的物种和大量的分子标记,对于了解紫薇属植物的进化史、新品种的选育和紫薇种质资源的保护至关重要[50]。

4 结语与展望

紫薇属植物具有花期长、花色艳丽且抗污能力强的特点,是我国夏季重要的园林观赏植物。本文在分析叶绿体基因组各 结构中,由于L.loudonii、L.sp.2 WD-2021、L.sp.3 WD-2021、L.sp.4 WD-2021 的参考文献未发布,暂只对19种紫薇属植物的叶绿体基因组结构进行概述,且已进行叶绿体基因组测序的物种仅占已有物种的1/3,因此对紫薇属植物叶绿体基因组结构的概括不够系统。进一步完成未进行叶绿体基因序列的测定,有利于紫薇属内亲缘关系以及属内基因组的比较研究。

相比利用基因片段作为DNA 标记,简短的片段无法准确评估物种在系统发育树中的位置,因此亟需通过完整的叶绿体基因组序列判定物种亲缘关系,利用完整的叶绿体基因组序列进行基因组比较研究更具有说服力[51-53]。新测序的紫薇属植物叶绿体全基因组将利于提高对紫薇属植物叶绿体基因组的认识,并有助于对该物种开展资源保护工作。通过比较完整的叶绿体基因组,提高对叶绿体基因组进化、物种鉴定和系统发育关系的理解,同时有助于提升对叶绿体基因组应用价值的评价,为紫薇属植物后续的种质资源鉴定、分类和系统发育分析等方面的进一步研究提供理论铺垫。

猜你喜欢
叶绿体紫薇条形码
紫薇花
创意条形码
从条形码到二维码
从条形码到二维码
游紫薇洞
条形码大变身
南方红豆杉叶绿体非编码序列PCR体系优化及引物筛选
紫薇的传说
“紫薇”在哪儿
茶树叶绿体DNA的PCR-RFLP反应体系优化