樊守金 郭秀秀
(山东师范大学生命科学学院,250014,济南)
叶绿体是植物细胞中承担能量转换的重要细胞器.叶绿体内进行的光合作用是自然界最重要的化学反应.地球上的绿色植物通过光合作用将太阳能转化为生物能源的产量高达2 200亿t/年,相当于全球能耗的10倍.叶绿体及光合作用为地球上的大多数生物提供了必需的能源[1].除了光合作用,叶绿体还提供了大量合成具有生物活性的天然产物所需的能量和碳骨架,具有潜在的药物用途,例如氨基酸和UDP-葡萄糖的生物合成就发生在叶绿体中[2].叶绿体DNA最先是由Ris和Plaut[3]在观察衣藻时发现的.而早在1909年两位德国科学家就发现紫茉莉和天竺葵的花色和叶色遗传不符合孟德尔遗传定律,并且认为这种遗传和叶绿体有关[4,5].第一个发表的叶绿体基因组序列是Shinozaki等人[6]在烟草(Nicotianatabacum)中获得的.同年,Ohyama等人[7]又发表了地钱(Marchantiapolymorpha)叶绿体基因组的完整序列.过去的几十年,由于高纯度叶绿体DNA获取较为困难,且受到测序技术和测序成本的局限,叶绿体基因组研究较为缓慢.近年来,随着测序技术的发展和测序成本的降低,叶绿体基因组研究迅速加快.截止到2021年4月11日,NCBI数据库已公布了5 379个叶绿体基因组数据,其中也包含了一些常见作物的不同品种的叶绿体基因组数据.
自20世纪80年代以后,分子生物学快速发展,以前基于形态学数据的系统分类学逐渐转向结合形态和分子数据的研究,即开始利用DNA或氨基酸的序列信息,解析生物的进化历史[8].叶绿体基因组结构简单,基因组较小,但包含大量的遗传信息.其次,叶绿体基因组核苷酸置换率适中,且编码区和非编码区的分子进化速率差异显著,分别适用于不同分类阶元的研究[9].因此,叶绿体基因组广泛应用在系统发育学[10,11],居群遗传学[12,13],谱系地理学[14,15]等领域.
Boynton等人[16]借助基因枪法实现了叶绿体的转化,是叶绿体转化成功的首次报道.1990年,外源cat基因在烟草叶绿体的瞬时表达,是高等植物叶绿体遗传转化的开端[17].叶绿体基因工程与核基因组基因工程相比,外源基因表达量高,不存在基因沉默现象并且环境安全性更高[18].此外,叶绿体的双层膜结构将叶绿体区隔化出独立的空间,可以作为生物反应器,实现对细胞质有害物质的表达,而不伤害植物细胞[19,20].目前,叶绿体基因工程已经在提高植物的除草剂抗性和抗虫性,提高植物抗逆性及合成某些生物制剂领域得到应用.
1.1叶绿体起源关于叶绿体的起源,目前普遍接受的是内共生起源假说,该假说是由Mereschkowsky[21]最先提出的.该假说认为大约在10亿年前,原始的真核细胞吞噬了具有光合能力的古蓝细菌,古蓝细菌与宿主细胞形成共生关系,并逐渐失去了自身的大部分基因,被吞噬的古蓝细菌形成了现在的叶绿体[22].普遍认为,叶绿体多数基因通过与核内共生基因转移方式转移到核基因组中,叶绿体基因组本身只保留了少数基因[23,24].支持该假说的证据有以下五方面[1]:①叶绿体有独立的DNA,且与原核生物的DNA更为相似;②叶绿体的蛋白合成机制类似于细菌,蛋白质合成从N-甲酰甲硫氨酸开始;③叶绿体的DNA和RNA可以被原核生物DNA/RNA聚合酶抑制剂所抑制;④叶绿体具有双层膜结构,其内层膜与原核生物细胞膜十分相似;⑤某些叶绿素和蓝细菌的蛋白质相似.
1.2叶绿体DNA的遗传方式Ris和Plaut[3]借助电子显微镜首次在衣藻叶绿体中发现了DNA纤丝,这是叶绿体含有自主遗传物质的直接证据.Baur[4]和Correns[5]的研究发现紫茉莉(紫茉莉科)和天竺葵(牻牛儿苗科)花色和叶色遗传,不符合孟德尔遗传定律,并且认为叶绿体与叶色遗传有关,并表现出随机的遗传方式.随后,Grant等人[25]和Stubbe[26]在衣藻和月见草属也发现了类似的现象,并将这种随机分离,子代总是表现出母本性状的遗传现象称为叶绿体母系遗传.叶绿体DNA是由细胞内膜包被的独立基因组,属于细胞质遗传,以非孟德尔遗传方式遗传给下一代.目前的研究认为叶绿体DNA有三种不同的遗传模式,分别是母系遗传、父系遗传和双亲遗传.不同进化地位植物类群的叶绿体DNA遗传方式表明,双亲遗传可能是最原始的遗传模式[27].大部分被子植物的叶绿体DNA遵循母系遗传[28, 29],但也有一些类群叶绿体DNA是父系遗传,例如伞形科胡萝卜属[30],旋花科番薯属[31],猕猴桃科猕猴桃属[32],蒺藜科蒺藜属[33]和豆科甘草属[34]等.裸子植物叶绿体DNA一般为父系遗传[35,36],如松柏类[37].
1.3叶绿体基因组的基本结构叶绿体DNA一般为双链环状分子,大多数高等植物的叶绿体基因组是高度保守的四分体结构,包括大单拷贝区(Large Single Copy,LSC,长约81~90 kb),小单拷贝区(Small Single Copy,SSC,长度介于18~20 kb之间)和两个反向重复区(Inverted Reapet Sequence,IRa和IRb,长度约为20~30 kb)[38](图1).也有少数植物,如牻牛儿苗属植物[39],蒺藜苜蓿、鹰嘴豆、三叶草等豆科植物[40],因为丢失了一个反向重复区而不具有四分体结构.
图1 被子植物无油樟(Amborella trichopoda)的叶绿体基因组结构图示[46]
植物叶绿体基因组长度一般为107~218 kb,而叶绿体基因组长度的变化主要是由IR区的收缩和扩张导致的[41].目前已知的叶绿体基因组最大的被子植物是牻牛儿苗科的天竺葵(Pelargoniumxhortorum),其叶绿体基因组大小为217 942 bp(NC_008454).天竺葵的反向重复区发生了明显的扩张,其IR区达到了75 kb[42].由于猴耳环属植物Pithecellobiumflexicaule叶绿体基因组IR区(长度达到41 503 bp)向LSC区的扩张,使其成为目前已报道的豆科植物最大的叶绿体基因组[43].黑松Pinusthunbergii叶绿体基因组长度仅有119 707 bp(NC_001631),主要是因为黑松叶绿体基因组的反向重复区发生了严重的收缩,其IR区的长度仅有495 bp[44].此外,叶绿体基因的插入缺失或重复序列的数量也会影响叶绿体基因组的大小.例如单子叶植物叶绿体基因组普遍比双子叶植物的叶绿体基因组小15 kb左右,这主要是由于单子叶植物中丢失或部分丢失了ycf1(约5~7 kb)和ycf2(约5 kb)这两个较长的基因片段[45].在天竺葵叶绿体基因组中发现了大量大于100 bp的重复序列,占叶绿体基因组的17.5%~26.9%.
叶绿体基因组大约编码110~130个基因,按照基因功能不同可以分为四大类[38].第一类是光合作用相关的基因,包括与光系统I相关的psa基因家族、ycf3和ycf4,与光系统II相关的psb基因家族,NAD(P)H脱氢酶类基因ndh基因家族,细胞色素b/f复合体类基因pet基因家族,ATP合成酶类基因atp基因家族和核糖体大亚基基因rbcL.第二类是与叶绿体基因表达相关的基因,包括编码核糖体大亚基蛋白类基因rpl基因家族,编码核糖体小亚基蛋白类基因rps基因家族,RNA聚合酶类基因rpo基因家族,核糖体RNA类基因和转运RNA类基因.第三类是与叶绿体中生物合成相关的基因,包括成熟酶基因matK,蛋白酶基因clpP,包膜蛋白基因cemA,乙酰辅酶A羧化酶基因accD,细胞色素酶合成基因ccsA和翻译起始因子infA.第四类是一些功能未知的开放阅读框,如ycf1,ycf2和ycf15等.
1.4叶绿体基因组进化被子植物叶绿体基因组的结构高度保守,分子进化速率适中,约是核基因进化速率的1/3,是线粒体进化速率的3倍[47].反向重复区对于维持叶绿体基因组结构的稳定性具有重要意义,IR基因的碱基替代率仅为单拷贝区基因的1/4[48].
自叶绿体起源演化至今,被子植物叶绿体基因组仅保留了其祖先5%的基因含量,而且这一过程还在继续[39].基因丢失最明显的例子是寄生植物,列当科(Orobanchaceae)[49,50],兰科地下兰植物(Rhizanthellagardneri)[51],旋花科菟丝子属(Cuscuta)[52]等植物丢失了大部分与光合作用相关的基因,全寄生植物大花草的叶绿体基因甚至完全丢失[53],体现了与寄主的协同进化.NAD(P)H脱氢酶复合体编码基因是一类参与光系统I电子传递过程的重要基因,通常由11个ndh基因组成,然而该基因家族在泽泻目(Alismatales)[54],兰科(Orchidaceae)[55],牻牛儿苗科(Geraniaceae)[56]等多个类群中普遍存在缺失现象.禾本科植物accD、ycf1、ycf2基因和clpP、rpoC1基因内含子也发生了丢失[57].除了基因丢失,还发现了一些叶绿体基因向核基因或线粒体基因组的转移.拟南芥的比较基因组分析显示,核基因组中由叶绿体基因组起源的基因比例至少占到18%[24].在线粒体基因组中,叶绿体基因组起源的基因比例达到了1/3[58].
叶绿体基因组的重排往往发生在大单拷贝区的基因间隔区,大片段的重排是进化事件,具有一定的系统发育意义[59].类群特异性的重排常见于桔梗科[60],牻牛儿苗科[61,62],豆科[40],菊科[63]和禾本科[57,64],例如禾本科叶绿体基因组在trnR至trnfM,trnG至psbD以及trnT区域内出现了3次倒置[65].
2.1叶绿体基因组在系统发育研究中的应用叶绿体基因组具有以下优点:①叶绿体基因组较小,但其拷贝数多,全基因组序列更容易获得;②叶绿体基因组一般为单亲遗传,不存在基因重组等问题;③进化速率适中,约为基因组进化速率的1/3,同时叶绿体基因组中基因编码区和非编码区的进化速度差异显著.因此叶绿体基因组适合于不同分类阶元的系统发育研究[66].基于全叶绿体基因组序列信息位点重建不同阶元的系统发育关系得到了广泛的应用并较好地解决了被子植物目级、科间、属间甚至属下种间的关系.Jansen等人[67]基于64个叶绿体基因组重建了被子植物目级水平的系统发育框架,结果表明Amborella是被子植物中最早分化的类群;Li等人[68]选择被子植物全部64目,利用2,881个质体基因组的80个基因,重建了目前为止取样最广泛的、高分辨率的被子植物叶绿体基因组系统发育树.在科或亚科水平上,Wu等人[69]基于22个叶绿体基因组的76个蛋白编码基因序列重建了禾本科内部BEP分支亚科间的系统发育关系;Zhang等人[70]基于质体基因组学数据重建了被子植物重要类群蔷薇科的系统发育树,研究包含了蔷薇科79属132种,成功解析了蔷薇科各亚科、族和属间的系统发育关系;Zhai等人[71]利用叶绿体基因组对毛茛科的系统发育关系进行了研究;Zhang等人[72]选取豆科全部6个亚科和97%族的叶绿体基因组数据进行全面分析,获得了豆科具有强统计支持且基本一致的系统树.此外,叶绿体基因组还用于研究榆科[73]、芸香科[74]等的系统发育研究.
Liu等人[11]基于叶绿体基因组数据对画眉草族下画眉草属、镰稃草属及九顶草属的关系进行了研究,结果不支持镰稃草属的成立,镰稃草应为画眉草属下的一个种;Bruunlund等人[75]基于叶绿体基因组重建了榕属属下组间的系统发育关系,获得了高支持的系统发育树,解决了无花果及其主要类群之间的关系,并且很大程度上支持了基于核基因序列的结果.Asaf等人[76]将野生稻与其近缘种的叶绿体基因组进行比较,并基于叶绿体基因组数据解析了野生稻与其近缘种的亲缘关系.Asaf等人[77]比较了Nicotianaotophora及其近缘种的叶绿体基因组结构并基于叶绿体基因组数据重建了烟草属下种间关系.Wang等人[10]基于叶绿体基因组数据探讨了隐子草属属下种间关系,虽然没有完全解析该属下所有种的关系,但是质体数据高度支持Cleistogenessquarrosa是该属的基部类群.此外,叶绿体基因组也在山茶属[78]、葱属[79,80]、松属[81]等系统发育研究中得到了应用.
虽然叶绿体基因组数据目前已经广泛用于系统发育研究[82-85],但仍存在一些问题.近年来,基于叶绿体系统发育基因组学研究比较有争议的问题就是由系统误差导致的长枝吸引效应.长枝吸引效应(Long Branch Attraction,LBA)是指基于有限的数据集进行系统发育研究过程中,由于高频率的平行突变、回复突变或进化速率较快等因素存在,使原本亲缘关系较远的类群序列达到相似,而系统发育分析过程中会错误地把这些不是来自共同祖先的类群聚在一起的现象[86].在利用组学进行系统发育研究的过程中,LBA效应会被显著放大,对精确重建系统发育关系产生不利影响[87-89].目前,在柏木亚科[90]等类群中研究了质体系统发育基因组学中的LBA效应.引起长枝吸引效应的原因有很多,最常见的原因是取样不全或取样不当.一个典型的例子就是关于被子植物基部类群的研究[46,91-93].许多系统发育研究工作者提出了几种避免长枝吸引效应的方法,主要包括:①模型优化,在构建系统发育树之前,将比对好的数据矩阵通过设定gamma分布参数进行最优模型选择[94, 95];②去除快速演化的基因或位点,如第三位密码子等[96, 97];③增加代表类群取样,尤其是增加与长枝分类单元较近对的类群[98].此外,仅仅依靠叶绿体基因组数据重建的系统发育关系不能解释网状进化、杂交和多倍化等现象.因此,想要反映物种的真实的系统发育关系仍需要结合更多的分子、细胞和形态等数据.
2.2叶绿体基因组在居群遗传学研究中的应用居群遗传学(Population genetics)主要研究生物居群等位基因频率及居群的相互关系,主要有自然选择、遗传漂变、基因突变和基因流四个过程.目前居群遗传学主要研究种内居群间或近缘物种之间的进化历史,其研究内容主要集中在遗传多样性、遗传分化和物种进化方式等方面[99].遗传多样性指的是种内遗传多样性或遗传变异,是生物多样性的重要组成部分.遗传多样性实质是内在遗传物质的变异[100].DNA序列的多态性为遗传分析奠定了基础,单亲遗传且一般没有重组使得叶绿体基因组序列成为研究植物居群遗传的得力工具[101].SSR位点在真核生物基因组分析中普遍存在,多态性高,可通过PCR快速分型.叶绿体基因组中的SSR位点可以为植物居群遗传结构的分析提供重要的信息.在松属植物中,叶绿体基因组是通过花粉遗传的,借助PCR方法可以检测该属植物的基因流[102].利用跨越叶绿体基因组不同区域并且可以扩增编码区和非编码区的100对引物(72对引物位于LSC区,13对引物位于SSC区,15对引物位于IR区),对13种单子叶植物进行扩增和测序,发现薯蓣属、马唐属和狼尾草属植物的多样性主要表现为单核苷酸多态性.棕榈科(Arecaceae)植物的多样性还包括可变数目的串联重复序列,最容易发生变异的基因座(rps15-ycf1、rpl32-ccsA、ndhF-rpl32、ndhG-ndhI和ccsA)位于SSC区[13].Zhao等人[12]基于叶绿体全基因组、转录组和基因分型测序(GBS)研究了中国胡桃属植物的居群遗传、系统发育关系和杂交物种形成.
2.3叶绿体基因组在谱系地理学研究中的应用谱系地理学是生物地理学的一个分支,主要研究近缘物种之间及种内不同居群间的亲缘关系,探究物种演化与地质历史的关系,并结合多学科推断种群动态、进化历程及物种现有分布格局的成因[103].叶绿体基因组为单亲遗传且进化速率适中,在谱系地理学领域应用较为广泛.目前,多以叶绿体分子标记进行植物谱系地理学研究[104-106].随着测序技术的发展,基于比较叶绿体基因组研究开发特异性标记已经成为趋势,对紫薇属六个物种全叶绿体基因组比较分析,鉴定到12个高可变区,为紫薇属的居群遗传学和谱系地理分析提供了可用的质体标记[107].对紫檀属五个物种叶绿体基因组比较分析鉴定到8个高度可变区,可以作为特异性标记进行紫檀属的谱系地理学研究[14].Xu等人[15]基于叶绿体基因组数据对风毛菊属的分类、物种分布和地理历史进行了研究,表明青藏高原及周边地区如横断山脉的景观异质性对风毛菊属的演化具有重要的作用,青藏高原及周边地区的持续抬升和全球变冷可能导致风毛菊属的地理扩张和扩散.
2.4叶绿体基因工程Daniell等人[108]发现,经过EDTA处理后的黄瓜黄化质体可以吸收外源DNA,并在体内表达.基因枪轰击法极大地简化了叶绿体遗传转化体系,Boynton等人[16]首次利用基因枪法将atpB基因导入该基因突变衣藻叶绿体中,获得了光合作用恢复的衣藻;Svab等人[109]获得了高等植物烟草的叶绿体稳定遗传植株.Ruf等人[110]结合CRISPR-Cas9基因编辑技术,开发了新的高效稳定的叶绿体遗传转化方法.与传统的以核基因组为受体的遗传转化相比,叶绿体遗传转化具有很多优势[18]:目的基因表达效率高,不存在转化后基因沉默现象;叶绿体基因表达方式与原核生物相似,可以进行多顺反子表达;叶绿体是一个生物反应器,能够在叶绿体中积累任何的外来蛋白和其他生物产物,尤其是在细胞质中有害的生物产物;多为母系遗传,外源基因不会随花粉扩散,环境安全性高.除烟草外,小麦[111]、水稻[112]、大豆[113]、棉花[114]、番茄[115]、马铃薯[116]、胡萝卜[117]、莴苣[118]和拟南芥[119]等植物的叶绿体遗传转化研究也取得了成功.
通过叶绿体基因工程将抗性基因导入叶绿体基因组中,可以增强植物对除草剂的耐受性或增强植物抗虫性.在植物中表达对草甘膦不敏感的epsps基因是培育耐除草剂作物的主要方式[120].将epsps基因导入烟草叶绿体基因组后,得到的转基因植株表现出了高草甘膦抗性[121].类似的,通过叶绿体基因工程获得的转Bar基因植株,也表现出了对草铵膦类除草剂的抗性[122].McBride等人[123]将抗虫基因cry1Ac导入烟草叶绿体基因组中,转基因植株中Bt蛋白的表达量显著高于核基因转化得到的转化植株的表达量,这是叶绿体基因工程对农艺性状改良的首次应用.Zhang等人[124]利用质体转化系统在烟草和马铃薯中高效表达了马铃薯叶甲虫的双链RNA,在提高植物抗虫性上取得了突破性进展.
渗透保护剂在植物应对干旱和盐胁迫等非生物逆境过程中起重要作用,将编码渗透保护剂相关基因在植物体内过表达,可以有效提高植物的耐盐和耐旱能力.Kumar等人[117]将编码甜菜碱脱氢酶的BADH基因导入胡萝卜叶绿体基因组中,发现转基因植株BADH基因的表达量显著提高,明显提高了转基因植物的耐盐能力.将编码阿拉伯糖醇脱氢酶的ArDH基因导入烟草叶绿体基因组中,获得了能够在含350 mmol/L NaCl的土壤中正常生长的转基因植株[125].在烟草叶绿体中表达脱氢抗坏血酸还原酶、谷胱甘肽-S-转移酶和谷胱甘肽还原酶提高了植物对非生物胁迫的耐受性[126].
由于叶绿体数目庞大,叶绿体基因组的拷贝数多,其整合的外源基因表达效率高,所以叶绿体转基因植株是生产生长激素、抗体和蛋白质最好的生物反应器,其表达量比核基因组转化系统高300倍[127].此外,有些在细胞质中可能是有害的物质,不能通过核基因转化获得[128].例如,霍乱β亚基(CTB)基因,通过核基因组在叶片中表达时,即使表达水平很低,仍会对叶片造成毒害,但当该基因导入叶绿体基因组并大量表达积累时是无毒的[19,20].海藻糖是一种医药工业的防腐剂,当它在细胞质中积累时,对植物细胞毒性很大,但当其在叶绿体中区隔时,对细胞是无毒的[129].不同于在核基因组的转化和表达,木聚糖酶在叶绿体中高表达不会导致细胞壁降解也不会影响植物生长[130].
叶绿体是植物进行光合作用的场所,是植物特有的细胞器.与核基因组相比,叶绿体基因组具有拷贝数高、进化速率适中等优点.随着测序技术的快速发展,叶绿体基因组测序开始变得简单.叶绿体基因组数据已经在系统发育、居群遗传和谱系地理研究中得到了广泛的应用.但是对于一些特殊植物的叶绿体基因组结构变异机制的研究还不够深入,对于叶绿体基因的RNA编辑、水平转移、核质互作等进化方面的研究仍需要广泛开展.对叶绿体基因组的深入研究将会促进我们更好地应用叶绿体基因组.