朱强龙,朱子成,王鹏飞,吕慧玲,崔浩楠,栾非时
(农业部东北地区园艺作物生物学与种质创制重点实验室·东北农业大学园艺学院 哈尔滨 150030)
葫芦科(Cucurbitaceae)有 95 个属和 942~978个种[1],其中包括了黄瓜(Cucumis sativus)、甜瓜(Cucumis melo)、西瓜(Citrullus lanatus)、南瓜(Cucurbita moschata)、西葫芦(Cucurbita pepo)等重要的蔬菜作物,且葫芦科作物的经济价值仅次于茄科[2]。研究发现葫芦科作物拥有独特的半自主性的细胞器基因组(线粒体和叶绿体基因组)和目前已测序公布的高等植物中最大的线粒体基因组,且不同葫芦科作物间的线粒体基因组差异显著[2-7];叶绿体基因组相比其他高等植物叶绿体基因组缺失比较少。研究发现葫芦科作物的细胞器基因不仅与光合作用、呼吸作用等重要的细胞代谢途径相关,还与抗冷性[3-4]、性别分化[5]等重要性状相关。相比在葫芦科作物间差异较大的核基因组和线粒体基因组,利用相对保守的叶绿体基因组的分子标记或基因序列能很好地解答葫芦科作物之间的进化起源关系[1,6-8]。此外,大量研究揭示了黄瓜和甜瓜的线粒体基因组呈现父系遗传[9-14],而与它们亲缘关系较远的西瓜和西葫芦却保持着母系遗传方式[5,12,15],然而未能阐明其遗传方式差异的机制。迄今为止,已有黄瓜[16]、西瓜和西葫芦[17]3个作物的线粒体基因组测序完成,甜瓜线粒体基因组大部分虽然已经测序公布,但仍然不完整且结构不清楚[2];黄瓜[18-20]、甜瓜[2]和野生黄瓜[21]的叶绿体基因组测序完成,其他葫芦科作物的线粒体和叶绿体基因组还未测序发表。本文主要综述了葫芦科作物线粒体和叶绿体基因组特征和细胞器基因组应用等方面的研究进展,为进一步开展其他葫芦科重要作物细胞器的测序工作及深入研究葫芦科作物间细胞器基因组差异、进化关系、线粒体遗传模式差异等科学问题提供理论指导。
目前已测序的葫芦科作物,线粒体基因组结构均为环状结构。然而不同葫芦科作物之间的线粒体基因组结构差异很大(表1),如黄瓜线粒体基因组中含有3个独立复制的自主环状染色体,除了一个大的主环以外,还有2个小的亚环结构,大小约为1 685 kb,其中的2个小环不含任何基因,类似于染色体外质粒。而西瓜和西葫芦中均为单环,大小分别为379 kb和983 kb。目前,甜瓜线粒体基因组测序仅完成95%,结构未能明确,含有5个Scaffolds和 4个 Contigs,大小约为 2.74 Mb,其中最大的Scaffold包含了大部分的蛋白编码基因。甜瓜的线粒体基因组是葫芦科中最大的,其大小分别是黄瓜、西葫芦和西瓜的2、3和7倍之多。
表1 葫芦科作物线粒体基因组特征
葫芦科作物线粒体基因组包含复合体I~V基因、细胞色素C生物合成基因、核糖体蛋白基因、matR基因、mttB基因、3个 rRNA基因、13~24个tRNA基因和未知功能的ORFs(表2)。葫芦科家族中不同作物线粒体的编码蛋白基因比较保守,基因数目相似,如黄瓜、西瓜和西葫芦均为37个,但黄瓜、西瓜和西葫芦之间的编码蛋白基因并不完全相同,如西瓜和西葫芦都有rps19,黄瓜中则没有;而黄瓜中有rpl10,西瓜和西葫芦中却没有。甜瓜只有36个编码蛋白基因,丢失了rpl10和rps19。研究认为葫芦科植物进化过程中黄瓜和甜瓜丢掉了rps19或将其转入核基因组中或作为假基因存在[2,16]。而rpl10在拟南芥、油菜和甜菜等双子叶植物中已经缺失,其功能需要由核基因来行使[22]。nad1、nad2和nad5在葫芦科作物中均存在反式剪切外显子[23]。黄瓜和甜瓜在进化的过程中cox2基因可能失去了1个内含子[16],而cox1基因却获得了1个内含子[17],cox1包含的内含子也被称为I型内含子,通过基因水平转移广泛分布在被子植物中,其余基因仅包含的内含子均为II型内含子[17]。黄瓜、甜瓜、西瓜和西葫芦线粒体基因组中基因编码序列和内含子序列的比例均与线粒体基因组大小成反比(表1),这可能是由于葫芦科线粒体基因组中编码序列和内含子序列比较保守,长度变化小,而线粒体基因组基因间长度变化大的原因。此外,西瓜线粒体基因组虽然最小,但含有比黄瓜和西葫芦更长的编码序列,然而黄瓜和甜瓜则拥有更长的内含子序列。
表2 葫芦科线粒体基因组包含的基因
葫芦科作物线粒体基因组中的tRNA差异较明显,甜瓜线粒体基因组中的tRNA基因是葫芦科作物中最多的,而西葫芦是最少的(表1)。trnH-GTG、trnL-CAA、trnN-GTT和trnS-TGA-cp是甜瓜中特有的 tRNA 基 因(表2),trnD-GTC、trnM-CAT、trnR-ACG、trnR-ACG-cp、trnW-CCA等 5个 tRNA 仅存在于黄瓜和甜瓜中,这可能是黄瓜和甜瓜在进化过程中从核基因组或叶绿体基因组获得的。trnK-TTT是西瓜和西葫芦特有的tRNA基因,甜瓜和黄瓜可能在进化过程中均丢失了trnK-TTT基因。此外,葫芦科作物中含有3个rRNA基因和4个未知功能的ORFs。
水平基因转移(horizontal gene transfer,HGT),是细胞或细胞器间进行遗传物质交流的过程。植物细胞器基因组与细胞核基因组、细胞器基因组之间(线粒体与叶绿体)均存在着丰富的遗传物质交流:核基因组和线粒体基因组之间存在双向转移DNA序列;叶绿体基因组向细胞核和线粒体基因组中转移DNA序列。叶绿体基因组比较保守,很少接受外源DNA片段的导入。黄瓜和甜瓜线粒体基因组中已发现了大量由核基因转入或同源不能确定转移方向的序列,分别为全线粒体基因组的30.5%和46.5%,线粒体基因组中大量的核基因起源序列是导致黄瓜和甜瓜线粒体基因组显著扩增的主要原因之一[2,16]。相比之下,西瓜和西葫芦线粒体基因组含有非常少的核序列。此外,葫芦科作物线粒体基因组中也发现少量的叶绿体序列,其中西葫芦中最多,依次是西瓜、黄瓜和甜瓜(表1)。西葫芦线粒体基因组的扩张可能与吸入大量叶绿体序列和出现未知起源的大量短重复序列有关[17]。此外,研究表明,HGT现象在植物与原核生物之间也存在,如黄瓜线粒体基因组中发现类似变形杆菌和线粒体病毒的序列[16]。其他葫芦科作物中还未有相似的报道,但在葡萄[24]和豇豆[25]等其他科植物中已有类似的研究报告。
RNA编辑是线粒体基因表达过程中一种特殊而重要的RNA加工过程,是指转录产物的核苷酸序列与其DNA模板相比发生了变化[26],主要为C→U的转变,很少有U→C的转换[17]。在RNA编辑的发现之前,人们认为线粒体使用一套异常的密码子,然而自1989年起,植物中RNA编辑现象的陆续发现合理地解释了这种现象[27],表明标准密码子规则在线粒体基因组中也适用。RNA编辑主要发生在密码子的第一和第二位点上,在很多被子植物中常常导致大于92%的氨基酸发生改变[17],甚至导致编码基因的起始密码子和终止密码子的改变[26];在内含子与外显子之间的编辑常常影响内含子的有效剪接。RNA编辑在高等植物线粒体基因中是非常普遍的现象,在拟南芥、水稻、油菜[28-30]中的RNA编辑总数均超过400次。此外,几乎所有的线粒体编码蛋白基因的转录产物都受到不同程度的RNA编辑,却很少发生在rRNA、tRNA及内含子中[28]。葫芦科作物线粒体的基因也不例外,目前,黄瓜和甜瓜中线粒体基因RNA编辑的研究还未见发表;西瓜和西葫芦线粒体基因组中编码蛋白基因的RNA编辑位点总数分别为463和444,均为C→U的转换,其中394个RNA编辑位点是2个物种共享的。不同基因的RNA编辑次数在葫芦科作物中是不同的,核糖体蛋白基因(rpl2、rps1和rps7)相比其他基因受到较少的RNA编辑,而mttb、ccmB和ccmFn等基因却有很高的RNA编辑次数。相同基因在不同作物之间RNA编辑效应也是不同的,如ccmFc、cob、matR和mttB基因中大部分非同义编辑在西葫芦中的是完全编辑,在西瓜中却是部分编辑。此外,在西瓜和西葫芦中RNA编辑为nad1、nad4和rps10等3个基因中创造了新的启动子,在atp9和rps10中编辑产生了新的终止子[17]。
重复序列是指在一个基因组中含有2个以上的拷贝序列,葫芦科作物线粒体基因组中分布着大量这样的重复序列,其长度和构象具有高度多样性。如甜瓜线粒体基因组中含有接近一半的重复序列[2];黄瓜和西葫芦线粒体基因组中分别含有35.9%和37.7%的重复序列[16-17],均超过总序列的三分之一;西瓜线粒体基因组中的重复序列仅为全基因组的10.0%[17]。黄瓜线粒体基因组中最多的重复序列片段长度小于50 nt,且这类短片段重复序列是导致黄瓜线粒体基因组扩增的主要原因[16,31];甜瓜线粒体基因组中长度为20~49 nt的重复序列占总重复序列的65.6%,仅有3条重复序列长于399 nt[2];西瓜中仅有一条长度为7.3 kb的重复2次的大片段重复序列,其余的重复序列均小于400 nt[17];西葫芦线粒体基因组中所有的重复序列均小于621 nt,重复次数最多的片段长度在19~40 nt之间[17]。短片段重复序列也包含简单重复序列、转座子、插入重复序列和串联正向重复序列。然而,研究表明它们在甜瓜、西瓜和西葫芦等作物的线粒体基因组中含量均小于2%[2]。绝大部分重复序列都位于基因间区,仅有少数位于编码基因和内含子中。而位于重复序列上的基因通常成为多拷贝基因,如西瓜中多拷贝的sdh3、trnQ和trnG便位于最长的重复序列上[17]。在葫芦科作物线粒体基因组中重复序列的重组对葫芦科作物线粒体基因组的基因组大小和基因排列进化有很大的影响[2],还可能导致植株表型突变,如经过组培筛选突变体后连续多代自交获得的黄瓜马赛克表型突变系可能与线粒体基因组序列的重复或重组相关[32-34]。在其他高等植物中,重复序列的频繁重组还导致了胞质雄性不育,如玉米[35]和甜菜[36];还能改变启动子的位置从而影响基因的表达模式[37]。
关于线粒体遗传方式的研究开始于在线粒体中发现有DNA之后[38],并首先在动物线粒体中开展[39],紧接着在植物中也有线粒体遗传方式的相关研究[40-41]。目前,研究发现线粒体的遗传方式主要有3种类型:母系遗传、父系遗传和双亲遗传[42],动物中线粒体表现出严格的母系遗传;植物中线粒体的遗传方式以母系遗传为主,仅少数植物存在父系遗传或双亲遗传[10]。父系遗传是一种非孟德尔遗传方式,植物中线粒体的父系遗传现象首先在绿藻中发现[43],之后研究发现黄瓜和甜瓜中的线粒体也呈现出父系遗传,而西瓜和西葫芦仍然保持着母系遗传,且4个作物的叶绿体都仍为母系遗传[12]。此后,有大量研究分别从细胞学和分子遗传学等多种角度再次在黄瓜和甜瓜中验证[9-11]。除了在甜瓜属中发现线粒体的父系遗传之外,在香蕉[44]和猕猴桃[45]等少数其他高等植物中发现线粒体也呈现父系遗传。然而由于线粒体父系遗传的种子植物种类很少,关于线粒体父系遗传形成机制的研究非常少,在葫芦科作物中,仅黄瓜中有2个相关的研究:Havey等研究认为在核基因组上存在一个Psm位点控制黄瓜的父系遗传[46-47];在黄瓜基因组公布以后,Calderon等将该位点定位到黄瓜3号染色体上,并认为它是一个主效QTL[48]。在其他植物中,研究认为在莱茵衣藻中卵细胞形成后3~6h,线粒体选择性地消失导致其线粒体基因组表现出严格的父系遗传方式[49]。此外,被子植物生殖细胞中有丝分裂I期是决定细胞器基因组遗传方式的关键时期,在这个时期细胞器遗传方式取决于细胞器基因组的复制或降解[42]。近年来,一些研究认为线粒体基因组在系统进化、生物学分类、亲缘关系分析等方面具有和叶绿体基因组相似的重要意义和作用[10,45],特别是父系遗传的线粒体基因组,能从父系遗传的角度对物种的系统发育关系作出独特的解释[50-51]。然而,目前在黄瓜和甜瓜中还未见线粒体基因组的相关研究报道。
目前,葫芦科中只有黄瓜和甜瓜2个作物的叶绿体基因组已测序发表,其中黄瓜叶绿体基因组包括4个栽培品种[18-20]和1个野生种[21],甜瓜的仅有1个栽培品种完成了叶绿体基因组测序[2]。它们的叶绿体基因组均为典型的4段式双链环状分子结构,即 1个大的单拷贝区(Large Single Region,LSC)、1个小的单拷贝区(Small Single Copy Region,SSC)和2个长度基本相同的反向重复区(Inverted Repeat,IR)。目前NCBI中已收录的其他植物的叶绿体基因组绝大部分属于此类分子结构,如拟南芥、烟草、水稻[52-54]等,因此可以推测其他未测序的葫芦科作物的叶绿体基因组的结构也应为双链环状分子结构。然而其他植物中也有极少数叶绿体基因组为多环型或线型结构,如双鞭甲藻的为多环型结构[55],伞藻的为线型结构[56]。研究表明黄瓜和甜瓜的叶绿体基因组大小分别为155 527 bp和156 017 bp,其中LSC、SSC和IR的比例也十分相似(表3)。其他大多数光合植物叶绿体基因组的大小一般在115~165 kb 之间[57],LSC 区的长度约为 81~90 kb,SSC 区长度介于18~20 kb之间,IR区长度变化则介于5~76 kb之间[58]。IR区可能对于植物的生长发育并不重要,并且在植物界的进化过程中可能经历过多次的缩减和扩增,如豌豆、日本柳杉的IR区完全消失[59];日本黑松的IR区序列已经缩减至495 bp[60];天竺葵的IR区却急剧增加了76 kb[61]。然而,叶绿体基因组的大小变化在进化过程中主要受到IR区的延展、缩小或丢失的影响[62]
植物叶绿体基因组一般拥有110~130个基因[57],黄瓜和甜瓜叶绿体基因组中分别有112和115个基因,且在基因组的组成及排列顺序上具有高度保守性[2]。这些基因主要分为3大类:第一类是与光合作用相关的基因,包括光系统I(psa)、光系统 II(psb)、细胞色素 b/f复合体(pet)、Rubisco 大亚基(rbcL)、ATP 合成酶(atp)、NAD(P)H 脱氢酶(ndh)等基因;第二类与叶绿体转录翻译表达相关,包括核糖体 RNA(rrn)、转运 RNA(trn)、RNA 聚合酶(rpo)、核糖体蛋白(rpl)、翻译起始因子(infA)等基因;第三类为开放式阅读框(Open reading frame,ORF)和一些其他蛋白编码基因,如ycf、matk等基因。黄瓜和甜瓜叶绿体基因组均含有21个内含子,且含有内含子的基因都相同,其中15个基因有1个内含子,3个基因有2个内含子(表3),且绝大多数内含子为II型内含子,只有trnL含有I型内含子,此外rps12在2个物种中均为含有反式剪接内含子的基因,进一步表明同属植物叶绿体基因组比较保守。
表3 黄瓜和甜瓜叶绿体基因组特征
系统发育也称为系统发展,是与个体发育而言的,它是指某一个类群的形成和发展过程。早期研究葫芦科及其他高等植物的系统发育学,主要是通过研究化石记录、比较形态学和比较生理学,来构建出它们的进化历史。随着分子生物学和测序技术的高速发展,系统发育研究开始转向分子系统发育学研究邻域,即基于生物大分子序列或结构所提供的信息来推测生物的进化史。目前,葫芦科植物的系统发育研究主要是利用叶绿体基因组和核基因组的序列或分子标记。相比差异较大的葫芦科作物核基因组和线粒体基因组,叶绿体基因组大小适中,便于测序,且各植物类群叶绿体基因组之间具有良好的共线性,碱基替换率较低,适用于不同阶层的系统发育系研究。因此,葫芦科作物叶绿体基因组序列或分子标记被广泛地应用于分子进化和系统发育的研究。通过对240个葫芦科植物的叶绿体基因组中的5条基因序列进行测序和系统发育分析表明[63],黄瓜、甜瓜、西瓜和西葫芦都来自于同一个祖先,西葫芦在3 000万年左右分离出去,西瓜在2 000万年左右也被分离出去,而黄瓜和甜瓜则在1 000万年左右彼此分开[17],并且被广泛认可。早期研究表明黄瓜的起源和驯化都在亚洲,主要是印度西部喜马拉雅山南麓到锡金、尼泊尔乃至我国的云南[64],在白垩纪晚期经历了多次飘洋过海的长距离扩散到了非洲、美洲和澳大利亚大陆,后来基于黄瓜叶绿体基因序列和分子标记也支持这一观点[63]。相比黄瓜,甜瓜的地理起源仍存在较多争议,在以前的研究中认为甜瓜的起源和驯化都在非洲[65-66],后来基于叶绿体基因的研究表明甜瓜起源于亚洲和澳大利亚[6,63],在甜瓜叶绿体基因组公布后,利用叶绿体基因组中更长片段的序列进行相似研究的报道又认为栽培甜瓜起源和驯化在非洲[1]。目前尽管西瓜和西葫芦叶绿体基因组测序还未完成,但基于同源基因克隆西瓜中叶绿体基因组少数基因进行测序和系统发育分析,结果表明西瓜也起源于非洲[67-68],利用叶绿体基因组限制性酶切片段多态性标记和4个基因片段构建的系统发育树很好地证明西葫芦起源于美洲[69-70]。但是叶绿体基因组在系统发育研究中也存在因随机误差和系统误差导致的基于不同序列的不同系统发育结果不一致,或基因树与物种树不一致,或基因树支持率很高却不能反应系统发育关系,以及叶绿体的单亲遗传性质仅能反应父系或母系的进化历程等问题,需要引起注意[71]。
虽然葫芦科植物资源较为丰富,目前仅有少数重要的葫芦科蔬菜作物开展了相关的系统发育研究,绝大多数的葫芦科植物的遗传背景仍然不清楚。基于叶绿体基因组的分子系统发育学研究将有助于阐明葫芦科植物的遗传背景,促进葫芦科植物种质资源的利用和重要葫芦科农业作物的遗传改良及品质育种。
研究表明,葫芦科作物独特的线粒体和叶绿体基因组拓展了对高等植物线粒体和叶绿体基因组的认识,丰富了高等植物分子生物学数据库,但关于葫芦科作物的线粒体和叶绿体基因组仍有很多尚未探明的机制:黄瓜和甜瓜线粒体父系遗传方式的机制;与它们同科的西瓜和西葫芦却是严格的母系遗传的原因;黄瓜和甜瓜线粒体基因组的RNA编辑机制;基于线粒体基因组的植物分类、系统进化在葫芦科中还未开展;研究葫芦科作物线粒体和叶绿体基因组的目标之一,是对线粒体和叶绿体基因组进行人工修饰或转化,虽然到目前为止线粒体转化,在植物中尚未有成功案例的报道,但叶绿体转化在其他植物中已有广泛的应用并已取得良好的成果[72],如烟草[73-74]、甜菜[75]和玉米[76]等,而在葫芦科中至今仍未有相关研究报道。
随着测序技术的不断高速发展,更多葫芦科作物的线粒体和叶绿体基因组将会被测序,从而促进很多基于葫芦科作物线粒体和叶绿体基因组的相关研究,使研究者更好地了解葫芦科作物的线粒体和叶绿体基因组及其功能。