邱 涛,刘孝伟,唐 津,张 鹏,易洪杨,曹墨菊
(四川农业大学玉米研究所,农业部西南玉米生物学及遗传育种重点实验室,成都611130)
细胞质雄性不育现象在植物界普遍存在,植物细胞质雄性不育表现为典型的细胞质遗传。因此关于植物细胞质雄性不育分子水平的研究,主要围绕叶绿体基因组及线粒体基因组展开。刘一农等[1]根据叶绿体DNA(cpDNA)的热溶解曲线及含变性剂的双向电泳分析,发现玉米CMS-C型不育系与其保持系之间的cpDNA有明显的差异;根据双向电泳结果发现不育系与保持系的cpDNA存在若干内切酶碱基组成的差异;根据电子显微镜的观察发现不育系与保持系的叶绿体亚显微结构方面也有明显的区别。刘一农等[2]利用cpDNA的热变性分析和限制性内切酶EcoRI、BamHI消化分析,根据热变性溶解曲线及酶切片段的单向电泳和含变性剂浓度梯度的双向电泳结果,比较分析了玉米、小麦和油菜不育系与保持系的cpDNA,并认为这3种植物的不育系与保持系的叶绿体DNA存在差异。刘祚昌[3]通过对叶绿体基因组翻译产物分析,发现高粱不育系与其保持系之间存在差异,而甜菜不育系与保持系之间未检测到差异。段乃彬等[4]对4个萝卜细胞质雄性不育系和1个保持系的叶绿体基因组及线粒体基因组进行了组装及比较分析。综合前人的研究结果,可以发现大多数植物细胞质雄性不育可能与线粒体基因组的变异有关,某些细胞质雄性不育则可能与叶绿体基因组的变异有关。不同作物细胞质雄性不育系可能受控于不同的细胞质遗传系统。
在DNA水平对叶绿体基因组进行研究的主要方法可归纳为3种[5]:①限制性内切酶酶切图谱分析法。1998年以前此方法广泛应用,通过酶切片段大小的比较,了解不同物种叶绿体基因组序列之间的变化。1980年,F.Vedel等[6]以4种麦类作物为材料,结合4种酶切图谱分析,研究叶绿体和线粒体之间的进化关系,发现叶绿体基因组酶切多态性远小于线粒体基因组。1983年,刘一农等[1-2]利用该法对玉米、小麦、油菜等不育系及其保持系的cpDNA进行了比较分析,并认为不育系与保持系的cpDNA存在有差异。②分子杂交和PCR法。③DNA测序技术。1986年烟草[7]和地钱[8]叶绿体基因组序列的发表使人们第一次有机会从碱基水平上对不同基因组之间进行比较,在研究方法上有了实质性的突破。之后,许多植物的叶绿体基因组测序相继完成[9-11]。对于酶切图谱分析法,由于酶切位点的限制,所得信息量有限,分析的局限性较大,因而将逐步被淘汰。分子杂交法主要是针对特异片段或特异位点进行分析,因此其应用也受到限制。随着核酸测序技术的飞速发展,从全基因组水平检测遗传差异或多态性已经被广泛采用。高通量测序技术(next generation sequencing)的诞生,极大地提高了核酸测序的数据量,并使得测序成本大大降低。1995年R.Maier等[12]通过构建叶绿体DNA的质粒文库,利用双脱氧链终止测序法获得了完整的玉米叶绿体基因组序列。2015年M.Bosacchi等[13]基于细胞总DNA的二代测序数据,完成了6个玉米材料的叶绿体基因组的组装。目前,基于混合样品高通量测序对植物细胞器基因组进行组装和分析的相关研究已有报道,且呈现出逐渐增多的趋势[14-15]。
对植物细胞质基因组进行研究,传统方法普遍需要先分离出相应的细胞器,提取其DNA,再进行测序分析。有时则需要分离出精制的细胞器,再提取其DNA进行分析。而精制叶绿体的制备,通常需要特殊的设备和复杂的操作程序。目前,基于高通量测序数据,借助于高效完善的计算机分析软件,加之越来越多的各类核基因组及细胞器基因组测序的完成[12,16],为利用混合样品的测序数据对细胞质基因组进行分析提供了可能和保障。利用计算机将这些大量的测序数据进行质量过滤和拼接,再通过比对参考基因组或者PCR试验来进一步填补序列gap,最终获得完整的细胞质基因组。
玉米细胞质雄性不育作为杂种优势利用的重要工具以及核质互作研究的理想材料,长期以来受到遗传学家和育种学家的广泛关注。玉米CMS-C在生产上具有较大的应用前景。然而目前,关于玉米CMS-C及其保持系叶绿体全基因组的比较研究,尚未见报道。本研究试图基于玉米线粒体DNA的高通量测序数据,进行叶绿体基因组组装及分析,旨在探讨该方法的可行性,并进一步了解玉米同核异质、同质异核材料之间叶绿体基因组的差异表现。
取玉米细胞质雄性不育系C48-2、C黄早四、C698-3、C478及其保持系48-2、黄早四种子,在灭菌的培养皿上放两层吸水纸,待无菌水浸湿,在上面均匀摆放约30粒玉米种子,再覆以一层吸水纸,用无菌水完全浸湿上层吸水纸。将培养皿置于28℃恒温培养箱催芽2 d,再将已发芽的种子转移到盛有营养土的盆中,并定期补充水分,培养7 d左右。
线粒体的分离和线粒体DNA的提取采用Wang J.等[17]报道的方法。
线粒体基因组测序由北京百迈客生物科技有限公司协助完成。对供试材料的线粒体基因组DNA分别构建文库,然后用Hiseq2500对文库进行双末端测序,测序读长(reads)的长度为125 bp。为了使得后续分析的结果更加准确可靠,对原始的测序数据进行如下处理:①过滤某个位点N含量≥80%的所有reads;②截取read 1、read 2中高质量区域序列;③过滤低质量的reads;④过滤N含量大于10%的reads;⑤过滤当adapter序列与reads比对上15 bp或以上且错配数≤3的reads;⑥当一对reads完全比对上其他的reads,过滤此冗余的reads。
本试验分离提取的玉米线粒体DNA为粗制线粒体DNA,含有一定量的叶绿体DNA,故本研究通过以已发表在NCBI上的玉米叶绿体基因组为参照序列,利用Bowtie2(http://bowtie-bio.sourceforge.net/index.shtml),参数按软件默认设置,得到所需的sam文件。然后用perl语言编写脚本,将提取序列中与参考序列匹配的reads,生成fastq格式文件,用于后续的拼接。短序列比对获取测序结果中叶绿体DNA的reads。利用Velvet软件对完成过滤和比对后的reads进行组装,通过寻找短序列之间的重叠区域(overlap)将高质量的短序列拼接成重叠群序列(contig),然后将所有的短序列定位到拼好的重叠群序列(scaffold)上,再根据PE(pair-end)关系将重叠群连接成scaffold序列。因参数设置对Velvet的运行结果有很大的影响,尤其是K-mer值和覆盖深度(coverage)的设置。所以实验设置了多个参数进行调试,再将组装序列用BlastN比对到参考基因组,以此对组装获得的scaffold序列进行排序。在scaffold序列内,根据gap上下游序列设计引物并进行PCR扩增,利用Sanger法测序扩增产物,并将测序结果与组装序列和参考序列进行比较,以此填补组装scaffold序列内的gap序列,不同scaffold间的序列以同样的方法进行拼接,最终得到完整的环状玉米叶绿体基因组。
采用在线注释软件DOGMA(http://dogma.ccbb.utexas.edu/)对2份玉米CMS-C不育系和2份保持系的叶绿体基因组完整序列进行基因预测和基因功能分析,根据起始密码子和终止密码子序列手工调整DOGMA初步注释的编码蛋白基因范围,并根据CpBase数据库进行了基因注释,通过BLAST比对参考基因组和手工校准相应基因信息。
功能注释使用同源比对的方法,通过基因预测得到样品的氨基酸序列,与已知的蛋白数据库进行比对,把供试材料的基因和其相对应的功能注释信息结合起来,得到注释结果,以推测它们的结构、功能以及进化上的联系。由于每一条序列比对结果可能超过一条,为保证其生物意义,注释时保留一条最优比对结果作为该基因的注释。
利用Nano Drop 2000检测玉米线粒体DNA质量,选取质量合格的样品,送北京百迈客生物科技有限公司,使用Hiseq 2500测序平台对样品进行测序分析。对48-2、C48-2、黄早四和C黄早四4个材料的线粒体DNA分别构建文库,进行双末端测序,Reads长度为125 bp。对Illumina平台Hiseq 2500测序系统产出的原始数据进行整理(表1),原始文库插入片段为500 bp,获得的测序数据量均超过1.2 Gb,测序深度均超过2 000×。将低质量的reads以及完全相同的冗余reads过滤后,Clean Data数据量均大于1 Gb,Q20值大于90%,Q30值大于85%。
表1 供试材料粗制线粒体DNA的测序结果Table 1 mtDNA sequencing result informations of 4 experimental materials
通过拼接组装分别获得2个不育系及2个保持系的叶绿体基因组序列,C48-2叶绿体基因组大小为140 473 bp,C黄早四为140 478 bp,48-2为140 458 bp,黄早四为140 448 bp,GC含量均为38.4%(表2)。基因组大小与已报道的玉米叶绿体基因组大小相近。采用在线注释软件DOGMA(http://dogma.ccbb.utexas.edu/)对2份玉米CMS-C不育系和2份保持系的叶绿体基因组完整序列进行基因预测和基因功能分析,并根据CpBase数据库进行基因注释,其中蛋白编码基因均为84种,tRNA基因均有30种,rRNA基因均有4种。组装的叶绿体基因组均由2个反向重复序列和1个长单拷贝序列及1个短单拷贝序列组成。重复序列含有4种rRNA基因及部分tRNA基因和蛋白编码基因,故整个叶绿体基因组的rRNA基因有8个,tRNA基因有48个或49个,4份材料的蛋白编码基因分布在117至122之间,数目不等。部分基因在不同胞质材料中存在多拷贝现象。
表2 4份玉米叶绿体基因组的大小及基因组成Table 2 The size and gene content of novel assembly 4 maize chloroplast genomes
C48-2、C黄早四、48-2和黄早四4个叶绿体基因组均注释到84种编码基因。不育系C48-2、C黄早四以及保持系48-2叶绿体基因组中的atpF、ndhA、orf42、rps15、rps19、rps7、ycf15、ycf68基因均有2个拷贝,rpl23、rps12、ycf3基因有3个拷贝,ndhB和rpl2有4个拷贝,orf56和ycf2存在6个拷贝,拷贝数最多的基因是ycf1,共存在8个拷贝,其余基因均为单拷贝;黄早四中rps19只有1个拷贝,rpl2和rpl23只有2个拷贝,其余基因拷贝数均与其他材料相同。4个叶绿体基因组中除了注释到84种蛋白编码基因外,还预测到6个假基因ycf1,ycf2,ycf3,ycf4,ycf15,ycf68,分别以单拷贝或多拷贝存在,拷贝数最高可达8个。
组装的4个玉米叶绿体基因组中均含有30种tRNA基因,且不同的tRNA基因其拷贝数也不同。C48-2、C黄早四、48-2和黄早四4个叶绿体基因组中的trnfM-CAU、trnL-CAA、trnL-UAA、trnM-CAU、trnN-GUU、trnV-GAC、trnV-UAC基因均存在2个拷贝;trnT-GGU存在3个拷贝;trnA-UGC存在4个拷贝;trnl-CAU存在6个拷贝。trnK-UUU在C48-2中仅有1个拷贝,而在其他材料中存在2个拷贝;trnH-GUG在黄早四中存在1个拷贝,在其他3个材料中有2个拷贝。4个供试材料的叶绿体基因组中均有4种rRNA基因,分别为rrn4.5、rrn5、rrn16和rrn23,且都为2个拷贝。
对C48-2、C黄早四、48-2和黄早四的叶绿体基因组进行序列同源性比较和系统进化分析发现,两个不育材料C48-2、C黄早四的叶绿体基因组间序列基本相同,48-2与不育材料进化距离较近,而黄早四与不育材料进化距离相对较远。基于4个叶绿体基因组共线性分析,可以发现不同材料间叶绿体基因组高度保守(图1、图2)。
图1的结果表明,来源相同的2个不育细胞质材料具有较大的一致性,而2个保持系之间的差异大于同质异核不育系之间的差异,说明核背景对细胞质基因组的影响较小。图2的结果显示,2个不育材料叶绿体基因组间序列基本相同,不同材料间叶绿体基因组高度保守。
利用Codon Code Aligner软件比对分析同核异质玉米叶绿体基因组间的变异信息,筛选2组不育系及保持系中共有的SNP和InDel位点。C48-2与48-2比对检索到29个SNP和21个InDel位点,C黄早四与黄早四比对共检索到42个SNP位点和24个InDel位点。比较这两组同核异质材料变异信息,统计共有的SNP和InDel位点见表3,从表3可以看出,大多数的碱基变异和全部的插入、缺失都发生在基因组的重复序列。
图1 4个玉米材料叶绿体基因组系统进化分析Figure 1 Phylogenetics analysis of chloroplast genomes among four maize materials
图2 4个玉米材料叶绿体基因组共线性分析Figure 2 Synteny analysis of chloroplast genome among four maize materials
表3 两套同核异质系叶绿体基因组SNP和InDel共有位点统计Table 3 The common SNP and InDel sites of chloroplast genome between CMS-C lines and maintain lines
本试验利用WebSNAPER(https://pga.mgh.harvard.edu/cgi-bin/snap3/websnaper3.cgi)对检索到的变异位点设计引物,然后以CMS-C不育系及其保持系DNA为材料进行PCR扩增验证。基于上述策略最终设计出S8-C和S8-N两对额外错配碱基引物(表4),两对引物均能有效区分CMS-C不育细胞质和正常细胞质(图4)。
表4 基于SNP设计的两对引物序列Table 4 The primer sequences of S8 based on SNP
图4 利用标记S8-C和S8-N对不同细胞质类型进行PCR扩增Figure 4 The PCR amplification results of chloroplastid SNP markers S8-C and S8-N for different cytoplasmic materials
植物细胞含有叶绿体、线粒体和细胞核3套不同的遗传系统。一般情况下所提取的细胞总DNA,实际上是一个既包含核基因组DNA也包含细胞质基因组DNA的混合体。目前基于总DNA混合样品的高通量测序数据,已经在某些作物上完成了线粒体基因组或叶绿体基因组的组装。本研究通过利用差速离心制备粗制线粒体,目的在于有效富集线粒体、叶绿体等细胞器遗传物质,尽可能排除细胞核遗传物质。有资料报道[18],每个玉米叶片细胞中叶绿体DNA大约有3 000~4 000个拷贝,而相应线粒体DNA的拷贝数量仅为30~100。这就为利用粗制线粒体DNA的高通量测序结果,分析叶绿体体基因组提供了理论基础。本研究成功组装出C48-2、C黄早四、48-2以及黄早四4个叶绿体基因组,通过与已经测序的C-B37和N-B37叶绿体DNA序列进行比较[13],发现在基因组大小、结构以及基因组成等方面有较大的一致性,说明基于线粒体基因组的高通量测序数据可以有效组装出叶绿体基因组。本研究组装的4个叶绿体基因组大小与1995年首次完成的玉米叶绿体全基因组较为一致[12];并且均含有84种蛋白质编码基因、30种tRNA基因、4种rRNA基因,与1995年的报道的tRNA基因、rRNA基因数量完全一致,仅在蛋白质编码基因的数量上存在差异。
早期对叶绿体基因组的研究,通常需要分离出叶绿体,而叶绿体的分离不仅复杂繁琐且受实验设备限制,一定程度上制约了叶绿体基因组的研究进展。随着计算机分析软件发展、算法的改进及测序方法的完善和提升,利用混合样品测序数据,可同时开展不同遗传体系的基因组组装分析,比如利用细胞总DNA的高通量测序数据,可同时开展细胞核基因组、叶绿体基因组和线粒体基因组的组装分析,这样既省去了叶绿体和线粒体细胞器的分离纯化过程,也提高了实验效率,使得对线粒体、叶绿体基因组的研究不再受制于细胞器的分离[19]。
通过对同质异核和同核异质叶绿体基因组进行序列同源性比较和系统进化分析,发现具有正常细胞质的黄早四与48-2叶绿体基因组之间的序列相似性要小于同质异核不育系C48-2与C黄早四之间的相似性。这与2015年M.Bosacchi等[13]的报道结果极为一致,即玉米CMS-C、CMS-S、CMS-T这3类不育胞质之间叶绿体基因组的相似性小于来自于瑞德黄马牙群(reid yellow dent)的自交系B73(选自BSSSC2)与B37(选自BSSSC0)之间叶绿体基因组的相似性。通过对本研究组装的玉米叶绿体基因组进行分析,尽管不同材料间玉米叶绿体基因组具有高度的保守性,然而它们之间却仍然存在一些SNP位点。这与早期人们通过酶切图谱分析或热变性溶解曲线分析,所得的结果较为一致,即不育系与保持系的叶绿体DNA在碱基组成上有差异[1-2]。这些结果一致说明不育系与保持系的叶绿体DNA存在碱基组成上的差异。
比较本研究获得的两套同核异质材料叶绿体基因组间的共有的SNP差异,并和已经测序的玉米N-B37、C-B37叶绿体基因组相比,筛选到不育细胞质CMS-C与正常细胞质之间共有的SNP位点。基于这些共有的SNP位点,成功设计出能够区分玉米CMS-C不育细胞质和正常细胞质的叶绿体特异引物。