(湖南农业大学油料作物研究所,长沙410128)
芥菜型油菜A09染色体BAC重叠群的构建及分析
刘旭东,陆赢,刘显军,胡学芳,徐海鹏,刘芳瑛,刘忠松*
(湖南农业大学油料作物研究所,长沙410128)
利用定位在芥菜型油菜A09染色体上的分子标记对芥菜型油菜(Brassica juncea)ZBjuH BAC文库进行PCR步移筛选。共筛选出725个BAC,测定了315个BAC的末端序列,获得564条BAC末端序列,BLAST分析表明这些末端序列对应白菜(Brassica rapa)基因组序列支架45、支架81、支架40,支架134、支架145和支架59的同源区域,构建了芥菜型油菜A09染色体大约6.3 Mb的BAC重叠群,为芥菜型油菜A09染色体物理图谱构建奠定了基础。
芥菜型油菜;染色体;BAC重叠群;PCR步移筛选
油菜包括白菜型油菜(Brassica rapa,AA=20)、芥菜型油菜(Brassica juncea,AABB=36)和甘蓝型油菜(Brassica napus,AACC=38)3种类型,白菜型油菜是二倍体,由白菜演化而来。芥菜型油菜和甘蓝型油菜分别是由白菜与黑芥(Brassica nigra,BB=16)和甘蓝(Brassica olereace,CC=18)天然杂交后加倍形成的异源四倍体物种,因此芥菜型油菜、甘蓝型油菜中的A基因组与白菜A基因组具有相同的遗传背景[1,2]。但是在异源四倍化形成甘蓝型油菜和芥菜型油菜的过程中AABB、AACC基因组组成背景下A基因组染色体的结构是否发生了相同的变化缺乏深入的研究[3]。芥菜型油菜和甘蓝型油菜形成之后由于驯化选择各自又分化成多个亚种,这些亚种在染色体结构上有何不同,发生了哪些变化,这些变化在何时、什么位置发生等等问题同样缺乏研究。
白菜是芸薹属植物基本种,基因组含有10条染色体,基因组大小为529 M,目前白菜已经完成了基因组测序[4]。甘蓝型油菜不仅有了转录组测序的报道[5,6],而且我国已经完成了基因组测序,目前正在进行序列组装。芥菜型油菜基因组包含18对染色体,基因组大小约1.0 G[7],其中A基因组包含了10条染色体。在已经组装的白菜基因组中,A09染色体全长约38.8 M,是A基因组中最长的染色体。A09染色体具有控制种皮颜色、硫苷合成、油脂合成等重要性状的基因[8~13],如TT1(类黄酮合成),TT8(类黄酮合成),MYB28(硫苷合成),FATB(油脂合成)等。
BAC末端序列是高特异性序列标记的很好资源库。可以对BAC末端序列进行SNP的筛查及过滤,开发的SNP标记可以对相应的遗传图谱进行加密[14],对SNP所在的基因进行功能注释,可以发掘其中具有重要生物学价值的基因,还可以通过对BAC末端序列中重复序列的组成、SSR分布等的分析,开发高特异性序列标记[15]。芥菜型油菜A09染色体短臂端BAC重叠群的构建能以BAC末端序列的排列形式展示芥菜型油菜A09短臂的简化参考基因组,为芥菜型油菜A09染色体得到准确的序列图谱奠定了基础,同时也为芥菜型油菜基因组测序后序列的拼装提供了有效的参考。
本研究将构建芥菜型油菜A09染色体短臂重叠群,与白菜(白菜型油菜)、甘蓝型油菜A09染色体比较物理作图以及比较基因组研究,分析芸薹属植物A09染色体的进化和变异(包括由多倍化所导致的遗传变化,包括染色体重排、转座、插入、基因丢失等),为油菜育种提供理论依据、基因资源和选择方法。
1.1 材料
将从作图群体亲本(芥菜型油菜亲本紫叶芥)幼叶中提取的基因组DNA进行HindⅢ限制酶不完全消化,选取改良后的pIndigoBAC536作为克隆载体进行酶切片段插入,克隆至71 808(187块384孔板)个BAC克隆中,保存至-80℃冰箱,构建出的BAC文库命名为ZBjuH文库。文库构建由华中农业大学罗美中教授实验室协助完成。
1.2 方法
本研究利用PCR筛选构建物理图谱。利用PCR技术筛选文库中重叠的BAC克隆,得到相互有重叠的核苷酸序列的BAC克隆,结合BAC末端测序技术,利用克隆重叠群末端的BAC末端序列设计引物,继续对文库进行筛选得到更多的BAC克隆,将克隆重叠群进行逐步的延伸,最终得到物理图谱。
1.2.1 构建3个等级的BAC混合池
ZBjuH文库包含187个平板,每个平板有16行(编号A~P)、24列(编号1~24),每块平板含384个(16×24)BAC克隆。单个BAC编号命名为:平板号-行-列(如:012-D-01代表的就是12号平板第四行第一列对应的BAC克隆)。要在ZbjuH文库71 808个BAC克隆中筛选出引物对应的阳性克隆(理论上每条引物对应约8个阳性克隆)过程繁琐,需要对筛选过程进行简化,针对这个情况对ZBjuH文库中的BAC克隆进行了分级。
依次提取一个平板中相邻两行(共48个克隆)的DNA,混匀得到这块平板对应的一份(共8份)横向三级池,命名为:平板号-行编号(如66-AB)。依次提取一个平板中相邻两列(共32个克隆)的DNA,混匀得到这块平板对应的一份纵向三级池(共12份),命名为:平板号-列编号(如66-1.2)。将一块平板对应的8份横向三级池的DNA(共384个克隆的DNA)混匀,得到该平板对应的二级池,命名为:平板号,如66号平板对应的二级池命名为66。依次将相邻编号的10个平板(如1~10号平板)所对应的二级池DNA混匀,得到1份一级池(共19份,编号为1~10,11~20……180~187)。至此得到了存在逐级对应关系的3个等级的BAC混合池。
1.2.2 阳性克隆的筛选
在3个等级的BAC混合池的基础上,利用PCR技术进行文库筛选过程简化至4步。第一步是对19个一级池的筛选,得到阳性一级池后(如4号一级池),对其对应的10个二级池(4号一级池对应31~40)进行第2步筛选,得到阳性二级池后(如38),对其所对应的8个横向三级池(38对应38-AB~38-OP)及12个纵向三级池(38对应38-1.2~38-23.24)进行第3步筛选,得到阳性三级池后(如38-AB-1.2),挑选出阳性纵向三级池和阳性横向三级池交叉重叠位置对应的BAC克隆,对这些克隆进行菌落PCR(第4步),得到单一阳性克隆。
1.2.3 引物的获取
所用引物主要分为两类。一类是已定位在芥菜型油菜A09上的分子标记,以及参考芥菜型油菜近缘种白菜和甘蓝型油菜相关序列信息开发的分子标记;另外一类是根据已测定的芥菜型油菜BAC末端序列设计的STS引物。引物设计采用Primer premier 5软件,设计引物时设定的标准为:产物大小200~500 bp;引物长度控制在20~23个碱基长度;正反引物Tm值均为60℃左右,GC含量尽量大于50%。
1.2.4 测序及末端序列分析
筛选到阳性克隆后,从文库中挑选出该单一克隆,置于37℃摇床过夜培养,交与上海美吉或者上海立菲生物公司进行BAC末端测序。测序引物为S2和M13R,获得BAC两个末端的序列,分别命名为BAC-L端(对应M13R端)和BAC-R端(对应S2端),附带2个末端序列对应的测序信号峰图。由于测序公司的技术障碍或者序列本身存在特殊结构,需要利用chromas或sequencer软件观察判断测序结果的准确性,如果发现获得的序列长度太短(小于100 bp)或者测序信号峰图杂乱(超过一半的碱基信号出现双峰),则会舍弃这些数据,重新摇菌、送样重测。
分析用的BAC末端序列长度约为1 000 bp,去除载体序列后得到BAC的有效序列。将BAC有效序列与白菜数据库进行比对,结合其他BAC末端序列信息的比对情况,推测BACs之间的位置关系,对两个BAC之间的距离、单个BAC的跨度、已构建的BAC重叠群的延伸走向、不同BAC重叠群之间的位置关系等做出预判,这样才能有针对性的进行下一步工作。必要时在nt(NCBI)和Repeat Masker数据库中进行比对,分析BAC末端序列中是否包含重复序列和特殊结构,挑选序列特异且不包含特殊结构的末端序列设计引物进行下一轮筛选,提高末端引物筛选的成功率。
2.1 BAC重叠群的构建
利用已定位在A09染色体上的引物S121-Ⅰ-1、S121-Ⅰ-2、S59-6、S134-16、S121-Ⅱ-2、B021Ⅰ11-1、H016P07-2和Niab047作为重叠群构建的出发点,结合PCR步移筛选和BAC末端测序,对重叠群进行双向的延伸。
本试验共筛选出BAC克隆725个,对其中的315个BAC进行了末端测序,获取有效BAC末端序列564条。共设计了引物467对,其中利用BAC末端序列设计引物250对,参考白菜基因组序列设计STS引物189对,参考通过RNA-seq技术获得的芥菜型油菜种皮的非冗余基因(unigene)序列设计的STS引物21对,构建了芥菜型油菜A09染色体物理图长约6.3 Mb的BAC重叠群(图1)。
将芥菜型油菜BAC末端序列与白菜基因组序列支架进行比对。图1A展示的BAC重叠群中包含53个标记(左起926.310/S002B15-1,右至S45-1821K),23个BAC(左起169-N-21,右至134-K -07)。该重叠群的引物序列与BAC末端序列锚定在白菜支架45(全长1 881 595 bp)上,引物序列比对在白菜支架45上的具体范围是91 444~1 821 302,BAC末端序列的比对范围是229 778~1 820 761,该区域BAC重叠群的物理图长约为1.7 M。
图1B和图1C展示的BAC重叠群包含98个标记(左起175-A-13R,右至S121-I-1),49个BAC(左起148-G-07,右至060-I-07),以图1B中172-B-17为界,172-B-17以左的BAC重叠群比对在白菜支架81(全长1 190 370 bp)上,172-B-17右边的BAC重叠群比对在白菜支架40(支架全长1 960 303 bp)上。172-B-17上的引物有的比对在白菜支架81上:S81-14(1 121 010~120 637)、S81-15(1 176 951~1 176 642),有的比对在白菜支架40上:924.330(39 183~39 319),说明172-B-17这个BAC同时包含了白菜支架40和支架81的部分片段。该区域BAC重叠群的物理图长约为3 M。
图1 已构建的芥菜型油菜A09染色体短臂端BAC重叠群Fig.1 Construction of BAC contigs on the short arm of chromosome A09 inB.juncea
图1D展示的BAC重叠群包含58个标记(左起49M17R,右至068D18R),23个BAC(左起057-C -05,右至038-M-05),以图1D中053-L-03为界,053-L-03以左的BAC重叠群比对在白菜支架134(全长480 632 bp)上,053-L-03右边的BAC重叠群比对在白菜支架145(全长430 878 bp)上。053-L-03上的引物有的比对在白菜支架134上,如S134-16(403 613~403 201),有的比对在白菜支架145上,如53L03R(420 857~420 543),说明053-L-03这个BAC中插入的片段同时包含了白菜支架134和支架145的部分片段。该区域BAC重叠群的物理图长约为0.9 M。
图1E所展示的BAC重叠群有34个标记(左起111N6R,右至S169-1),14个BAC(左起111-N-06,右至039-F-01)。这个区段的BAC重叠群(从左至右)在白菜基因组上的锚定位置起始于白菜支架59(全长1 410 856 bp)的大末端位置并继续向大的方向延伸,一直到025K04开始出现的比对信息转为支架169(全长287 768 bp),如025K4L(48 236~49 071)、136I09L(32 341~58 364),后续的重叠群一直延伸到S169-1(240 081~241 280)。该区域BAC重叠群的物理图长约为0.7 M。
2.2 芥菜型油菜、白菜、甘蓝型油菜的物理图谱比较
Bancroft等利用37个TNDH株系进行转录本测序后,绘制了一张由23 037个SNP标记组成的甘蓝型油菜基因组遗传图谱。Harper等参考了甘蓝基因组序列后对该图谱进一步修正,获得甘蓝型油菜A09染色体(An9)上8 970条EST对应的44个白菜支架的排列顺序。
我们将芥菜型油菜A09染色体(Aj9)部分区段相对位置进行了拼装排序,对比An9及其祖先种白菜的A09染色体(Ar9)支架的排序结果,发现在已分析的区域存在染色体重排、插入或缺失现象(图2)。
图2 芥菜型油菜与白菜、甘蓝型油菜物理图谱比较Fig.2 Comparison on physicalmaps ofB.juncea,B.napusandB.rapa
对比An9与Ar9的支架排列,发现An9和Ar9各自均有一些独有的支架,说明在甘蓝型油菜An9进化过程中发生了序列删除或插入,An9染色体中部支架66~支架134区段发生了显著重排。结合我们对芥菜型油菜A09染色体支架的排列顺序,发现Aj9与An9一样相对于Ar9发生了结构重排,Aj9的支架134~支架135区段发生了显著的重排,Aj9的支架59与An9上排列方向一致,不同于白菜的正向排列,支架81、支架45、支架84和支架40这4个区域在Aj9、An9和Ar9中相对保守,表现出高度的共线性。
在重叠群的构建过程中,误差往往是伴随着假阳性克隆出现的,高质量物理图谱构建过程中,控制假阳性的出现尤其重要。出现假阳性克隆有以下几种可能:(1)设计引物时没有保证引物的特异性,引物在基因组上有多个结合位置,因此扩增出非目的片段造成假阳性。(2)琼脂糖凝胶电泳分辨率十分有限,误判的电泳结果会带来假阳性。(3)菌株污染或DNA污染也会造成假阳性。正因为假阳性的存在,在重叠群构建过程中必需遵循的原则是:当利用一个BAC的末端序列设计的引物筛选到了另一BAC,只有反向验证排除了假阳性,才能确定两个BAC的相对位置,这样才能避免BAC重叠群延伸方向发生偏差。在PCR筛选过程中,DNA混合池的浓度、PCR反应条件、电泳条件都会对筛选结果带来不同程度的影响,因此在严格控制实验条件的基础上,还需要结合已有的数据,如遗传图谱上连锁标记的相对位置,对试验结果进行分析。
重叠群构建过程中不可避免的会出现重叠群间隙,部分间隙位置的BAC末端序列及其同源的白菜序列无法对BAC重叠群的整合提供有效的参考,可以尝试找到与该区域同源的甘蓝型油菜支架序列,利用甘蓝型油菜支架序列设计引物进行文库筛选。但单一的BAC末端序列不能判断该区域是否与甘蓝型油菜支架同源,必须参考间隙区域附近已有的BAC末端序列的相对物理位置和与甘蓝型油菜支架序列比对的遗传位置,判断两者之间的同源关系,如果间隙位置的BACs末端与甘蓝型油菜某段支架序列高度吻合,可以大胆的设想芥菜型油菜该区域位置与甘蓝型油菜只是在间隙位置发生了遗传变化,我们可以参考甘蓝型油菜的支架序列设计引物达到填补间隙的目的,但是如果间隙位置相对于甘蓝型油菜是发生了大片段的序列插入,那么甘蓝型油菜的支架序列也无法提供有效的参考。
通过比对分析,发现A09染色体上有3个甘蓝型油菜支架跨白菜支架,分别是甘蓝型油菜支架84跨白菜支架135和支架145、甘蓝型油菜支架147跨白菜支架40和支架81、甘蓝型油菜支架70跨白菜支架81和白菜支架84。我们从已构建的BAC重叠群中选取支架134与支架135、支架40与支架81交界位置的引物和BAC末端,将其分别与甘蓝型油菜支架84、支架147进行了比对,比对结果显示出高度的同源性,证明了这种参考方法的可行性。
参考白菜、甘蓝型油菜基因组序列也有可能无法有效解决间隙的填补,现有的分析区域也依然存在未能填补的间隙,分析其原因:(1)有可能是在BAC文库构建过程中,这些间隙位置序列片段没有成功插入到BAC克隆中,造成间隙位置引物无法从文库中筛选出阳性克隆。(2)通过对间隙位置BAC末端序列的比对分析,发现间隙位置序列一般都会呈现高度的重复性,难以利用这些序列设计出特异性强的引物进行延伸。(3)同时还发现间隙一般会位于白菜各个支架连接的位置,在白菜基因组上各支架的连接处的序列也呈现出相似的重复性特点。重复序列的形成是否由进化过程中大量的转座子和反转座子插入所导致,各个支架之间是否为转座事件的高发区,这些问题需要进一步深入的分析。
通过染色体步移的方法,构建了芥菜型油菜A09染色体长约6.3 Mb的BAC重叠群,为芥菜型油菜A09染色体物理图谱构建奠定了基础。
[1] 刘忠松,王 卓,刘显军,等.油菜A9染色体的标记、基因和结构变异[J/OL].中国科技论文在线,http://www.paper.edu.cn/index.php/default/releasepaper/content/2012-03-55.
[2] Pires JC,Gaeta RT.Structural and functional evolution of resynthesized polyploids.Genetics and Genomics of the Brassicaceae[A].In:Schmidt R,Bancroft I.Genetics and Genomics of the Brassicaceae,PlantGenetics and Genomics:Crops and Models9[C].doi:10.1007/978-1 -4419-7118-0_7.
[3] Jiang C,Ramchiary N,Ma Y,et al.Structural and functional comparative mapping between the Brassica A genomes in allotetraploid Brassica napus and diploid Brassica rapa[J].Theoretical and Applied Genetics,2011,123:927-941.
[4] Wang XW,Wang HZ,Wang J,et al.The genome of the mesopolyploid crop species Brassica rapa[J].Nat Genet,2011,43:1035-1039.
[5] Harper AL,Trick M,Higgins J,et al.Associative transcriptomics of traits in the polyploid crop species Brassica napus[J].Nature Biotech,2012,30:798-802.
[6] Bancroft I,Morgan C,Fraser F,et al.Dissecting the genome of the polyploid crop oilseed rape by transcriptome sequencing[J].Nature Biotech,2011,29(8):762-766.
[7] Johnston J,Pepper A,Hall A,et al.Evolution of genome size in Brassicaceae[J].Ann Bot,2005,95(1):229-235.
[8] 刘显军,袁谋志,官春云,等.芥菜型油菜黄籽性状的遗传、基因定位和起源探讨[J].作物学报,2009,35:839-847.
[9] Feng J,Long Y,Shi L,et al.Characterization ofmetabolite quantitative trait loci and metabolic networks that control glucosinolate concentration in the seeds and leaves of Brassica napus[J].New Phytol,2012,193:96-108.
[10]Li F,Kitashiba H,Inaba K,et al.A Brassica rapa linkage map of EST-based SNPmarkers for identification of candidate genes controlling flowering time and leaf morphological traits[J].DNA Res,2009,16:311-323.
[11]Xiao L,Zhao Z,Du D,et al.Genetic characterization and finemapping of a yellow-seeded gene in Dahuang(a Brassica rapa landrace)[J].Theor Appl Genet,2012,124:903-909.
[12]Yang P,Shu C,Chen L,et al.Identification of a major QTL for silique length and seed weight in oilseed rape(Brassica napus L.)[J].Theor Appl Genet,2012,125(2):285-296.
[13]Li Y,Shen J,Wang T,et al.QTL analysis of yield-related traits and their association with functional markers in Brassica napus L[J].Crop Pasture Sci,2007,58:759-766.
[14]Han Y,ChagnéD,Gasic K,et al.BAC-end sequencebased SNPs and Bin mapping for rapid integration of physical and genetic maps in apple[J].Gen,2009,93:282-288.
[15]Ramchiary N,Nguyen VD,Li X,et al.Genic microsatellitemarkers in Brassica rapa:development,characterization,mapping,and their utility in other cultivated and wild Brassica relatives[J].DNA Res,2011,18:305-320.
Construction and Analysis of BAC Contigs on the Chromosome A09 in Brassica juncea
LIU Xu-dong,LU Ying,LIU Xian-jun,HU Xue-fang,XU Hai-peng,LIU Fang-ying,LIU Zhong-song*
(Oilseed Crops Institute,Hunan Agricultural University,Changsha,Hunan 410128,China)
In this study,markers located on chromosome A09 of B.juncea were used to screen ZBjuH BAC library by PCR walking screening.725 BACs were screened out,end sequence of 315 BACs were determined,and 564 BESs were gained.The BLAST analysis showed that those BAC contigswere corresponding to seven homologous regions of Brassica rapa’s genomic sequence,scaffold 45,scaffold 81,scaffold 40,scaffold 134,scaffold 135 and scaffold 59.The B.juncea BAC contigs,about6.3 Mb in length in total,were constructed,which provided basis for construction of physicalmap of chromosome A09 of B.juncea.
Brassica juncea;Chromosome;BAC contigs;PCR walking screening
S565.403.2;Q78
A
1001-5280(2014)03-0236-06 DOI:10.3969/j.issn.1001-5280.2014.03.02
2014 03 02
刘旭东(1989-),男,湖南娄底人,硕士研究生,Email:349110582@qq.com。*通信作者:刘忠松,博士,教授,Email:zsliu48@sohu.com。
国家自然科学基金项目(31271762)。