马铃薯品种和组织对基因组测序深度分布模式的影响

2016-07-16 08:00张国栋刘柏林李修宝司怀军李修庆
甘肃农业大学学报 2016年3期
关键词:马铃薯

张国栋,刘柏林,,李修宝,司怀军,李修庆

(1.甘肃省作物遗传改良与种质创新重点实验室,甘肃省干旱生境作物学省部共建国家重点实验室培育基地,甘肃 兰州 730070;2.甘肃农业大学生命科学技术学院,甘肃 兰州 730070;3.加拿大农业部马铃薯研究中心,Fredericton,New Brunswick,Canada E3B 4Z7;4.日照市农业科学院,山东 日照 276500)



马铃薯品种和组织对基因组测序深度分布模式的影响

张国栋1,2,刘柏林1,2,3,李修宝4,司怀军1,2,李修庆3

(1.甘肃省作物遗传改良与种质创新重点实验室,甘肃省干旱生境作物学省部共建国家重点实验室培育基地,甘肃 兰州730070;2.甘肃农业大学生命科学技术学院,甘肃 兰州730070;3.加拿大农业部马铃薯研究中心,Fredericton,New Brunswick,Canada E3B 4Z7;4.日照市农业科学院,山东 日照276500)

摘要:【目的】 探讨品种和组织对马铃薯基因组测序深度分布的影响.【方法】 对‘布尔班克’和‘云薯107’2个品种的薯块芽端和茎端进行了深测序,建立了在参照基因组上的测序深度分布图.【结果】 发现这些分布在品种间有明显差别(例如在三号染色体中部和尾部),在同一品种的DNA样本间很类似,但芽端和茎端在二号染色体有明显差别.这些结果说明测序深度的分布主要受品种基因组本身所影响,也受薯块上部位影响,而且在很大程度上可以重复.【结论】 这些结果能帮助设计试验和合适利用测序深度.

关键词:马铃薯;DNA测序;小序列片段;参考基因组;覆盖程度;品种差别;组织特异性

Illumina测序技术是目前基因组深测序的主要技术或主要技术之一.Illumina读序段(reads,小片段、短序列)在参照基因组(reference genome)上的覆盖深度(测序深度)是研究染色体非整倍体、基因表达活性和基因拷贝数变化的重要手段[1-3].但是,Illumina引物在测序时有很大的偏差,不完全随机,建立DNA文库时,最早扩增的片段有更大机会被继续扩增,因而造成在测序覆盖深度在染色体上不同区间有很大变化[4].即便是酵母菌的一个仅仅1 kb的基因表达区片段在测序时便出现了约15个覆盖很多和一个几乎没有覆盖的区间[4].这种覆盖度偏差也受建DNA文库前的DNA碎片化处理技术有关,例如用超声波破碎DNA成小片段时并不是随机的,而是有的部位容易断裂有的部位很难断裂,所以文库变身就不是完全随机的[5].DNA聚合酶对引物也有选择性[6].另外我们认为引物的不随机性可能也和DNA文库克隆的小片段的空间结构、退火时复性速度等有关.这个第2代测序中出现的覆盖度不均匀问题除了上述引物和DNA制片段技术方面影响,肯定还有一些未知的影响因素.基因表达等研究的前提往往把组织间的差别看成基因表达的差别,所以并不能发现组织本身,例如马铃薯块茎的芽端和茎端,对Illumina 测序时覆盖度分布有何影响.

栽培的马铃薯主要是四倍体,而且容易有体细胞变异,例如世界上100年来栽培面积最大的马铃薯品种‘Russet Burbank(布尔班克)’便是一个由体细胞突变产生的品种[7].这个品种而且还在变异中,例如数十年前报道布尔班克染色体倍数在不同的细胞层中不同,所以是嵌合体,但现在栽培的已经不是嵌合体了[8].从‘布尔班克’块茎再生的植株有很多形态、生长和加工品质方面的变化[9].由于多倍性和体细胞变异,马铃薯品种的基因组深测序时,覆盖度样式可能比较复杂.

马铃薯是国际上最重要的蔬菜和粮食兼用性作物,是甘肃、内蒙、黑龙江和山东等多个省份的主要作物.除了国际上最重要的马铃薯品种‘布尔班可’外,‘云薯107’是在甘肃产量表现最好的品种之一[10].本研究拟对这2个重要品种用Illumina系统进行深测序,分析了在马铃薯参照基因组染色体[11]上的覆盖度分布,鉴定分布模式和发现了影响覆盖度的一些因素,以期为以后如何设计和分析覆盖度有关的试验提供了有用的信息.

1材料与方法

1.1植物品种和取材

试验用2个马铃薯 (Solanumtuberosum)品种为‘布尔班克(Russet Burbank)’和‘云薯107’.‘布尔班克’在甘肃省和山东省都比较晚熟,为了分析成熟期的已经适宜加工薯条的薯块以及为了验证不同实验室的结果是否有共性,DNA测序用的‘布尔班克’薯块取材于加拿大9月下旬已经基本成熟植株的薯块(取材于加拿大New Brunswick省的加拿大农业部马铃薯研究中心实验农场的收获前叶片还比较绿的植株).‘云薯107’是2013年9月下旬取自在甘肃省兰州甘肃农业大学试验田的仍然比较绿的植株.用的是收获时标准大小的薯块.马铃薯田间取样后马上从薯块的芽端和茎端分别提取DNA.‘布尔班克’薯块端部是从最外端算起约1 cm切块;‘云薯107’是从约1 cm深度的切块上取约1 cm3的端部组织.

1.2DNA的提取、文库构建和测序

‘布尔班克’的DNA用QIAGEN试剂盒提取(DNeasy Plant Maxi Kit,QIAGEN,Hilden,Germany).‘云薯107’的DNA用CTAB法提取.DNS质量除了用光密度法之外还用用琼脂糖电泳(凝胶浓度1%,电压3~4 V/cm,时间40 min).文库构建是用New England Biolabs (NEB)建库试剂盒(货号为E6000L).测序用Illumina HiSeqTM2500系统.

1.3DNA测序和生物信息学分析

本试验的Illumina 测序和图谱定位委托北京百迈客生物科技有限公司(北京顺义,http://www.biomarker.com.cn).与参考基因组比对用bwa (http://bio-bwa.sourceforge.net/bwa.shtml).在使用bwa 软件时,首先建立Index 文件,然后寻找SA coordinates,最后将寻找到的SA coordinates 转换成SAM(Sequence Alignment/Map)和BAM 格式的文件.bwa 参数(比对时最多允许的碱基错配数目):序列长度大于60 bp 时,设为3,否则设为2.比对时,允许gap(空位匹配)数设为0,即不允许空位匹配.输出文件包括最大插入片段长度,在插入片段大小无法准确推断的情况时,默认值为500.在BWA和Samtools 分析时用“F 4 q 1”过滤后的高质量的基本上是唯一的最好定位质量的reads,叫做unique reads(“唯一”读序段).本文的主要根据这类过滤过后的唯一读序段分析.

2结果与分析

2.1插入片段大小、测序量和在参照基因组上的覆盖深度

每个DNA文库中插入片段大小都基本在300个碱基左右.‘布尔班克’芽端的稍微小一些,大约平均290个碱基(图1).每个DNA样本测序量是最少的有五千万个(‘布尔班克’芽端),最多的是六千七百万个(‘云薯107’芽端),平均为五千七百万个(表1).对每个DNA样本分别计算在参照基因组上的平均覆盖度、在图谱上定位的读序段数在参照基因组上的覆盖深度, 在‘布尔班克’中是7倍, ‘云薯107’中 是12倍,2个品种的平均是10倍,总覆盖深度是19倍(表1).

A:‘布尔班克’芽端;B:‘布尔班克’茎端;C:‘云薯107’芽端;D:‘云薯107’茎端.图1 从读序段计算的DNA插入片段长度Fig.1 Insert size histogram for all reads

样品总读序段个数定位的读序段个数/%基因组覆盖深度定位/总数/%‘布尔班克’芽端5050304470.20382.9‘布尔班克’茎端5018889476.53482.0‘布尔班克’总量100691938147.00782.5‘云薯107’芽端6738287280.67694.5‘云薯107’茎端6076562080.88693.3‘云薯107’总量128148492162.001293.92个品种总量228840430308.001988.2

2.2在参照基因组上的覆盖深度分布模式

用“F4q1”过滤后的“唯一”读序段在参照基因组上定位.在参照基因组图谱上的覆盖深度有许多深度特别大的峰值区(图2).这和预期的一样,因为Illumina测序时不是完全随机的.很显然,和预期一样有些区域容易测序有些区域难一些.

2.3在参照基因组零号染色体上的覆盖深度分布样式

本研究选取数条染色体做覆盖度的进一步描述.马铃薯参照基因组在组装时尚未定位的连接片段放在一起组成了一个组(unlocalized scaffolds),简称为零号染色体(chromosome 0)[11-12].本研究选取这个零号进行讨论是因为它可能富含重复序列.布尔班克和云薯107 DNA读序段在零号染色体上的分布有很大的共性,例如,都是染色体下游区覆盖度平均比较高(图3右侧横线标记区),而且在上游区有共同的一个覆盖度很高的峰值(图3右侧横线下区域).这2个DNA样本都有的特色说明覆盖度受马铃薯基因组本身特点的影响.在零号染色体上,有一个很明显的高覆盖峰(图3星号标记的峰)只存在于布尔班克芽端和茎端,不存在于‘云薯107’的DNA中.这个高峰在2个‘布尔班克’DNA样本中都存在,说明不是PCR引物随机配对早造成的,而的确是‘布尔班克’品种的DNA特色.这个峰值不在‘云薯107’中,说明这个峰值是有品种特异性.

DNA:‘云薯107’芽端.数据是根据samtools view-F4q1过滤后获取的唯一最好读序段.图2 参照基因组图谱上的覆盖深度分布Fig.2 Coverage depth on the potato reference genome

2.4在参照基因组二号染色体上的覆盖深度分布样式

在二号染色体上,至少有2个各个DNA样本都有的特点:在染色体的上游区(左侧)和在染色体的尾部(右侧)都有一个覆盖度很深的峰(图4箭头所指的峰).这进一步说明了这是在此染色体上有这2个品种都有的特点.值得注意的是有一个很高的峰值区只存在于芽端(‘布尔班克’芽端和‘云薯107’芽端),而不存在于这2个品种的茎端(图4).这说明马铃薯薯块不同位置的DNA可能有不同的特点.

A:‘布尔班克’芽端;B:‘布尔班克’茎端;C:‘云薯107’芽端;D:‘云薯107’茎端.图3 ‘布尔班克’和‘云薯107’DNA读序段在零号染色体上的分布Fig.3 Coverage depth on chromosome 0 of‘Russet Burbank’ and ‘Yun shu 107’

A:‘布尔班克’芽端;B:‘布尔班克’茎端;C:‘云薯107’芽端;D:‘云薯107’茎端.图4 ‘布尔班克’和‘云薯107’ DNA读序段在第二号染色体上的分布Fig.4 Coverage depth on chromosome 2 of‘Russet Burbank’ and ‘Yun shu 107’

在第三号染色体上,‘布尔班克’的芽端和茎端的DNA都有一个高密度,即高覆盖度区(图5-A和图5-B中的星号区).这个峰区尽管在‘云薯107’芽端DNA的序列覆盖图中好像也有一些,但总的说来在‘云薯107’中不明显(图5).在五号染色体的最下游(图5),‘布尔班克’的2个DNA样本都有一个覆盖度高的峰但在‘云薯107’中没有这个峰值(图5箭头所指的区域).

A:‘布尔班克’芽端;B:‘布尔班克’茎端;:‘云薯107’芽端;D:‘云薯107’茎端.图5 布尔班克和云薯107 DNA读序段在第3号染色体上的分布Fig.5 Coverage depth on chromosome 3 of‘Russet Burbank’ and ‘Yun shu 107’

3讨论

在图2 中叶绿体和线粒体DNA的覆盖度比较低,可能是因为读序段进行了samtools view-F4q1过滤后处理,在重复的拷贝中只选了一个拷贝,这可能使在总基因组上平均覆盖度变低了.叶绿体和线粒体DNA含量在不同品种和组织间差别很大和受环境影响很大[13].有些技术可以将细胞核、叶绿体和线粒体分开提取进行研究[14],所以本文不对叶绿体和线粒体基因组做品种间和组织间覆盖度分布重复性方面的比较.

现在已知植物生长发育过程中有些DNA,尤其是重复序列,有变化[15-16],所以对于芽端和茎端DNA在测序覆盖度分布的模式方面的差别,目前不能排除的确是由于DNA序列的差异造成.需要对芽端茎端差别区,例如二号染色体的近尾部的高覆盖区,进一步研究序列特点及是否在薯块生长过程中有变化.

有多种技术,例如DNA原位分子杂交[17]和实时定量DNA聚合酶反应(qPCR)等[18]、可以研究DNA序列拷贝数染色体区段变异和基因表达活性.用二代测序技术的测序覆盖深度、重复倍数或基因表达活性能够在同一次试验便对整个基因组不同区段一起比较分析,所以可比性很强,这是二代深测序法的巨大优点.原位杂交和qPCR是用于一个DNA片段或基因的研究.所以这些技术可以互相补充.进一步研究本文中提到的高覆盖度峰值区时,qPCR可能帮助验证品种或组织间的差别.

基于2个品种和2个薯块部位的深测序,本研究的结果不但支持了已知的测序不完全随机性[4],而且同时发现了染色体部位效应,并发现了品种效应和薯块部位效应.尽管测序获得的覆盖度差异不排除有一些属于试验假象,但很大程度上是可以重复的品种间的差异,有些是组织间的差异.这种覆盖度的不同并不是单纯多测几个DNA样本便可避免,所以要慎重下关于拷贝数或基因活性高低的结论,需要和别的技术的数据统一分析.

致谢: 衷心感谢北京百迈客生物科技有限公司帮助测序和定位,加拿大农业部Muhammad Haroon先生协助马铃薯DNA提取.

参考文献

[1]Bundock P C,Casu R E,Henry R J.Enrichment of genomic DNA for polymorphism detection in a non-model highly polyploid crop plant[J].Plant Biotechnol J,2012,10(6):657-667

[2]Wu J,Grzeda K R,Stewart C,et al.Copy Number Variation detection from 1000 Genomes project exon capture sequencing data[J].BMC Bioinformatics,2012,13(1):305

[3]Zavodna M,Bagshaw A,Brauning R,et al.The accuracy,feasibility and challenges of sequencing short tandem repeats using next-generation sequencing platforms[J].PLoS ONE,2014,9(12):e113862

[4]Hansen K D,Brenner S E,Dudoit S.Biases in Illumina transcriptome sequencing caused by random hexamer priming[J].Nucleic Acids Res,2010,38(12):e131

[5]Poptsova M S,Il'Icheva I A,Nechipurenko D Y,et al.Non-random DNA fragmentation in next-generation sequencing[J].Sci Rep,2014,4e4532

[6]Pan W,Byrne-Steele M,Wang C,et al.DNA polymerase preference determines PCR priming efficiency[J].BMC Biotechnol,2014,1410

[7]Bethke P C,Nassar A M K,Kubow S,et al.History and origin of Russet Burbank (Netted Gem) a sport of Burbank[J].Am J Potato Res,2014,91(6):594-609

[8]Nassar A M K,Ortiz-Medina E,Leclerc Y,et al.Periclinal chimeral status of New Brunswick 'Russet Burbank' potato[J].Am J Potato Res,2008,85(6):432-437

[9]Nassar A M K,Abdulnour J,Leclerc Y,et al.Intraclonal selection for improved processing of NB 'Russet Burbank' potato[J].Am J Potato Res,2011,88(5):387-397

[10]齐小东,王鹏,李芳弟,等.7个马铃薯品种在天水市的引种试验初报[J].甘肃农业科技,2014(7):5-7

[11]Xu X,Pan S,Cheng S,et al.Genome sequence and analysis of the tuber crop potato[J].Nature,2011,475(7355):189-195

[12]Sharma S K,Bolser D,de Boer J,et al.Construction of reference chromosome-scale pseudomolecules for potato:Integrating the potato genome with genetic and physical maps[J].Genes,Genomes,Genetics,2013,3(11):2031-2047

[13]Ma J,Li X Q.Organellar genome copy number variation and integrity during moderate maturation of roots and leaves of maize seedlings[J].Curr Genet,2015,61(4):1-10

[14]Li X Q.Laboratory methods for investigating nuclear and cytoplasmic genomes and transcriptome[C]∥Li X Q,Donnelly D,Jensen T G.Somatic Genome Manipulation:Advances,Methods and Applications.New York:Springer,2015:323-352

[15]Li X Q.Developmental and environmental variation in genomes[J].Heredity,2009,102(4):323-329

[16]Li X Q.Somatic genome variation[M].Wiley-Blackwell,New York,2015

[17]Li X Q,Zhang M,Brown G G.Cell-specific expression of mitochondrial transcripts in maize seedlings[J].Plant Cell,1996,8(11):1961-1975

[18]王洁,贺文辉,刘英,等.干旱胁迫下马铃薯差异表达基因的验证分析[J].甘肃农业大学学报,2015,50(1):42-47

(责任编辑李辛)

Effects of potato cultivars and tuber sections on the sequencing depth pattern in genome

ZHANG Guo-dong1,2,LIU Bai-lin1,2,3,LI Xiu-bao4,SI Huai-jun1,2,LI Xiu-qing3

(1.Gansu Provincial Key Laboratory of Arid-land Crop Science,Gansu Key Laboratory of Crop Genetic and Germplasm Enhancement,Gansu Agricultural University,Lanzhou 730070,China;2.College of Life Science and Technology,Gansu Agricultural University,Lanzhou 730070,China;3.Potato Research Centre,Agriculture and Agri-Food Canada,Fredericton,New Brunswick,Canada E3B 4Z7;4.Rizhao Academy of Agricultural Sciences,Rizhao 276500,China)

Abstract:【Objective】 The paper aims to explore the effects of potato cultivars and tuber section on the Illumina sequencing depth pattern in genome.【Method】 Deep sequencing was performed on tuber bud and stem end of two potato cultivars including ‘Russet Burbank’ and ‘Yunshu 107’,establishing distribution map based on sequencing in genome.【Result】 The sequencing depth distribution differed significantly between the two cultivars such as in the middle and end of reference chromosome 3,was highly similar among DNA samples within the same cultivars,but clearly different in reference chromosome 2.These results indicated that sequencing depth distribution was mainly impacted by genotypes,also by tuber position and could be repeated to a large extent.【Conclusion】 These findings may help to the design and data interpretation in biological research using the second generation sequencing approach.

Key words:potato;second generation DNA sequencing;small sequence fragments;reference genome;coverage depth;cultivars difference;tissue-specific variation

通信作者:司怀军,男,教授,博士生导师,主要从事马铃薯生物技术研究.E-mail:hjsi@gsau.edu.cn;

基金项目:国家自然科学基金项目(31160298);甘肃省杰出青年基金项目(1308RJDA011);加拿大纽省农业部农业创新项目(EARI12-028).

收稿日期:2015-04-15;修回日期:2015-05-05

中图分类号:S 532

文献标志码:A

文章编号:1003-4315(2016)03-0043-06

第一作者:张国栋(1986-),男,硕士研究生,研究方向为马铃薯生物技术.E-mail:Zhangguodong2012@sina.cn

李修庆,男,研究员,主要研究马铃薯遗传改良和产品加工的生物学基础和技术、植物叶绿体DNA和线粒体DNA、mRNA的成熟和体细胞基因组变异规律.E-mail:Xiu-Qing.Li@agr.gc.ca

猜你喜欢
马铃薯
娄烦推动马铃薯良种行动
马铃薯有功劳
初夏马铃薯 田间管理抓哪些
马铃薯种植中常见不良现象的发生原因及预防
马铃薯减药减施公益海报
春栽马铃薯种植技术
菲范让您的马铃薯更加优质高产
“火星马铃薯”计划
定边马铃薯
马铃薯高产栽培技术