任学良
(烟草行业分子遗传重点实验室,贵州省烟草科学研究院,贵阳 550081)
优良推广品种的利用价值取决于其携带的优异基因,通过基因组差异研究可提供这些优异基因最基本的遗传信息,有助于加快其研究、利用。为此,在中国烟草总公司和贵州省局(公司)的资助下,由贵州省烟草科学研究院牵头,联合行业内外多个单位实施的烟草主要品种和核心种质资源基因组差异研究工作,对100年来中国和美国育成的具有明确系谱关系的主要栽培品种进行了基因组测序,围绕基因组结构变异揭示育种目标这一核心主题,取得了显著进展。
基于Hiseq2000测序平台,对42份烟草主要栽培品种进行了基因组测序,质量控制和序列过滤后,总共获得了4853.7 Gb的高质量数据,平均每份材料133.4 G,平均覆盖29.1倍,GC含量在37%~39%。K-mer分析表明,42份栽培品种基因组的平均大小为4.30 Gb。
以BWA软件为序列比对工具,把42份材料的429亿条序列定位到参考序列红花大金元基因组上,占总序列数的96.17%,平均每份材料约11.6亿条。以samtools为检测工具,总计在42份材料中检测到6,429,601个SNP和831,597个Indel位点。进一步过滤后,分别获得3,334,065和297,781个高质量SNP(单核苷酸多态性)和Indel(插入缺失)位点。以参考序列大小为4.5 Gb计,栽培烟草SNP和Indel的基因组密度分别在0.074%~0.143%和0.0066%~0.0185%,低于番茄的SNP密度(0.194%-0.265%)[1]。这些SNP的鉴定,为绘制烟草高密度遗传图谱和开发烟草高密度SNP芯片提供了基础。
对SNP和Indel的位点注释发现,有150,076个SNP/Indel落在19,874个基因内,占检测总SNP/Indel的2.3%。Ka/Ks(非同义SNP数与同义SNP数的比值)为1.6,表明遗传群体基因受到强烈正选择。
基于发现的高质量SNP位点,利用Haploview分析软件,绘制了含有26,727个单倍型块、覆盖基因组46.6%的栽培烟草单倍体型草图,初步统计测序材料的LD(连锁不平衡)值超过1 Mb。通过检测到的Tag SNPs(标签单核苷酸多态性),结合LD值表明,栽培烟草覆盖整个基因组的遗传图谱或关联分析至少需要8万个SNP标记。烟草单倍型草图与即将完成的栽培烟草序列图一起,使栽培烟草的基因组研究在总体框架上接近水稻、玉米等主要农作物的水平,为高效开展烟草分子育种奠定了坚实基础。
PAC(主成分)和NJ(邻接法)系统树分析将测序的42份材料分为两组,任意测序材料基因组间的SNP数目范围在153,344和1,820,841之间,平均为889,300。测序材料的π值(序列多样性)为0.00015,远小于籼稻(0.0016)和粳稻(0.0006)[2]。
虽然测序材料的遗传多样性总体上比较低,但序列多样性在基因组上分布不均匀,存在遗传多样性非常高的区段。以总体序列多样性估计值的10倍,0.0015为阈值,总共找到879个高变异区段,这879个高变异区段属于93个scaffolds,虽然大小只有190 Mb,却包含了100多万个SNP位点,解释了约66%的群体遗传多样性,表明这些区段对于烟草育种具有极端重要性。
群体的FST(总体差异水平)值估计为0.118,在p=0.05水平下,通过FST检验一共找到1635个表现出群体差异的区段,包含了4098个预测基因,其中有3659个来自上述的93个scaffolds(占总发现基因的64.1%)。这些基因中1604个存在有义等位突变,其中约400个与物质代谢相关,350个与逆境、病虫害抗性相关,深入研究和不断选择这些基因对烟草育种具有重要意义。
利用检测的334万个高质量SNP标记,采用IDB(来源同一)法,分析了从最早的Orinoco品种到最近的云烟97具有系谱关系的6代品种近百年育种进程中基因组发生的变化。研究发现,育成品种基因组的亲本来源比例各代分别为39.87%、23.07%、20.43%、9.80%、9.37%和4.80%。除前两代外,其他代基因组亲本来源的平均比例都高于理论值(理论比例分别为50.00%、25.00%、12.50%、6.25%、3.13%和1.56%)。此外,分析发现,子代约8.5%的基因组为非双亲基因组,从基因组水平揭示了杂交重组创造变异的深刻机制。这些是基于烟草结构基因组研究取得的重要科学发现,将为通过分子育种手段选择优良品种提供理论支持。
[1]Shirasawa K, Fukuoka H, Matsunaga H, et al.Genome-wide association studies using single nucleotide polymorphism markers developed by re-sequencing of the genomes of cultivated tomato[J].DNA Res, 2013, dst033v1-dst033.
[2]Huang X, Kurata N, Wei X, et al.A map of rice genome variation reveals the origin of cultivated rice[J].Nature, 2012, 490:497-501.