宗钊辉,陈帧禄,贺广生,王 军,曾 涛,陈泽鹏,赵伟才*
(1.广东省烟草科学研究所,广东韶关512000;2.广东烟草韶关市有限公司,广东韶关 512000;3.中国烟草总公司广东省公司,广东广州 510000)
作物在种植过程中,生长发育受生态环境、种植水平与品种等因素影响,其中品种对作物产量与质量尤为重要[1-2]。优良品种(系)的研究价值不仅在于提质、增产与高抗,更是作为重要种质资源与品种选育的重要材料,研究其携带的优良基因以及与其他品种的基因差异,包括优良基因在染色体的位点、蛋白质组学功能与SNP分析[3-4]。
烟草是我国重要的经济作物,是烟草行业可持续发展的重要保障,优良烤烟品种是生产优质烟叶的前提。烟草基因组计划重大专项启动以来,我国烟草分子育种技术取得了快速发展,在烟草育种分子标记辅助选择、种质资源遗传多样性分析、群体遗传结构分析、遗传图谱构建、标记-性状关联分析和基因芯片等领域广泛应用[5-8]。明确育种材料的遗传背景及其遗传关系,能减少育种材料选择与亲本选配的盲目性,提高育种的选育效率,对于常规育种具有重大的意义[9-11]。遗传背景分析包括遗传多样性、群体结构等,对于烟草种质资源的遗传多样性与群体结构研究已有多篇报道,蒋勋等[12]通过对春雷一号等30分高烟碱烤烟种质资源进行再鉴定,筛选出春雷一号、毕金一号、8100、I-35、广东黄(1)、辽烟十四号和 NC729共7 个低糖、高烟碱烟草品种;向小华等[13]利用92分雪茄烟种质资源进行遗传分析,将雪茄烟种质分为4类,构建了92份雪茄烟种质资源DNA 指纹图谱代码;陈芳等[14]利用SSR标记把80份种质资源分为两大类群,构建了不同烟草种质资源的数字指纹图谱;方敦煌等[15]利用SSR标记把60份香料烟种质资源分为3个亚群;刘国祥等[16]利用SSR标记将33份晒烟种质资源分为2个亚群。以上研究都是基于第二代分子标记技术进行的烟草种质遗传资源分析,但我国的烟草品种遗传狭窄,开发出的SSR 标记多态性水平低,导致SSR 标记在烟草中的研究和应用存在一定局限性。
全基因组重测序(whole genome resequencing,WGR)是通过对已知基因组序列物种不同个体的基因组进行测序,对不同种质资源进行差异性分析的高通量测序技术,前人利用从测序技术对马铃薯[17]、金针菇[18]、大麦[19]、水稻[20]等作物的种质遗传多样性进行分析。鉴于此,笔者基于重测序技术对韶关5个烤烟品种(系)进行全基因组重测序,分析其遗传多样性及群体结构,为烤烟亲本选配、优良育种材料利用提供理论依据。
1.1 供试材料供试的5个品种(系)来自广东省烟草南雄科学研究所,详细信息见表1。
表1 不同烤烟品种信息
1.2 样品取样与SNP标记检测试验材料种植于广东省烟草南雄科学研究所内的原种圃内,打顶后选取长势良好、无病害发生的烟株腋芽。样品送至华大农业研究院进行高通量测序,根据识别标签序列得到每个个体的测序reads,先使用Trimmomatic(0.38)对测序原始数据进行过滤处理,主要是去除接头污染和低质量reads,得到高质量的cleandata数据用于后续的比对分析。
以Nitab-v4.5_genome_Chr_Edwards2017.fasta.gz为参考基序列,使用短序列比对软件BWA(Version:0.7.16a)的 “mem”算法将 clean reads 比对到参考基因组上(比对参数为-t 2 -k 32 -M -R),使用samtools(v1.7)将sam格式的比对结果转换为bam格式,再用gcta(v 4.1.1.0)软件的SortSam工具对比对文件进行排序得到的sort.bam文件,使用MarkDuplicates工具标记重复,利用HaplotypeCaller模块3.2的比对结果进行变异检测,仅选择mapQ值大于20且为properly paired比对的reads用于后续的变异检测分析(过滤参数为-ERC GVCF --minimum-mapping-quality 20)。
1.3 群体结构分析以系统进化树、主成分分析和Structure分析,研究样本间的亲缘关系和进化关系。
1.3.1系统发育树。采用IqTree软件构建系统发育树,使用GTR+CAT模型进行最大似然亲缘关系分析(https://itol.embl.de/)。
1.3.2主成分分析。PCA 仅针对个体数n=XX 的常染色体数据,忽略高于2个等位基因位点以及错配数据,其分析方法如下在个体i,k位置的SNP用dik表示,若个体i与参考等位基因是纯合,则dik=0;若是杂合,则dik=1;若个体i与非参考等位基因是纯合,则dik=2。利用公式计算获得标准基因型的n×S的矩阵:
式中:E(dk)是dk的平均值;个体样本协方差n×n矩阵通过X=MMT/S计算测出。最后利用功能特征函数R分解X特征向量。采用GCTA(v1.93)软件进行PCA 分析,利用过滤好的SNP数据构建所有样本间的亲缘矩阵;再使用构建好的亲缘矩阵计算前3个特征值和特征向量;最后,使用Python脚本进行图形展示。
1.3.3群体间遗传系数(Fst)分析。Fst指数由F统计量演变而来,反应群体等位基因杂合性水平,用于衡量种群分化程度。计算公式:
式中:πBetween代表群体间的两两个体差异的均值;πWithin代表群体内两两个体差异的均值。
使用vcftools软件进行群体Fst分析,参数为(--fst-window-size 500000-fst-window-step 50000)。
2.1 不同烤烟品种(系)重测序质量评估样本重测序数据详细结果见表2。样本测序的碱基序列在5.060×109~5.880×109;每个样本重测序数据与参考基因组比对R_q20值在98.70%~98.80%,平均值98.74%;R_q30值在95.70%~96.18%,平均值95.90%;R_gc含量在39.78%~45.24%,平均值42.42%。以Nitab-v4.5_genome_Chr_Edwards2017.fasta.gz为参考基因组序列,共有24条染色体,比对结果见表3,每个样本与参考基因组的比对率最高93.64%,最低91.97%,平均92.88%;测序深度最高27.96X,最低23.37X,平均测序深度为25.10X,平均覆盖度为92.77%。以上数据表明,送样样本与参考基因组的相似度达到重测序标准,满足该群体的遗传多样性分析与群体结构分析。
表2 样本测序数据过滤情况
表3 BWA比对统计
2.2 不同烤烟品种(系)间SNP检测、统计结果采用GATK(v4.1.1.0)软件对群体进行SNP变异进行检测,被检测到的SNP再用GATK进行过滤,具体参数如下:SNP过滤参数:"QD <5.0 || QUAL<50.0 || MQ <20.0。然后对SNP进行“无缺失”过滤,最终被明确定位在染色体水平上的SNP位点为26728180 SNPs,这些SNP位点将被用于5个烤烟种质资源的遗传多样性分析。
从各染色体的SNP位点分布情况来看(图1),不同染色体上均有SNP位点分布,染色体间分布差异较大。17号染色体上SNP位点数量最多为2 346 665个,占总数的8.78%,其次是22号、6号、1号染色体,SNP位点数量分别为1 613 506、1 503 797、1 388 858个,占比分别为6.04%、5.63%、5.20%;9号与21号染色体SNP位点数量分别为702 575、740 812个,占比分别为2.63%、2.77%,其余染色体位点数量在8.0×106~1.22×107,占比在3.00%~4.70%。从各染色体SNP位点密度来看(图2),SNP密度在7.4~11.1个/kb,1号、3号、5号、6号、7号、8号、10号、11号、17号、20号染色体SNP密度较大,在10个/kb以上,其余染色体SNP密度均在10.0个/kb以下。
图1 染色体SNP位点分布 Fig.1 Chromosome SNP locus distribution
图2 不同染色体SNP位点密度 Fig.2 Chromosome SNP locus density
2.3 不同烤烟品种(系)SNP杂合度不同烤烟品种(系)SNP杂合度统计结果见表4。从表4可以看出,不同烤烟品种(系)SNP位点共有26 728 180个,杂合SNP位点在10 527 807~10 764 786个,平均为12 601 261个,杂合度在0.393 9~0.548 2,平均为0.471 5。其中HY1杂合SNP位点最少,为10 527 807个,杂合度为0.393 9,与YY98接近;NX212杂合SNP位点最多,为14 651 863个,杂合度为0.548 2,高于其他4个品种(系);K326与NX002杂合度接近,分别为0.506 4、0.506 1。
表4 不同烤烟品种(系)SNP杂合度统计
2.4 不同烤烟品种(系)多态性分析群体多态性指的是同一群体中2种或2种以上变异类型并存的现象。Fst居于0~1,分化指数越大,表明2个群体之间的差异就越大,Fst值为0表示2个群体是随机交配的,基因型完全相似。如果Fst值为1则表示2个群体完全隔离。以亲缘关系较近的K326、HY1和YY98同NX002比较(图5),Fst分析结果可以看出,NX002和K326、HY1、YY98在24条染色体上分化程度较小(大部分位于区间-0.1~0.1),但不同染色体其分化程度存在差异,其中Chr1、Chr2、Chr5 、Chr6、Chr7、Chr9、Chr10、Chr11、Chr13、Chr15、Chr16、Chr17、Chr18、Chr19、Chr20、Chr21、Chr23、Chr24染色体分化程度较小,较大的区间位于Chr3、Chr4、Chr8、Chr12、Chr14和Chr22上,其中Chr3染色体分化程度最大。
2.5 不同烤烟品种(系)聚类分析利用分型数据分析获得了5个不同烤烟品种(系)的遗传距离,其范围在0.201~0.275,平均遗传距离为0.235。基于核心SNP 的遗传距离构建系统进化树(图3),结果显示5个烟草种质资源可以分为3组:K326、NX002烤烟品种(系)聚为一组,这与NX002是K326变异系来源有关;NX212单独聚为一组,HY1与YY98烤烟品种(系)聚为一组。系统进化树反映了种间亲缘关系远近,K326与NX00亲缘关系近,HY1与YY98亲缘关系近。
图3 不同烤烟品种(系)Fst分析 Fig.3 Fst analysis of different flue-cured tobacco varieties(lines)
图4 不同育种材料系统发育树Fig.4 Phylogenetic tree of different breeding materials
2.6 不同烤烟品种(系)主成分分析基于主成分1与主成分2数据绘制5个不同烤烟品种(系)的主成分分析(PCA)图(图5),根据不同烤烟品种(系)个体基因组 SNP 差异程度,按照二维图形中的位置和互相间距离可区分为3 类,即NX212分为一类,K326与NX002分为一类,HY1与YY98分为一类,与系统发育树分类结果一致。其中K326与NX002品种(系)位置较近,几乎重叠在一起,亲缘关系最近;HY1与YY98品种位置叶比较临近,亲缘关系也较近;NX212与其余4个品种(系)相聚较远,说明NX212与其余品种(系)没有明显亲缘关系。
图5 不同烤烟品种(系)主成分分析(PCA)Fig.5 Principal component analysis of different flue-cured tobacco varieties(lines)
3.1 不同烤烟品种(系)遗传多样性分析常规育种中,用作亲本的2个材料应具备优良综合性状互补,遗传背景差距较大,杂交后代性状分离明显,才有可能选育出具备亲本优良性状的新品种,因此开展对常用育种材料的遗传背景分析,对杂交育种中亲本材料的选择具有重要指导意义[21-22]。烟草种质资源丰富,到2017 年底我国已保存烟属种质资源5 767份,但作为育种材料利用较多的仅有27 份种质,同时不断杂交使新的类型不断增加,材料血缘更加复杂,通过表型分析难以准确判断不同亲本材料遗传来源,这给烤烟育种的工作者增加了很多不必要的工作量[23-24]。该研究通过重测序技术对5个烤烟品种(系)进行遗传多样性和群体结构分析,平均测序深度高达25.10 X,R_q30>95%,基因组平均覆盖度为92.88%,说明测序质量过关,重测序可以从分子水平上明确不同材料间的遗传关系与群体结构。
该研究测序最终获得26728180 SNPs,不同染色体上均有SNP位点分布,染色体间分布差异较大,17号染色体上SNP位点数量最多,SNP密度在7.4~11.1个/kb。SNP杂合度是衡量群体的遗传多样性的重要指标,当杂合度大于0.500 0 时,群体具有比较丰富的遗传多样性,供试的5个烤烟品种(系)的平均杂合度为0.471 5,表明5个烤烟品种(系)遗传多样性较低,但K326、NX002、NX212群体的杂合度大于0.500 0,具备较高的遗传多样性。Fst分析认为,NX002和K326、HY1、YY98在24条染色体上分化程度较小(区间-0.1~0.1),分化程度较大的区间位于Chr3、Chr4、Chr8、Chr12、Chr14和Chr22上,下一步可以对分化程度较大的染色体片段基因进行分析,结合不同烤烟品种(系)表型性状,筛选出与相关性状有关的候选基因。
3.2 不同烤烟品种(系)群体结构分析系统发育树是生物信息学中描述不同生物之间相关关系的方法,研究通过IqTree软件构建系统发育树,分析了5个烤烟品种(系)的遗传距离。研究发现5个烤烟品种(系)可以分为3类,其中NX212独立分类。K326与NX002聚为一类,NX002是南雄烟科所自主选育的品系,其来源于K326大田变异,亲缘关系较近;HY1与YY98聚为一类,HY1母本为G28、父本是K326变异系(拗尾烟),YY98母本为Coker206、父本为K326,这可能是由于2个品系父本均为K326系,HY1母本G28是Oxford-1-181与Corker139杂交至第4代,又与NC95杂交选育而成,与YY98母本Coker206遗传背景同样比较接近。PCA分析显示,分类结果与系统发育树结果一致,但K326、NX002间遗传距离较YY98、HY1更近。群体结构分析结果表明,K326、NX002与YY98、HY1间亲缘关系接近,在亲本选择中应避免同时使用NX002、K326或YY98、HY1作为父母本。
该研究依靠基因组重测序技术,对5 个烤烟品种(系)进行遗传多样性和群体结构分析,发现现有的5个烤烟品种(系)遗传多样性较低,其中K326与NX002,以及粤烟98与粤烟1号间亲缘关系接近,同时还观察到分化程度较大的区间位于Chr3、Chr4、Chr8、Chr12、Chr14和Chr22上,后续工作拟在现有研究基础上,通过绘制全基因组选择信号分析图,设置不同阈值线,并进行GO 富集基因功能注释,筛选烤烟产质量与抗性相关基因。