3款猪50K SNP芯片基因型填充至序列数据的效果评估

2022-07-07 05:03曾浩南钟展明徐志婷滕金言袁晓龙李加琪
华南农业大学学报 2022年4期
关键词:点数基因型位点

曾浩南,钟展明,徐志婷,滕金言,袁晓龙,李加琪,张 哲

(华南农业大学 动物科学学院/广东省农业动物基因组学与分子育种重点实验室/国家生猪种业工程技术研究中心, 广东 广州 510642)

单核苷酸多态性(Singlenucleotide polymorphisms, SNP)是指由于单个核苷酸发生变异引起的基因组水平上DNA序列的多态性,具有遗传稳定性强、位点数量多且分布广,易于大规模自动化检测的优势,SNP芯片作为检测SNP的重要手段,已被广泛应用于生物、医学、农学等领域[1]。在猪育种中,相对低密度芯片的位点信息不足和高密度芯片的价格高昂,中密度50K芯片成为了猪基因组选择的主流芯片类型。其中,Neogen子公司Geneseek研发的纽勤50K(Porcine SNP 50K beadchip)、江西农业大学研发的中芯一号50K(KPS Porcine breeding chip v2)及中国农业大学研发的液相50K(GenoBaits porcine SNP 50K)为国内常见的3款猪50K SNP芯片。3款芯片设计的原理不同,纽勤50K和中芯一号50K均是基于Illumina平台研发的固相芯片,液相50K芯片是基于靶向测序基因型分型技术[2]研发的芯片。

全基因组测序数据(Whole genome sequencing,WGS)相比芯片数据记录了更完整的遗传信息,但由于直接测序成本较高,因此人们常用基因型填充技术将低密度的芯片数据填充至序列数据。基因型填充是一项根据参考群体的基因型信息推断目标群体缺失基因型的技术,其能够充分利用现有的SNP芯片信息将低密度数据准确填充至高密度,实现了在节约育种成本的基础上提高育种准确性[3-4]。现有的基因型填充软件有很多,常用的有Beagle[5-6]、Impute2[7]、Findhap[8]、AlphaImpute[9]、FAMHAP[10]、FImpute[11]等。基因型填充技术现已成为一种常规、有效的工具,被广泛应用于动物遗传育种领域,在猪的相关研究中,基于填充后的数据有助于筛选新的候选基因[12]、提升基因组选择的准确性,并降低生产的成本[13-15]。同样,在牛[16-17]、羊[18]、鸡[19]的遗传育种研究中基因型填充也起到了重要的作用。一方面,基因型填充的效果受到许多数据如参考群体大小、参考群体与目标群体之间的遗传关系、最小等位基因频率(Minor allele frequency, MAF)等的影响;另一方面,不同填充软件计算的质控指标对填充准确性也有一定的影响,如Beagle[5-6]软件的 DR2(Dosage R-squared)、Impute[7]软件的INFO等。

此前,国内研究团队对3款芯片之间相互填充的效果进行了评估[20],但对3款芯片填充至序列数据的效果鲜有报道,因此本研究旨在评估3款猪50K SNP芯片基因型填充至序列数据的效果,以期为我国猪遗传研究和分子育种工作提供参考和借鉴。

1 材料与方法

1.1 芯片群体

本研究所用的48头杜洛克猪的芯片群体来自广西某育种场,该群体在纽勤50K、中芯一号50K及液相50K芯片的位点数分别为50 697、57 466和50 885,具体的位点重叠情况见图1a。另外,在芯片重叠的位点里,本研究在等位基因精确匹配后评估了3款芯片两两之间的一致性与相关性。

芯片数据利用根据以下步骤进行质量控制:1)剔除位置重复或未知的位点;2)剔除非常染色体位点;3)利用Conform-gt软件校正正反链并去除参考群以外的位点。质控后纽勤50K、中芯一号50K及液相50K芯片剩余位点数分别为31 756、29 469和42 311,分别占原始芯片数据的62.6%、51.3%和83.2%,质控后具体的位点重叠情况见图1b。

图1 3款芯片之间的位点分布Fig. 1 Distribution of loci among three chips

1.2 参考群体

本研究使用的全基因组测序参考群体共260头猪,其中50头来自福建某种猪场的杜洛克,210头来自华南地区的21个地方猪品种。该群体平均测序深度为14.53×,平均测序覆盖度为98.85%,经过MAF<0.01的质量控制后,本研究使用Beagle5.1对其进行单倍型分型(Phasing),最后参考群体的SNP位点数为31 407 555个。

1.3 基因型填充方法及准确性评估

本研究使用Beagle5.1软件对芯片数据的18条常染色体进行基因型填充。评估填充准确性的步骤如下:1)在填充前将芯片数据有序不重复地缺失5%,共缺失20次;2)根据保留的95%芯片位点填充缺失的5%芯片位点,共填充20次;3)将20次填充后的结果合并在一起,从位点水平上以缺失前与填充后的基因型一致性与相关性作为基因型填充准确性的评估指标。其中,基因型一致性指的是基因型完全一致的个数占总基因型个数的比例,而基因型相关性指的是将基因型转换为0、1、2编码方式后计算基因型之间的皮尔逊相关系数。

相比基因型一致性,基因型相关性更能反映准确性整体的变化规律,因此本研究在研究MAF与DR2对填充准确性的影响时,均以基因型相关性作为填充准确性的指标。

2 结果与分析

2.1 芯片之间重叠位点的基因型一致性与相关性

表1展示了3款芯片之间位置与等位基因信息完全重叠的位点基因型一致性与相关性情况。从表1中可以看出,3款芯片重叠的位点基本保持一致,其中2款固相芯片之间的一致性最高,达到了0.999;2款固相芯片与液相50K芯片之间的一致性略低,为0.991。

表1 芯片之间重叠位点的基因型一致性与相关性Table 1 The consistency and correlation of overlapping loci among three chips

2.2 芯片填充至序列数据的填充准确性

表2展示了3款芯片基因型填充后未进行任何质控处理的填充准确性情况。从表2中可以看出液相50K芯片的位点基因型一致性最高,达到0.898,纽勤50K的位点基因型相关性最高,达到0.828,此时,3款芯片填充后的位点数均为31 407 555。

表2 3款芯片基因型填充至序列数据的填充准确性1)Table 2 The imputation accuracy of three chips from chip data to sequencing data

2.3 MAF与DR2对填充准确性的影响

本研究将3款芯片合并为一个整体,研究MAF对填充准确性(位点的基因型相关性)的影响,结果见图2a。从整体可以看出,随着MAF的增加,填充的准确性显示出上升的趋势;当MAF<0.1时,随着MAF的增加,填充准确性得到了显著的提升,而当MAF>0.1时,填充的准确性也有提升的趋势,但提升的程度趋于平缓。其中,质控过滤MAF<0.1的位点时,纽勤50K、中芯一号50K及液相50K这3款芯片的准确性分别为0.838、0.835和0.825,而此时剩余的位点数分别为7 956 801、8 202 065和 7 717 077。

图2 MAF、DR2与填充准确性(基因型相关性)的分布Fig. 2 Distribution of MAF, DR2 and imputation accuracy (genotype correlation)

DR2可以作为Beagle[5-6]软件基因型填充后的质控指标,3款芯片整体的DR2对填充准确性的影响结果见图2b。从图2b中可以明显看到DR2与填充准确性存在较强的正相关关系,其中,质控过滤DR2<0.4的位点后填充的准确性增长趋势较为缓慢,当逐步剔除0.4≤DR2≤1的位点时,3款芯片的填充准确性得到了较有效的提升。相比DR2≥0.4的情况,DR2≥0.6时,纽勤50K、中芯一号50K和液相50K芯片的填充准确性分别提升了3.84%、4.16%和3.92%;DR2≥0.8时,3款芯片的填充准确性分别提升了9.17%、9.44%和9.88%;当DR2≥0.95时,3款芯片的填充准确性分别提升了14.95%、14.37%和16.11%,此时的准确性分别为0.966、0.959和0.960,剩余的位点数为3 393 066、3 139 095和 3 320 627。

3 讨论与结论

本研究展示了国内3款常用的猪50K SNP芯片的基本情况与基因型填充至序列数据的结果。从芯片的基本情况来看,3款芯片均有较高的SNP检出率及重叠位点的一致率,3款芯片的SNP位点数均达到50K芯片的标准。在本研究中,中芯一号50K芯片虽然原始位点数较多,但非多态的位点也较多,导致填充前质控位点后剩余的位点数较少,一方面的原因是本研究使用的芯片数据个体数偏少导致位点整体的多态率较低,另一方面可能是中芯一号50K芯片位置的设计原则与其余2款芯片的有较大的出入,但从结果上看这并没有导致中芯一号50K芯片基因型填充的效果弱于其余2款芯片。

从芯片的基因型填充的结果上看,3款芯片的原始填充效果并没有明显的差异。此外,在本研究中3款芯片填充后的位点基因型一致性均值为0.890,尚未达到很高的水平。一方面,已有研究证实参考群规模的大小会影响填充的效果[21-22],本研究使用的参考群体个体数为260,在参考群体规模上一定程度地限制了填充的效果;另一方面,本研究参考群体里杜洛克个体数仅为50,个体数少导致参考群体的杜洛克单倍型信息并不能很好地囊括整个品种,进而填充的效果降低。

MAF也是影响填充准确性的一个重要因素,据报道,MAF<0.05时,MAF每提升0.01填充准确性都会得到较大的提升,而MAF≈0.1已经与最高点没有明显的差异[23-27],在本研究中,MAF的趋势也与前人的结果基本符合。

DR2作为Beagle[5-6]填充的质控指标,根据DR2进行基因型填充后,位点的质控可以最直接地提升基因型填充的准确性,从而提升全基因组关联分析及基因组选择等下游分析的效果[28-31]。从本研究的结果看,当DR2≥0.95时,纽勤50K、中芯一号50K及液相50K芯片的填充效果很好(基因型一致性与相关性均高于0.950),但是位点数也由原来的约4 000万减少到约300万。在基因组选择领域,一方面位点数的减少可能会导致位点变异解释的遗传力降低,从而影响基因组选择的效果[32],另一方面位点错误率升高也会降低基因组选择的效果[33],因此在实际应用中,DR2的阈值选取需要研究者根据自身需求进行考量。需要注意的是,DR2和填充准确性的增长趋势与Beagle设置的参数有效群体大小(ne)有关,默认的参数较大(1 000 000),而畜禽育种的有效群体大小相比人类普遍较低,因此基因型填充时需要根据参考群体的规模适当进行该参数的调整,以适应更多畜禽育种的群体情况,这有利于提升填充效果[5-6]。

综上所述,本研究评估了3款猪SNP芯片基因型填充至序列数据的效果,结果表明3款芯片基因型填充至序列数据的策略可行,均可获得较高的填充准确性。

猜你喜欢
点数基因型位点
HBV基因型的研究现状与发展趋势探讨
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
DNA脱碱基位点的检测方法及其生物学研究进展
多环境下玉米保绿相关性状遗传位点的挖掘
成熟度和生长调节剂对不同基因型观赏向日葵种子休眠期的影响
浅谈分枝法在解决遗传学题目中的应用
一种改进的多聚腺苷酸化位点提取方法
从一道高考题看自交与自由交配的相关计算
画点数
破解心灵感应