基于DNA池测序法筛选奶牛高信息量SNP标记的可行性

2014-05-25 00:32初芹李东侯诗宇石万海刘林王雅春
遗传 2014年7期
关键词:荷斯坦信息量碱基

初芹, 李东, 侯诗宇, 石万海, 刘林, 王雅春

1. 北京市农林科学院畜牧兽医研究所, 北京 100097;

2. 中国农业大学动物科技学院, 畜禽育种国家工程实验室, 北京 100193;

3. 鞍山恒利奶牛场, 辽宁 114200;

4. 北京奶牛中心, 北京 100192

基于DNA池测序法筛选奶牛高信息量SNP标记的可行性

初芹1, 李东2, 侯诗宇3, 石万海4, 刘林4, 王雅春2

1. 北京市农林科学院畜牧兽医研究所, 北京 100097;

2. 中国农业大学动物科技学院, 畜禽育种国家工程实验室, 北京 100193;

3. 鞍山恒利奶牛场, 辽宁 114200;

4. 北京奶牛中心, 北京 100192

首先选择139个牛SNP标记, 利用DNA池测序法, 根据测序峰图中不同碱基信号峰高的比值确定了92个SNP为高信息量标记(比值>1/2); 为了进一步验证筛选的准确性, 对其中59个标记采用基质辅助激光解析电离飞行时间质谱(Matrix-assisted laser desorption/ionisation time-of-flight mass spectrometry, MALDI-TOF MS)技术检测了 122头荷斯坦牛的基因型。结果显示, 检出率高于 85%的标记有 56个, 其平均最小等位基因频率(Minor allele frequency, MAF)为0.41, 最小值为0.27, 最大值为0.5; MAF>0.3的标记有54个, 占96.4%(54/56)。文章结果表明, 采用DNA池测序法筛选高信息量SNP标记是可行和可信的。

奶牛; DNA池; SNP标记; 基质辅助激光解析电离飞行时间质谱技术; 最小等位基因频率

DNA池(DNA pooling)是将几个或多个个体的DNA按照一定比例混合后再进行 PCR扩增、位点扫描和分型的一种方法, 具有低成本、高效率的优点[1]。研究表明, DNA池与测序技术相结合, 在寻找突变位点[2~4]、估计等位基因频率[5~7]、单倍型推断[8]、病例-对照研究[9]等领域都有着广泛的应用。

对奶牛进行亲子鉴定或个体识别时, 为了增加鉴定效率, 需要选择信息量高的 SNP标记, 如最小等位基因频率(Minor allele frequency, MAF)高于0.3或以上[10~12]。最小等位基因频率是指给定群体中不常见等位基因的发生频率[13], 是衡量SNP信息含量的一个重要指标[14]。然而, 由于SNP标记存在较高的品种特异性, 其多态性甚至在同一品种内不同群体之间也存在差异[15]。因此, 不同群体间SNP标记的交流和数据共享存在局限性。

本研究选择不同来源的牛SNP标记, 采用DNA池测序法并结合个体基因型测定进行验证, 研究了DNA池测序法筛选奶牛高信息量 SNP标记的可行性。

1 材料和方法

1.1 DNA池的构建

本研究使用的实验动物来自辽宁鞍山恒利奶牛场, 共122头荷斯坦母牛。颈静脉采血, 提取基因组DNA, 使用分光光度计NanoDrop2000测定DNA浓度后调整至50 ng/µL。筛选无亲缘关系的 30头牛,取等量DNA进行混池, 4℃保存备用。

1.2 SNP标记的筛选

1.2.1 SNP标记的初选

初步选择的SNP标记主要来源于两部分, 一部分来自于文献[11, 12], 另一部分来自北京地区中国荷斯坦牛芯片数据[16]。按照最小等位基因频率MAF>0.3的标准, 选取139个SNP标记。

1.2.2 PCR扩增与测序

对初选的139个SNP标记, 参考NCBI公布序列, 利用 Primer3.0程序(http: //frodo.wi.mit.edu/ primer3/)设计引物, 以池DNA为模板, 进行PCR扩增, 2%琼脂糖凝胶电泳检测合格后ABI 3730XL测序仪完成测序。测序结果使用DNAMAN和Chromas分析, 计算不同碱基信号峰比值。

1.2.3 飞行时间质谱法

基质辅助激光解析电离飞行时间质谱(MALDITOF MS), 简称飞行时间质谱, 是一种高通量、自动化SNP分型技术。具体步骤是: (1)多重PCR反应。利用上下游引物扩增目的序列, 通常为 25~48重PCR扩增; (2)单碱基引物延伸反应。单碱基延伸引物3′末端碱基紧挨SNP位点, 当进行延伸反应时,采用ddNTP替代dNTP, 在SNP位点处仅延伸一个碱基, 连接上的 ddNTP与 SNP位点的等位基因对应; (3)所得产物进行纯化处理后, 置于质谱仪内使之离子化, 并经电场以相同动能加速; (4)获得脉冲式质谱图, 根据不同质荷比的离子化样品进入无电场区的飞行时间加以鉴别, 质量小的粒子先于质量大的粒子到达终点, 由此, 可以区分不同位置的突变情况。

本研究使用 Assay Design 3.1软件, 对筛选的SNP标记及附近序列进行多重PCR组合和引物设计,最终确定59个SNP标记, 通过两组反应完成(表1)。多重PCR反应和单碱基引物延伸反应在384微孔板内, 使用ABI 3700扩增仪完成。产物经树脂纯化后,利用Sequenom公司的MassARRAY飞行时间质谱检测系统[17]判定每个个体所有检测位点的基因型。

表1 59个SNP标记的信息

1.3 统计分析

使用Cervus软件(V 3.1)计算每个SNP位点的最小等位基因频率(MAF)、观察杂合度(Ho)、期望杂合度(He)以及多态信息含量(PIC)。

2 结果与分析

2.1 SNP位点多态性分析

由于 DNA池是由 30个无亲缘个体等量混合,所以SNP位点处不同碱基信号峰值能够在一定程度上反映该突变位点在30个个体之间的比例关系。根据信号峰的比值从低到高进行了划分(图1): (1)等级0, 只有一种颜色信号, 不存在多态; (2)等级1, 低信息量标记, 两种信号比值小于 1/3; (3)等级 2, 中信息量标记, 两种颜色信号比值1/3~1/2; (4)等级3, 高信息量标记, 两种颜色信号比值1/2~1/1。

139个SNP标记的等级见表2。其中, 有13个标记信号图谱质量差, 难以准确判断, 占初选标记的9.4%(13/139), 其余126个标记得到了清晰可靠的测序结果。在126个测序结果可靠的标记中, 有11个判定为不存在多态性。在 115个多态标记中, 92个为等级3, 即高信息量标记, 占66.2%(92/139); 16个为等级 2, 即中度信息量标记, 占 11.5%(16/139);另外7个为低信息量标记, 占5%(7/139)。

2.2 SNP标记飞行时间质谱法判型结果

2.2.1 飞行时间质谱法检测平台的构建

本研究SNP标记数量较多, 因此, 对92个可能是高信息量的SNP标记进行筛选组合和优化, 最终确定了 59个标记, 通过两重反应来完成。利用MassARRAY飞行时间质谱检测系统进行每个个体的SNP标记基因型判定。

图1 不同等级SNP的划分标准箭头所指为突变位点。

表2 139个SNP标记测序后多态性的等级划分

为了检验飞行时间质谱方法的准确性, 实验中随机设置了10对重复样品, 486个一一对应基因型数据中只有 1个出现不一致, 由此估计本研究中飞行时间质谱法判型不一致率为0.002(1/486), 表明结果准确率很高, 可以用于后续分析。

2.2.2 群体SNP检测结果

59个SNP标记的检出率见表1, 有3个标记的检出率较低, 分别是 BFGL-NGS-111000(28%)、BTB-00230297(55%)和ARS-BFGL-NGS-10037(62%)。由于飞行时间质谱法进行SNP分型时检出率与准确性显著相关, 因此这 3个检出率低的标记不作进一步分析。其余56个标记的检出率最低88%, 平均检出率为97%。

56个检出率较高的标记均为二态性标记, 与NCBI公布的碱基突变一致。多态性分析显示, 56个标记的最小MAF为0.27, 最大为0.5, 平均0.41。观测杂合度(Ho)范围为 0.38~0.62, 平均 0.50; 期望杂合度(He)范围是 0.40~0.50, 平均 0.48; 各位点的多态信息含量(PIC)范围是0.32~0.38, 平均0.36。结果表明, 56个标记属于高信息量的SNP标记。

3 讨 论

3.1 DNA池测序法筛选高信息量SNP的可行性

本研究首先收集文献和报道中存在较高信息量的SNP标记, 共获得139个SNP标记, 这一过程不需要实验成本投入。然后, 通过 DNA池测序法,根据测序信号峰比值来判定初选标记在实验群体中的多态性, 如果两种颜色信号峰比值为 1/2~1/1,则推断为高信息量标记。最终确定了 92个 SNP标记。

为了验证 DNA池测序法筛选的高信息量 SNP标记的准确性, 进一步通过飞行时间质谱法对59个标记在 122头荷斯坦牛群体中的多态性进行了检测。本研究估计的飞行时间质谱法判型错误率为0.002, 与 Anderson等[18]报道的 SNP判型错误率0.005~0.0001相一致, 说明 SNP判型结果是比较可靠的。此外, 由于检出率与高质量结果显著相关, 检出率低于 82%可能会影响结果准确性[19], 因此分析中剔除了3个检出率低于85%的标记。其余56个高检出率的SNP标记最低的MAF为0.27, 有54个标记的MAF大于0.3, 均属于高信息量的SNP标记。结果充分说明 DNA池测序法筛查信息量高的 SNP标记是一种切实可行的方法。考虑到实验成本, 只对59个标记进行了飞行时间质谱分型的验证, 可以推断, 其他36个SNP标记也具有良好的多态性。

近年来, SNP标记由于其分布广、遗传稳定、适于高通量检测等诸多优点[12,20], 得到了广泛的应用。然而, 由于 SNP为二态标记, 单个标记的检测效力受到局限, 在许多研究中高杂合度、高信息量的标记更有应用价值。Ozerov等[21]研究表明, 在遗传种源鉴定(Genetic stock identification, GSI)中优先选择高信息量的标记可以降低所需标记数量的 53%。Heaton等[11]研究安格斯牛亲子推断中报道 32个高信息量SNPs能够成功推断96%的亲子关系, 而任意选择的32个标记的成功推断概率只有9%。Baruch等[22]和周磊等[23]通过模拟研究也表明, 高信息量标记的选择对提高亲子鉴定或亲本推断的效率尤为重要。因此, 不同品种、群体进行亲子鉴定、个体识别、遗传种源鉴定等研究往往需要首先从大量 SNP标记中筛选出少量高信息量SNP标记。如果直接对每一个个体检测筛选, 工作量大, 成本高, 而采用DNA池法则能够大大降低实验成本, 并且仍然能够满足准确率高、重复性好的要求[24,25]。

3.2 不同来源SNP的比较

本研究初选的139个SNP主要参考美国肉牛群体、欧洲奶牛群体和北京地区中国荷斯坦牛群报道标记, 其中来自国外牛群的标记50个, 中国荷斯坦牛群的标记76个。测序确定的92个多态标记中31个来自国外牛群, 占62%(31/50); 其余61个来自中国荷斯坦牛群, 占81%(61/76)。可以看出, 不同的群体SNP标记多态性之间存在差异, 中国荷斯坦牛群SNP标记筛选高信息量标记成功率更高。也就是说,在筛选标记时参考亲缘关系相近的群体会更具有参考价值。

[1] Germer S, Holland MJ, Higuchi R. High-throughput SNP allele-frequency determination in pooled DNA samples by kinetic PCR. Genome Res, 2000, 10(2): 258-266.

[2] 崔建勋, 杜红丽, 张细权. 鸡催乳素基因序列多态及生物信息学分析. 遗传, 2005, 27(2): 208-214.

[3] 肖礼华, 史忠辉, 曾琼, 穆林, 徐猛, 罗卫星, 刘若余,陈志.羊RBP4基因DNA池测序分析. 中国草食动物科学, 2012, 32(5): 5-8.

[4] Jiao S, Chu Q, Wang Y, Xie Z, Hou S, Liu A, Wu H, Liu L, Geng F, Wang C, Qin C, Tan R, Huang X, Tan S, Wu M, Xu X, Liu X, Yu Y, Zhang Y. Identification of the causative gene for Simmental arachnomelia syndrome using a network-based disease gene prioritization approach. PLoS ONE, 2013, 8(5): e64468.

[5] Werner M, Sych M, Herbon N, Illig T, König IR, Wjst M. Large-scale determination of SNP allele frequencies in DNA pools using MALDI-TOF mass spectrometry. Hum Mutat, 2002, 20(1): 57-64.

[6] 崔建勋, 杜红丽, 张细权. 利用 DNA 池和测序技术快速筛查SNPs 及估算基因频率. 遗传学报, 2005, 32(4): 372-377.

[7] 蒋婷婷, 陈星, 李婷婷, 张凤国, 谢毅, 张建宁, 彭洁,刘天骄, 陈刚, 郭媛. 冠状动脉粥样硬化性心脏病 8号染色体基因扫描. 遗传, 2012, 34(8): 1043-1049.

[8] Kuk AY, Xu J, Yang Y. A study of the efficiency of pooling in haplotype estimation. Bioinformatics, 2010, 26(20): 2556-2263.

[9] Yip SP, Leung KH, Fung WY, Ng PW, Sham PC, Yap MK. A DNA pooling-based case-control study of myopia candidate genes COL11A1, COL18A1, FBN1, and PLOD1 in a Chinese population. Mol Vis, 2011, 17: 810-821.

[10] Fisher PJ, Malthus B, Walker MC, Corbett G, Spelman RJ. The number of single nucleotide polymorphisms and on-farm data required for whole-herd parentage testing in dairy cattle herds. J Dairy Sci, 2009, 92(1): 369-374.

[11] Heaton MP, Harhay GP, Bennett GL, Stone RT, Grosse WM, Casas E, Keele JW, Chitko-McKown CG, Laegreid WW. Selection and use of SNP markers for animal identification and paternity analysis in US beef cattle. Mamm Genome, 2002, 13(5): 272-281.

[12] Werner FA, Durstewitz G, Habermann FA, Thaller G, Krämer W, Kollers S, Buitkamp J, Georges M, Brem G, Mosner J, Fries R. Detection and characterization of SNPs useful for identity control and parentage testing in major European dairy breeds. Anim Genet, 2004, 35(1): 44-49.

[13] http: //en. wikipedia. org/wiki/Minor_allele_frequency

[14] Cargill M, Altshuler D, Ireland J, Sklar P, Ardlie K, Patil N, Lane CR, Lim EP, Kalyanaraman N, Nemesh J, Ziaugra L, Friedland L, Rolfe A, Warrington J, Lipshutz R, Daley GQ, Lander ES. Characterization of single-nucleotide polymorphisms in coding regions of human genes. Nat Genet, 1999, 22(3): 231-238.

[15] Krawczak M. Informativity assessment for biallelic single nucleotide polymorphisms. Electrophoresis, 1999, 20(8): 1676-1681.

[16] 郭刚, 周磊, 刘林, 李东, 张胜利, 刘剑锋, 丁向东, 张毅, 王雅春, 张勤, 张沅. 利用 SNP标记进行北京地区中国荷斯坦牛亲子推断的研究. 畜牧兽医学报, 2012, 43(1): 44-49.

[17] Gabriel S, Ziaugra L, Tabbaa D. SNP genotyping using the Sequenom MassARRAY iPLEX platform. Curr Protoc Hum Genet, 2009, Chapter 2: Unit 2. 12, doi: 10.1002/0471142905.hg0212s60.

[18] Anderson EC, Garza JC. The power of single-nucleotide polymorphisms for large-scale parentage inference. Genetics, 2006, 172(4): 2567-2582.

[19] 赵辉, 王威, 张清润, 高扬, 赵洪斌, 周珺, 林伟, 曾长青. 高通量飞行时间质谱基因分型方法的研究. 生物化学与生物物理进展, 2005, 32(7): 667-672.

[20] Lee HY, Park MJ, Yoo JE, Chung U, Han GR, Shin KJ. Selection of twenty-four highly informative SNP markers for human identification and paternity analysis in Koreans. Forensic Sci Int, 2005, 148(2-3): 107-112.

[21] Ozerov M, Vasemägi A, Wennevik V, Diaz-Fernandez R, Kent M, Gilbey J, Prusov S, Niemelä E, Vähä JP. Finding markers that make a difference: DNA pooling and SNP-arrays identify population informative markers for genetic stock identification. PLoS ONE, 2013, 8(12): e82434.

[22] Baruch E, Weller JI. Estimation of the number of SNP genetic markers required for parentage verification. Anim Genet, 2008, 39(5): 474-479.

[23] 周磊, 初芹, 刘林, 刘剑锋, 王雅春, 张沅. 利用微卫星和 SNP 标记信息进行奶牛亲子鉴定的模拟研究. 畜牧兽医学报, 2011, 42(2): 169-176.

[24] Sham P, Bader JS, Craig I, O'Donovan M, Owen M. DNA pooling: a tool for large-scale association studies. Nat Rev Genet, 2002, 3(11): 862-871.

[25] Kim MK, Nam TS, Choi KH, Jang SY, Kim YO, Lee MC. Usefulness of direct sequencing of pooled DNA for SNP identification and allele-frequency determination compa tible with a common disease/common variant hypothesis. Genet Mol Res, 2010, 9(2): 772-779.

(责任编委: 陈 宏)

Direct sequencing of DNA pooling for screening highly informative SNPs in dairy cattle

Qin Chu1, Dong Li2, Shiyu Hou3, Wanhai Shi4, Lin Liu4, Yachun Wang2

1. Institute of Animal Husbandry and Veterinary Medicine, Beijing Academy of Agriculture and Forestry Sciences, Beijing 100097, China;
2. Key Laboratory of Agricultural Animal and Breeding, National Engineering Laboratory for Animal Breeding, College of Animal Science and Technology, China Agricultural University, Beijing 100193, China;
3. Anshan Hengli Dairy Cattle Farm, Liaoning 114200, China;
4. Beijing Dairy Cattle Center, Beijing 100192, China

In this study, 139 bovine single nuclear polymorphisms (SNPs) were firstly selected and then directly sequenced using DNA pooling. Based on the ratio of two signal peak values, 92 SNPs with the ratio over 1/2 were consideredas potential highly informative markers. To further verify the reliability of screening system, 59 SNP markers were genotyped in 122 Holstein cattle using matrix-assisted laser desorption/ionisation time-of-flight mass spectrometry(MALDI-TOF MS) method. The results showed that 56 SNPs had a call rate higher than 85%. The minor allele frequency (MAF) of these 56 markers ranged from 0.27 to 0.5, with an average of 0.41; and in which 54 markers had a MAF over 0.3, covering 96.4% of this group of markers (54/56). Our findings indicate that direct sequencing of DNA pooling is a useful and efficient tool for identifying highly informative SNPs.

dairy cattle; DNA pooling; single nuclear polymorphism; matrix-assisted laser desorption/ionisation time-offlight mass spectrometry (MALDI-TOF MS); minor allele frequency

2013-12-04;

2014-03-17

国家科技攻关计划项目(编号:2011BAD28B02), 现代农业产业技术体系专项资金(编号:CARS-37), 长江学者与创新团队发展计划项目(编号:IRT1191)和国家自然科学基金项目(编号:31172191)资助

初芹, 博士, 副研究员, 研究方向:动物遗传育种。E-mail: chuqinsd@163.com

王雅春, 博士, 副教授, 研究方向:动物遗传育种与分子数量遗传学。E-mail: wangyachun@cau.edu.cn

10.3724/SP.J.1005.2014.0691

时间: 2014-5-6 15:13:18

URL: http://www.cnki.net/kcms/detail/11.1913.R.20140506.1513.006.html

猜你喜欢
荷斯坦信息量碱基
重磅!广东省发文,全面放开放宽落户限制、加大住房供应……信息量巨大!
应用思维进阶构建模型 例谈培养学生创造性思维
江苏省中型牧场荷斯坦牛产犊间隔的影响因素分析
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
影响荷斯坦牛体细胞评分差的因素分析
基于信息理论的交通信息量度量
如何增加地方电视台时政新闻的信息量
中国荷斯坦牛初产日龄遗传评估及全基因组关联分析