宋志芳,曹洪战,2*,芦春莲,2
(1.河北农业大学动物科技学院,河北 保定 071000;2.河北农业大学猪业科学研究所,河北 保定 071000)
全基因组关联分析及其在猪育种中的研究进展
宋志芳1,曹洪战1,2*,芦春莲1,2
(1.河北农业大学动物科技学院,河北 保定 071000;2.河北农业大学猪业科学研究所,河北 保定 071000)
近年来,随着高通量单核苷酸芯片和基因分型技术的不断发展,利用全基因组关联分析猪的性状成为可能。全基因组关联分析是一种新兴的遗传分析方法,能有效进行复杂疾病和性状的研究。国内外相关研究人员针对猪性状进行全基因组关联分析,积累了大量的单核苷酸多态性(SNP)标记、候选基因以及数量性状位点,为猪分子育种提供基础。该文主要对全基因组关联分析的基本原理、分析方法以及对猪性状的研究进展进行综述。
全基因组关联分析;数量性状位点;SNP标记;多重检验
我国是一个猪生产和消费大国,国内对猪肉的需求量巨大。最新数据显示,2015年我国生猪出栏数为7.082 5亿头,猪肉产量5 487万t。预计2016年我国生猪出栏规模是6.15亿头,农业部4月份公布了我国能繁母猪存栏数是3 771万头。如此大规模的饲养和出栏规模,如果能够很好地针对猪的重要经济性状进行遗传改良,必然会带来良好的经济效益。然而,有些数量性状如生长性状遗传力低或难以准确度量,利用传统的育种方法耗时且进展缓慢,准确度不高。猪的60k高密SNP芯片已经实现了商业化应用,能使基因组基因定位的精确度提高,并且对猪的体型外貌[1]、生长[2-4]、肉质[5-8]、繁殖[9-11]及行为[12]等多种性状进行全基因组关联分析(GWAS),能够进一步深入了解性状的遗传基础。目前全基因组关联分析方法在猪性状的研究方面已经取得了一定的研究成果,积累了丰富的经验和大量数据,对猪育种工作奠定了基础。
关 联 分 析 最 早 由N.Risch和Merikangas等人于1996年提出[13],认为关联分析的检测效率要明显高于连锁分析,且检测力更强,并预测极有可能会应用关联分析大规模检测复杂疾病的遗传机制。在GWAS发展的初级阶段,关联分析多数被应用于医学上复杂疾病的研究。而GWAS是研究复杂疾病遗传变异的最行之有效的方法,对疾病的遗传机制在基因水平上有更深入地了解。Klein R J等人于2005年在《Science》杂志上报道了第1例与年龄相关的黄斑变性全基因组关联分析研究[14],这是第一次利用GWAS发现复杂疾病的分子标记,之后更多的人应用GWAS方法研究人类复杂疾病和动植物复杂性状的遗传机制,试图探究遗传机理为疾病的治疗或性状的改善提供科学的理论依据。利用GWAS方法在人类复杂疾病的遗传研究方面日渐成熟,研究结果有助于人们逐渐了解人类复杂疾病和性状的遗传基础,再进一步深入研究所检测到的关联位点和基因,以揭开人类复杂疾病和性状的遗传奥秘。
GWAS是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与人类疾病或动植物复杂性状相关的SNPs,可以利用其在全基因组水平上对疾病和复杂性状的遗传变异进行关联分析[15]。基本原理是:以连锁不平衡(LD)为基础,通过识别数百个或数千个个体的定位群体中高密度的分子标记,一般是上万个甚至上百万个SNPs标记,剔除无关SNPs,筛选出与复杂性状表型变异相关的分子标记,然后以SNP为分子遗传标记,进行全基因组水平上的相关分析,从而成为发现影响复杂性状基因变异的一种新方案。动物复杂性状GWAS分析原理是以SNP为辅助,进行总体关联分析,首先利用SNP芯片在全基因组范围内进行基因分型,比较个体之间每个遗传变异及其频率的差异,然后统计分析全部变异与研究性状之间的关联性,最后对最相关的遗传变异加以验证,并根据验证结果确定其与研究性状之间的关联程度。
GWAS的一般流程大致为:确定研究群体和样本数量(样本数量越多,分析结果越可靠),提取样本DNA,利用芯片进行SNP分型,对基因型数据进行质控,采用合适的数学统计模型对相关性状表型值和SNPs进行关联分析,对关联分析结果进行数据分析及验证等。
《Epidemiology》《Genetic》《Biometrics》等著名杂志从遗传统计学角度对GWAS进行了数据统计学方向的探讨和研究,期望低成本、高效地找到遗传标记与疾病之间的联系,GWAS分析过程中出现的假阳性问题得到解决。在表型选择时,要选择遗传度较高的疾病或者表型进行检测可提升遗传学关联研究的把握度[16],同时选择表型的测定要尽量简单、准确。
按照研究对象分类,可以分为基于无关个体的关联分析和基于家系的关联分析。基于无关个体的关联分析主要采用病例-对照研究设计,大多用来研究质量性状;基于随机人群的关联分析,主要用来研究数量性状;在研究基于家系的样本时,采用传递不平衡检验(TDT)分析遗传标记与疾病数量表型和质量表型的关联可以排除人群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同样本量的病例对照研究有效。FBAT是运用十分广泛的基于家系的统计分析工具,能够分析质量性状及数量性状、调整混杂因素、分析基因-环境相互作用、分析单倍型、调整多重比较等。
按照研究阶段分类,分为单个阶段研究和两个或多个阶段研究。单个阶段研究即在有足够大量的病例和对照样本数量后,统一对全部选中的SNP进行基因分型,然后分析每个SNP与疾病的基本关联,计算其关联强度和OR值(比值比)。然而,因需要大量的样本数量,单个阶段研究基因分型耗费的资金巨大。两个或多个阶段研究即采用小样本数量进行第一阶段的全基因组范围内的SNP基因分型,统计分析后筛选少量阳性SNPs,在第二阶段用更大数量的样本对这些阳性SNPs进行基因分型,最后整合两个阶段的结果进行分析。研究证明DNA pool和微阵列试剂盒都能减少基因分型的工作量,能够进行低成本、高效益的SNP筛选。以GWAS作为研究工具能够鉴定出与性状相关联的基因区域和DNA标记。利用其先初步定位候选QTL,再借助其他研究手段进一步精确定位数量性状核苷酸(QTN)位点。因为进行全基因组关联分析研究的根本目的是要寻找影响性状表型的QTN,QTN是QTL内对数量性状变异真正发挥作用的核苷酸多态,能够具体到DNA核苷酸水平,有助于深入地了解猪等动物性状的遗传机制,揭示性状差异的根本原因。
4.1 国外有关猪的GWAS研究现状
2005年公布了家猪的基因组序列[17],为以后的基因研究提供参考。2009年推出了猪的Illumina Porcine SNP60芯片,一经推出国内外科研人员利用猪的高密度芯片对猪重要性状进行全基因组关联分析,发现了许多重要的SNPs、QTLs和候选基因,这些研究成果有助于未来猪分子育种的顺利推进。2012年《Nature》杂志报道了杜洛克猪的全基因组测序结果[18],为其性状的改善提供参考。Fa等[1]利用猪的IlluminaPorcineSNP60芯片对820头商品母猪的体型构造、背膘厚、肢体稳固性状进行定位,发现黑素皮质素受体-4(MC4R)是影响背膘厚的候选基因,而IGF2是影响眼肌面积的重要候选基因,同时定位到了新的候选基因。Becker等[19]对192头瑞典大白公猪的重要经济性状进行全基因组关联分析分析,在14号和2号染色体上分别鉴定出1个pH1和胴体长的QTL。Wilson等[20]对猪的咬尾行为进行全基因组关联分析分析,在有咬尾行为的猪上定位到2个显著的SNP。W.Luo等[7]以大白×民猪杂交猪为试验群体对其肉质性状进行全基因组关联分析,发现45个显著SNPs与肉质性状有关。L.Fontanesi等[21]对意大利大白猪的背膘厚进行全基因组关联分析,鉴定出4个显著SNPs与其背膘厚度有关。D.Becker等[22]对瑞士大白公猪进行全基因组关联分析,发现了4个QTLs可能与猪的肉质、外观、繁殖力和生长性状紧密相关。
4.2 中国国内有关猪的GWAS研究现状
刘晨龙等人[23]对610头杜长大猪、336头二花脸猪和333头莱芜猪3个群体25种血液性状进行全基因组关联分析,通过全基因组关联分析和Meta分析共得到610个显著影响杜长大猪、二花脸猪和莱芜猪3个群体25种血液性状的SNP位点,初步确定F13A1、SPTA1、DBNL、SLC25A28和CTSC基因分别是嗜碱性粒细胞百分比(BASR)、红细胞压积(HCT)、淋巴细胞数(LYM)、平均红细胞血红蛋白浓度(MCHC)和中性粒细胞百分比(NEUR)的重要位置候选基因,为分析猪种的血液性状或免疫性疾病提供重要参考。张哲等人[24]对191头杜洛克猪的全基因组高密度SNP基因型数据以及生长性状表型数据进行全基因组关联分析,结果表明在体重达100 kg日龄(D100)性状上检测到1个显著关联的SNP,在活体眼肌面积(LMA)性状上检测到6个染色体水平显著关联的SNP,都位于5号染色体上,分析表明BTG1和EFCAB6是影响生长性状的两个候选基因。杨慧等人[25]对288头白色杜洛克×二花脸F2群体母猪杀婴行为性状进行全基因组关联分析,根据整个家系和60K SNP芯片信息推测出目标个体的基因型,结果表明质控后有效SNPs有34 591个,同时在8号染色体检测到了49个与母猪杀婴行为显著相关的SNPs。刘欣[26]选择大白猪×民猪F2资源群体为研究对象,对其胴体性状进行全基因组关联分析,共检测到头重、蹄重、板油重、屠宰重、胴体长以及背膘厚的显著相关SNP位点数分别是63、84、56、8、78和35个。梁晶[27]通过GWAS在5号染色体上定位了与猪耳面积性状显著相关的区间,发现WIF1和LEMD3基因是影响猪耳性状的有利候选基因。已经利用全基因组关联分析方法研究了猪的多种性状,如生长性状、胴体性状、血液性状、猪耳型性状等,研究方法也日渐成熟,发现并定位了影响这些性状的QTLs和SNPs,找到了与之相关的候选基因和主基因。
虽然GWAS在人类疾病和动植物相关性状的研究成果有很多,也得到了一些重要的理论成果,有益于疾病的治疗和性状的改良。具有精确性高、统计效率高、比较范围广等优点,但是在应用过程中也会不可避免地存在一些问题:1)在大样本研究中,人群混杂是导致出现假阳性、假阴性结果的重要原因之一,数据结果存在误差。利用统计分析手段控制人群混杂的影响、采用基于家系的研究等都能降低人群混杂对关联分析结果的影响。为了降低假阳性位点出现的概率,要对群体进行分层,主成分分析法、基因组控制法和结构关联法是处理群体分层的主要方法。2)使用GWAS时必须进行多重检验,提高结果的可信度。常用的方法有Bonferroni校正法、控制错误发生率法和Permutation法。3)对基因-变异-环境之间的相互关系进行解释,需要更多与变异相关的微效基因。4)不能获取功能基因的相关信息,只能得到基因与表型的统计信息,具体相关基因的功能还需要后续分析。
利用GWAS能够帮助人们更多地了解人类和动植物复杂疾病和性状的遗传基础,发现大量的SNP标记,筛选出很多性状的相关候选基因,在染色体上定位QTL。利用GWAS能找出全基因组范围内所有变异的等位基因频率。另外,也能发现许多从未发现的基因及染色体区域,为研究复杂疾病的发病机制和相关性状的遗传改良提供更多的线索。大量有关人类和动植物上应用GWAS进行相关研究的文章被发表,涉及成百上千种性状和疾病。但是利用GWAS并不能找到真正的功能基因,清楚这些基因作用于性状产生多大的影响,故弄清引起变异的根本原因存在一定的困难,还需要对发现的QTLs和分子标记进行更多地研究和分析。此外,利用其进行数据分析时,结果存在一定的误差,故其应用还存在局限性。随着基因芯片技术的发展和基因组研究的深入,相信在很长一段时间内GWAS会得到越来越多的应用,GWAS研究和计算方法也会得到不断更新。
[1] FAN B,ONTERU S K,DU Z Q,et al.Genome-wide association study identifies Loci for body composition and structural soundness traits in pigs[J].PLoS One,2011,6(2):e14726.
[2] FERN NDEZ A I,P REZ -MONTARELO D,BARRAG N C,et al.Genome-wide linkage analysis of QTL for growth and body composition employing the PorcineSNP60 BeadChip [J].BMC Genetics,2012,13(1):41.
[3] FONTANESI L,SCHIAVO G,GALIMBERTI G,et al.A genome wide association study for backfat thickness in Italian Large White pigs highlights new regions affecting fat deposition includingneuronal genes[J]. BMC Genomics,2012,13(1):583.
[4] SAHANA G,KADLECOV V,HORNSH J H,et al.A genomewide association scan in pig identifies novel regions associated with feed efficiency trait[J].Journal of animal science,2013,91(3):1041-1050.
[5] RAMAYO-CALDAS Y, MERCAD A,CASTELL A,et al.Genome-wide association study for intramuscular fatty acid composition in an Iberian× Landrace cross[J].Journal of animal science,2012,90(9):2883-2893.
[6] DUIJVESTEIJN N,KNOL E F,MERKS J W,et al.A genome-wide association study on androstenone levels in pigs reveals a cluster of candidate genes on chromosome 6[J].BMC Genetics,2010,11(1):1-11.
[7] LUO W,CHENG D,CHEN S,et al.Genome-wide association analysis of meat quality traits in a porcine Large White× Minzhu intercross population[J].Int J Biol Sci,2012,8(4):580.
[8] BECKER D,WIMMERS K,LUTHER H,et al.A genome wide association study to detect QTL for commercially important traits in Swiss Large White boars[J].PLoS One,2013,8(2):e55951.
[9] ONTERU S K,FAN B,DU Z Q,et al.A whole genome association study for pig reproductive traits[J].Animal Genetics,2012,43(1):18-26.
[10] ONTERU S K,GORBACH D M,YOUNG J M,et al.Whole genome association studies of residual feed intake and related traits in the pig[J].PLoS One,2013,8(6): e61756.
[11] UIMARI P,SIRONEN A,SEV NAIMONEN M L.Whole-genome SNP association analysis of reproduction traits in the Finnish Landrace pig breed[J].Genetics Selection Evolution,2011,43(1):544-553.
[12] WILSON K,ZANELLA R,VENTURA C,et al.Identification of chromosomal locations associated with tail biting and being a victim of tail-biting behaviour in the domestic pig(Sus scrofa domesticus)[J].Journal of applied genetics,2012,53(4): 449-456.
[13] RISCH N,MERIKANGAS K.The future of genetic studies of comple×human diseases[J].Science,1996,273(5281):1516-1517.以下参考文献若有需要可与作者联系
2016-10-11)
宋志芳,E-mail:18730285576@163.com