遗传关联性研究Meta分析中的Hardy-Weinberg平衡

2016-12-19 08:23翁鸿江梅仇成凤曾宪涛
中国循证心血管医学杂志 2016年11期
关键词:卡方关联性定律

翁鸿,江梅,仇成凤,曾宪涛

· 循证理论与实践 ·

遗传关联性研究Meta分析中的Hardy-Weinberg平衡

翁鸿1,2,江梅3,仇成凤4,曾宪涛1,2

Hardy-Weinberg平衡(HWE)在科学领域是一个常用的假设,其在遗传关联性研究中的重要性被日益重视。HWE与基因型分型质量密切相关,因此,制作遗传关联性研究Meta分析时,需要检验对照组人群基因型分布是否符合HWE。本文从HWE定律的产生背景出发,介绍其检验方法,以及在制作遗传关联性研究Meta分析时如何处理对照组不符合HWE的研究。

遗传关联性研究;基因多态性;Hardy-Weinberg平衡;Meta分析

在理想状态下(如随机交配,没有选择、突变或迁徙),人群若符合Hardy-Weinberg平衡(HWE),某一特征基因比例在遗传中将保持不变。当前HWE在科学研究领域是一个常用假设,涵盖植物学[1]、法医学[2]及遗传流行病学[3]。在遗传关联性研究中HWE的重要性也逐渐被研究者发现。Trikalinos等[4]对42篇遗传关联性研究Meta分析的591个研究再次进行Meta分析,结果发现,对照组中不符合HWE校正后,33篇Meta分析文献总的比值比在10%以内变化,另外9篇在10%~31%变化,其中3篇校正后统计学关联性消失。因此,在制作遗传关联性研究Meta分析时,进行对照组HWE检验是重要的步骤。本文全面阐述HWE的产生、检验方法以及在遗传关联性研究Meta分析中如何处理。

1 群体遗传与进化

1.1 进化 达尔文进化理论有三条原则:①变异原则;②遗传原则;③选择原则。变异原则是指在任何一个群体中,不同个体之间都存在一定程度的差异,包括形态、生理及行为;遗传原则是指后代与其杂交亲本的相似性多于与无关个体的相似性;选择原则是指在特定的环境中,某些个体总比其他个体有更强的生存能力。群体遗传学将上述三条原则转变成精准的遗传学概念的科学,从研究群体的遗传结构及其变化规律来探讨进化的机制。

1.2 孟德尔群体 进化的单位是群体,并不是个人,这是由于个体生命的长短是有限的,且其遗传结构除发生突变之外,一生中均是固定的。而群体分布广泛,世代相传,具有时间上的连续性,在遗传结构上也能发生改变。群体遗传学研究群体是一种特定的孟德尔群体,是一群相互交配的个体集合,该群体中所有个体共有的全部基因即为基因库。Dobzhansky[5]定义其为一群能够相互繁殖的个体,并享有一个共同的基因库。

1.3 群体的遗传结构 群体遗传学主要是研究群体遗传组成变化的机制。遗传结构是指群体中各基因的频率及各基因型的数量分布。因此,群体遗传学采用等位基因频率和基因型频率两个概念来表达群体遗传结构。等位基因频率是指某种基因在某个群体中出现的比例;基因型频率是指某种特定基因型的个体占群体内全部个体的比例。

2 HWE定律的概念和要点

2.1 HWE定律的概念 群体遗传结构的变化引起遗传水平上的变化,即进化。突变和重组是可遗传变异的源泉,是进化所需的原料。在有性繁殖过程中,通过遗传漂变和自然选择将变异体有区别地传递到后代中去。但遗传本身并不改变基因频率,即HWE定律的原理。该定律指出:当一个大的孟德尔群体中的个体间进行随机交配,并同时无选择、无突变、无迁徙和遗传漂变发生时,下一代基因型的频率和前一代一样,这个群体被称为处于随机交配系统的平衡中[6-10]。该定律是在1908年由英国数学家Hardy和德国医生Weinberg分别独立发现的,故称HWE定律,又称基因型频率的平衡定律,它是群体遗传学的第一理论基石[6,9,11,12]。假设一对等位基因A和B的频率分别为p和q,且p+q=1,在该群体中有三种基因型AA、AB和BB,其基因型频率分别为p2、2pq和q2,根据HWE定律,则(p+q)2= p2+2pq+q2=1(表1)。因此HWE定律也被称为二项式平方定律。

2.2 HWE定律的要点 HWE定律的要点主要有三条[6]:①在以随机交配为前提的孟德尔群体中,如果没有基因突变、选择或迁移的干扰,则基因频率在遗传过程中不发生变化;②群体的基因型频率的平衡建立在二项式定律之中[(p+q)2= p2+2pq+q2=1],孟德尔群体的基因型频率取决于其等位基因频率;③随机交配是保持平衡状态的重要保障。

2.3 HWE定律的推广 HWE定律不仅适用于二等位基因的情况,也适用于复等位基因和伴性基因。如有三个等位基因A、B、C,其频率分别为p、q、r,且p+q+r=1,那么在孟德尔群体中,这三个等位基因及其六种基因型满足的平衡为:(p+q+r)2=p2+2pq+2pr+q2+2qr+r2(表2)。

表1 等位基因A和B的HWE

表2 复等位基因的HWE

表3 Pearson卡方检验计算方法

3 影响HWE的因素

3.1 基因分型错误 这是引起HWE偏离的重要因素[13,14]。在很多基因分型平台中,鉴定杂合子个体比纯合子个体更具有挑战性,难度更大,因此,该基因型的个体缺失引起数据偏离HWE;基因分型质量差的另一个原因是可分型率低,即大量单核苷酸多态性(SNP)位点或个体无法进行基因分型,这一问题在全基因组关联研究(GWAS)中更为显著,在候选基因研究中也会产生,基因型的随机缺失对试验结果的影响较小,但基因分型错误率太高就意味着非随机缺失,对结果会产生偏倚;此外,病例组和对照组中遗失率的不同也会对试验结果产生偏倚,如两组DNA提取或储存的差异所引起的丢失[15,16]。

3.2 选择性配对 即非随机配对。HWE检验要求所分析的SNP是随机配对的,但由于其他因素的干扰,如择偶中女性对男性身高的选择,以及在聋哑人群中也可能发生[16,17]。

3.3 选择偏倚 由于死胎或早期死亡等因素导致某些基因型的流失,这些流失的基因型可能被忽略,因此可能会受到选择偏倚的影响。

3.4 人群分层 在研究中混合了遗传学隔离的人群,可能会引起基因型频数偏离HWE。人群分层是遗传关联性研究中较为重要的一个因素。

3.5 偶然因素 有的研究分析了多个SNP,增加了I型错误的发生,因此其HWE检验的P值也需要进行多重检验校正,以得到校正后的P值。

3.6 其他因素 小群体中可能由于遗传漂变、始祖效应、空间限制及杂合子优势而导致偏离HWE[17,18],如囊性纤维化病,杂合子个体比正常的纯合子个体有生殖优势。

4 HWE的检验

4.1 Pearson卡方检验 检验某个群体是否符合HWE最常用的方法是Pearson卡方检验(表3)。假设有100个人,AA、AB、BB的基因型频数(O)分别为:O(AA)=70、O(AB)=20、O(BB)=10,计算出A、B等位基因的频率分别为:f(A)=(70×2+20)/(2×100)=0.8、f(B)=(10×2+20)/(2×100)=0.2,然后分别计算出各基因型频率的期望值(E):E(AA)=100×0.82=64,E(AB)=2×100×0.8×0.2=32,E(BB)=100×0.22=4。Pearson卡方拟合优度检验是通过求和(O-E)2/E来给定卡方值,该例的卡方值为:χ2=(70-64)2/64+(20-32)2/32+(10-4)2/4=14.06。此外,值得注意的是,此处卡方分布的自由度为3-1-1=1,不是3-1=2,因为等位基因频率p已经在观测值中进行了估算,因此卡方分布的自由度又减少一个。因此,该卡方值对应的P值为0.0002,提示该基因型频数偏离HWE,可能会存在杂合子数目的部分丢失。最后一步也可以在EXCEL中输入“=CHIDIST(卡方值,自由度)”然后得出相应的P值。此外,也有多种软件可以实现HWE检验,如Stata软件中的genhwi命令(命令格式genhwi AA AB BB)、网页版检验HWE(http://www.oege.org./software/hwe-mr-calc.shtml)及研究者自行在EXCEL中编辑计算公式。

4.2 其他检验方法 Pearson卡方检验是最常用的检验HWE的方法,但当突变基因频率较为罕见时,Pearson卡方检验的统计效能难以满足,此时应使用确切检验[7,8,10]。Li等[19]提出了一种似然比检验(LRT),并指出LRT比常用的Pearson卡方检验具有更强的统计效能。但Zang等[20]指出当标志物不依赖疾病时,LRT的检验效能也不足,需要数据最优化来计算检验统计量,因此他们提出了一种收缩检验,比LRT更具有统计效能,也易于用在全基因组关联研究的数据中。此外,Ward等[21]还提出了一种简单均方根统计量来检验HWE,以及X连锁的单核苷酸多态性的HWE检验[22]、近亲系数检验[23]、不完全列举法[24]及绘图法[25]。总之,检验基因型频数是否偏离HWE的方法有多种,读者可根据情况选择合适的方法,比如Stata软件的genhwi命令同时提供了Pearson卡方检验、LRT检验以及确切检验的结果。

5 遗传关联性研究Meta分析中对HWE的处理

5.1 检测对照组基因型是否符合HWE 研究者普遍认为遗传关联性研究的可靠性和有效性在较大程度上依赖对照组的正确选择[26]。病例组中的群体可能由于受到疾病压力(选择压力的一种)的作用,使得其基因型分布偏离HWE;而未患病的对照组基因型分布应该符合HWE,因此,在进行遗传关联性研究的Meta分析时,应该检测病例-对照研究的对照组基因型分布是否符合HWE。但由于检验HWE的效能较低,特别是对于中等效应值的检测,因此,HuGENet推荐评估的主要目的是评价偏离HWE程度的大小,而不是检验是否具有统计学意义[27]。因此,推荐研究者在制作遗传关联性研究Meta分析中,报告纳入研究对照组基因型的HWE情况时应报告检验结果的P值,而不是仅报告该研究的对照组是否符合HWE。

5.2 对照组基因型分布偏离HWE研究的处理 制作遗传关联性研究Meta分析时,有研究者提出将对照组基因型分布偏离HWE的研究进行排除,也有研究者认为应该将其纳入,然后进行敏感性分析或Meta回归分析,来比较结果的稳定性或检验组间是否有差异[17,28-31]。目前普遍较为推荐的为后者,先将所有研究纳入进行合并分析,然后进行敏感性分析,排除对照组偏离HWE的研究,将敏感性分析的结果与总的合并结果进行比较,验证汇总结果的稳健性。

6 小结

本文概述了HWE定律产生的背景及历史,并阐明了其在遗传学中的地位,因此,HWE定律在遗传关联性研究中也不可忽视,在进行遗传关联性研究Meta分析时要进行HWE的检验。详述了群体偏离HWE的原因,主要是基因分型质量的原因以及检验HWE的目的。并展示了检验HWE的方法,其中Pearson卡方检验最为常用,软件操作也较为简单。最后,阐述了遗传关联性研究Meta分析中如何处理对照组不符合HWE的研究,即先进行汇总分析后,再进行敏感性分析,对比研究结果,考察汇总结果的稳健性。此外,提倡研究者在制作遗传关联性研究Meta分析时,应报告对照组基因型分布偏离HWE的程度(即P值),而不仅仅是报告是否符合HWE。

[1] Anastassopoulos E. DNA Fingerprinting in Plants: Principles, Methods and Applications[J]. Economic Botany,2009,14(14):129-31.

[2] Council BN. The evaluation of forensic DNA evidence[M]. Washington DC: National Academy Press,2010.

[3] Sham P. Statistics in Human Genetics[M]. London: Arnold Publishers,2001.

[4] Trikalinos TA,Salanti G,Khoury MJ,et al. Impact of violations and deviations in Hardy-Weinberg equilibrium on postulated genedisease associations[J]. Am J Epidemiol,2006,163(4):300-9.

[5] DOBZHANSKY T. Mendelian populations as genetic systems[J]. Cold Spring Harb Symp Quant Biol,1957,22(7):385-93.

[6] 王亚馥,戴灼华. 遗传学[M]. 第二版,北京:高等教育出版社,2008.

[7] Wigginton JE,Cutler DJ,Abecasis GR. A note on exact tests of Hardy-Weinberg equilibrium[J]. Am J Hum Genet,2005,76(5):887-93.

[8] Schaid DJ,Batzler AJ,Jenkins GD,et al. Exact tests of Hardy-Weinberg equilibrium and homogeneity of disequilibrium across strata[J]. Am J Hum Genet,2006,79(6):1071-80.

[9] Mayo O. A century of Hardy-Weinberg equilibrium[J]. Twin Res Hum Genet,2008,11(3):249-56.

[10] Shan G. A note on exact conditional and unconditional tests for Hardy-Weinberg equilibrium[J]. Hum Hered,2013,76(1):10-7.

[11] James V Neel. Hardy-Weinberg Equilibrium and Primitive Populations[J]. Am J Hum Genet,1965,17(1):91-2.

[12] Hardy GH. MENDELIAN PROPORTIONS IN A MIXED POPULATION[J]. Science,1908,28(706):49-50.

[13] Gomes I,Collins A,Lonjou C,et al. Hardy-Weinberg quality control[J]. Ann Hum Genet,1999,63(Pt 6):535-8.

[14] Hosking L,Lumsden S,Lewis K,et al. Detection of genotyping errors by Hardy-Weinberg equilibrium testing[J]. Eur J Hum Genet,2004,12(5):395-9.

[15] Clayton DG,Walker NM,Smyth DJ,et al. Population structure, differential bias and genomic control in a large-scale, case-control association study[J]. Nat Genet,2005,37(11):1243-6.

[16] Al-Chalabi A,Almasy L. Genetics of Complex Human Diseases: A Laboratory Manual[M]. New York: Cold Spring Harbor Laboratory Press,2009.

[17] Salanti G,Sanderson S,Higgins JP. Obstacles and opportunities in meta-analysis of genetic association studies[J]. Genet Med,2005,7(1):13-20.

[18] Chen YS,Su YC,Pan W. Effect of spatial constraints on Hardy-Weinberg equilibrium[J]. Sci Rep,2016,6:19297.

[19] Li M,Li C. Assessing departure from Hardy-Weinberg equilibrium in the presence of disease association[J]. Genet Epidemiol,2008,32(7): 589-99.

[20] Zang Y,Yuan Y. A shrinkage method for testing the Hardy-Weinberg equilibrium in case-control studies[J]. Genet Epidemiol,2013,37(7): 743-50.

[21] Ward R,Carroll RJ. Testing Hardy-Weinberg equilibrium with a simple root-mean-square statistic[J]. Biostatistics,2014,15(1):74-86.

[22] Zheng G,Joo J,Zhang C,et al. Testing association for markers on the X chromosome[J]. Genet Epidemiol,2007,31(8):834-43.

[23] Salanti G,Amountza G,Ntzani EE,et al. Hardy-Weinberg equilibrium in genetic association studies: an empirical evaluation of reporting, deviations, and power[J]. Eur J Hum Genet,2005,13(7):840-8.

[24] Maurer HP,Melchinger AE,Frisch M. An incomplete enumeration algorithm for an exact test of Hardy-Weinberg proportions with multiple alleles[J]. Theor Appl Genet,2007, 115(3):393-8.

[25] Graffelman J,Camarena JM. Graphical tests for Hardy-Weinberg equilibrium based on the ternary plot[J]. Hum Hered,2008,65(2):77-84.

[26] 刘红,胡永华. 遗传流行病学研究中的H-W平衡检验[J]. 中南大学学报(医学版),2010,35(1):90-3.

[27] Little J,Higgins JPT (editors). The HuGENet™ HuGE Review Handbook, version 1.0. http://www.hugenet.ca (accessed 28 February 2006).

[28] Nakaoka H,Inoue I. Meta-analysis of genetic association studies: methodologies, between-study heterogeneity and winner's curse[J]. J Hum Genet,2009,54(11):615-23.

[29] Sagoo GS,Little J,Higgins JP. Systematic reviews of genetic association studies. Human Genome Epidemiology Network[J]. PLoS Med,2009,6(3):e28.

[30] Minelli C,Thompson JR,Abrams KR,et al. How should we use information about HWE in the meta-analyses of genetic association studies?[J]. Int J Epidemiol,2008,37(1):136-46.

[31] Salanti G,Higgins JP,Trikalinos TA,et al. Bayesian meta-analysis and meta-regression for gene-disease associations and deviations from Hardy-Weinberg equilibrium[J]. Stat Med,2007,26(3):553-67.

本文编辑:姚雪莉

Hardy-Weinberg equilibrium in Meta-analysis of genetic association study

WENG Hong*, JIANG Mei, QIU Cheng-feng, ZENG Xian-tao.*Center for Evidence-Based and Translational Medicine, Zhongnan Hospital, Wuhan University, Wuhan 430071, China.

To Hardy-Weinberg equilibrium (HWE) is a common hypothesis in field of science and its importance is more and more predominant in genetic association study. HWE is closely correlated with quality of genotyping. Therefore, the coincidence between genotype distribution in controls and HWE should be tested when a Meta-analysis of genetic association study was conducted. The test method, and how to deal with the studies that were not coincided with HWE during performing Meta-analysis of genetic association study were introduced in the paper based on the emerging background of HWE.

Genetic association study; Gene polymorphism; Hardy-Weinberg equilibrium; Meta-analysis

R4

A

1674-4055(2016)11-1281-03

国家重点研发计划专项基金(2016YFC0106300)

1430071 武汉,武汉大学中南医院循证与转化医学中心;2430071 武汉,武汉大学循证与转化医学中心;3510120 广州,广州医科大学附属第一医院·呼吸疾病国家重点实验室·呼吸疾病国家临床研究中心·广州呼吸疾病研究所;4418000 怀化,怀化市第一民医院临床药学研究室·循证医学中心

曾宪涛,E-mail:zengxiantao1128@163.com

10.3969/j.issn.1674-4055.2016.11.01

猜你喜欢
卡方关联性定律
卡方检验的应用条件
卡方变异的SSA的FSC赛车转向梯形优化方法
基于单元视角的关联性阅读教学策略浅探
卡方检验的应用条件
多一盎司定律和多一圈定律
三大抽样分布的理解与具体性质
倒霉定律
某区献血者人群中HCV阳性与HLA的关联性研究
四物汤有效成分的关联性分析
抗磨白口铸铁化学成分自关联性分析