通过病例-父母对照研究对基因环境交互作用进行估计*

2017-03-02 02:36彭威军李颖雪李晨阳严薇荣
关键词:等位基因基因型效应

张 恒,彭威军,李颖雪,李晨阳,严薇荣

华中科技大学同济医学院公共卫生学院流行病与卫生统计学系,武汉 430030

通过病例-父母对照研究对基因环境交互作用进行估计*

张 恒,彭威军,李颖雪,李晨阳,严薇荣△

华中科技大学同济医学院公共卫生学院流行病与卫生统计学系,武汉 430030

目的 介绍基于似然比检验(LRT)的对数线性模型在病例-父母对照研究中分析基因环境交互作用的应用。方法 以新生儿肺不张(NPA)病例中新生儿肺泡表面活性物质相关蛋白A(SPA)基因A186G多态性与新生儿出生1周内呼吸道病毒感染的交互作用的拟合数据为例,以LRT为基础,采用对数线性模型,利用LEM软件进行统计分析。结果 新生儿SPA基因A186G多态性与NPA发生相关(P<0.01),基因型AG、GG的新生儿发生肺不张的风险较AA基因型的新生儿显著降低;但AG、GG基因型与呼吸道病毒感染的交互作用会增加其发生NPA的风险。结论 对数线性模型适用于病例-父母对照研究中基因与环境的交互作用的检验,并且能够估计交互效应以及基因的单独效应;该方法可用于妊娠期疾病与胚胎源性疾病的病因学研究。

病例-父母对照研究; 基因环境交互作用; 对数线性模型; 似然比检验

许多疾病并非由单一的遗传因素或者环境因素引起的,而是两者交互作用的结果。这种基因环境交互作用可以通过某一特定的生物学或统计学模型来验证。生物学模型通常表示基因和环境危险因素以特定的相互作用机制引起疾病的发生,其分析模型有相加模型和相乘模型,主要分为4种形式:单纯交互作用,遗传修饰模型,环境修饰效应模型和遗传环境修饰模型[1]。这些模型机制一般通过建立动物模型来阐明[2],但在现有实验水平下,并不能完全阐明各种基因环境交互作用机制。因此,实际中更多的是验证统计学交互作用的有无,而统计学交互模型并非单纯的相加模型或相乘模型,其中的效应估计更为复杂[3]。

经典的研究设计如队列研究、病例对照研究可用于分析基因与环境的交互作用,但是通常由于人群分层的存在,不同遗传背景的人群同一遗传标记的频率存在差异,错误的选择遗传背景不匹配的对照就会导致虚假关联。因而在这类研究设计中选择恰当的对照非常重要,同时又非常困难。近几年来出现了多种新的流行病学研究设计,其中如病例-父母对照研究(case-parent triads),由于病例及其父母具有相似的遗传背景,可以有效避免人群分层所致的偏倚。病例-父母对照研究是以无关联的病例及其父母作为研究对象的设计。利用此设计,可以对所有研究对象进行基因分型,并收集病例的人口统计学信息和环境暴露信息,以估计目的基因与疾病发生的相关性及环境暴露因素与基因的交互作用[4]。在检测基因环境交互作用方面,病例-父母对照研究较病例对照研究有更高的检验效能[3]。此外,在设定某些保护因素作为参照,同时已知全人群暴露率的条件下,病例-父母对照研究还可以单独估计环境因素的效应[5]。本文介绍的是一种应用于病例-父母对照研究设计的方法,即似然比检验(likelihood ratio test,LRT)和对数线性模型,用于检测是否存在基因环境交互作用并估计交互作用的大小,这种方法在国外已有介绍[5],但在国内尚未见报道。

1 基本原理

1.1 必要假设

在待分析基因服从孟德尔遗传定律和随机婚配的前提下[5],通过检测暴露组和非暴露组中病例家庭病例-父母基因型频数分布,采用极大似然法对实际频数与人群中满足孟德尔遗传定律的理论频数进行迭代拟合:首先采用似然比检验分析方法,检验是否存在交互作用,然后通过构建对数线性模型,估计交互作用存在时各暴露水平下的基因型效应和基因环境交互效应。此外,所选取的暴露因素还需满足条件性独立的前提,即研究对象的暴露状态与所研究的基因位点无关联。假定M、P、C分别代表母亲、父亲、子代携带易感等位基因数目,可用0、1、2表示;E代表病例的危险因素暴露水平,0为非暴露,1,2,……,e依次为各暴露水平,这种独立性假设可表示为P(C,E│M,F)=P(C│M,F)P(E│M,F)[5]。

满足婚配对称条件时,即(M,P)=(1,2)与(M,P)=(2,1);(M,P)=(1,0)与(M,P)=(0,1)以及(M,P)=(0,2)与(M,P)=(2,0)在人群中出现的频率相等。此时按父母携带的易感等位基因数可将婚配类型分为6种:(M,P)分别取(0,0),(1,0),(2,0),(1,1),(2,1),(2,2)。

1.2 基本模型介绍

①存在交互作用时,估计基因效应和基因环境交互作用:

lnNice= μi+δieI{E=e}+β1I{C=1}+β2I{C=2}+ηe1I{C=1}I{E=e}+ηe2I{C=2}I{E=e}+In(2)I{(M,P,C)=(1,1,1)}

(1)

Nice表示易感等位基因数为c,婚配系数为μi,暴露水平为e的病例期望频数。子代易感等位基因数为1时I{C=1}=1,否则为0;I{C=2}的取值与之同理。I{E=e}的取值与I{C=c}同理。In(2)I{(M,P,C)=(1,1,1)}表示当M=F=C=1时,I{(M,P,C)=(1,1,1)}取1,这种基因组合中子代可以相同的概率分别从父亲和母亲得到1个易感等位基因,故系数为2。

exp(δie)为婚配类型为μi时暴露水平为e相对于非暴露组的OR值(i取任何值δi0=0)。exp(β1)、exp(β2)分别为非暴露组中携带1个和2个易感等位基因时相对于未携带易感等位基因的OR值,即基因型的单独效应,分别用R1、R2表示。exp(ηe1)、exp(ηe2)分别为暴露水平为e,携带1个和2个易感等位基因相对于未携带易感等位基因的非暴露组的OR值,即基因与暴露的交互作用,分别用Se1、Se2表示。

模型(1)可以估计基因的单独效应和基因环境的交互效应,而无法单独估计环境的效应,但如果可以设定某些保护因素作为参照,同时已知全人群中的暴露率,在无人群分层或者有人群分层但各亚组人群的暴露于该环境因素的概率相等时,通过对模型(1)的调整,可以估计环境因素的主效应:

lnNice= μi+(δe+ωe)I{E=e}+β1I{C=1}+β2I{C=2}+ηe1I{C=1}I{E=e}+ηe2I{C=2}I{E=e}

+In(2)I{(M,P,C)=(1,1,1)}

(2)

ωe是全人群中各暴露水平与非暴露比例的自然对数值,为常数项。此时暴露组中各暴露水平的分层参数与婚配类型无关,Ke=exp(δe),表示暴露水平为e的环境因素致病的OR值。

②不考虑交互作用时,采用Wilcox和Weinberg[6-7]建立的模型,估计基因型效应:

lnNice= μi+δieI{E=e}+βcI{C=c}+In(2)I{(M,P,C)=(1,1,1)}

(3)

按暴露水平将病例分组,分别估算暴露组和非暴露组中的基因效应。exp(β1)、exp(β2)分别表示携带1个和2个易感等位基因相对于未携带易感等位基因的OR值,即不考虑交互作用时基因型的单独效应。

1.3 进行似然比检验判定有无交互作用

由交互作用模型和非交互作用模型得出的基因型相对危险度可进行似然比检验,判断交互作用是否存在[3]:

LR=2[InL(R1x,R2x)-InL(R10,R20)]

R1x,R2x分别表示交互作用存在时病例携带1个和2个易感等位基因的OR值,由上文模型(1)得到;R10,R20分别表示不考虑交互作用时病例携带1个和2个易感等位基因的OR值,由上文模型(3)得到。

InL(R1x,R2x)、InL(R10,R10)分别表示相应条件下的最大似然值,Schaid[8]提供了最大似然值的详细算法,该似然比检验服从自由度为2的卡方检验。

1.4 估计基因效应和基因环境交互效应

根据检验结果,选择相应模型计算基因效应和基因环境交互效应值。

应用对数线性模型分析数据时,通常可用SAS、R等软件编写模型,此处采用更为简便的LEM软件。LEM软件[9]不仅可完成似然比检验,也可用来计算上述模型中的基因效应值和基因环境交互效应值。程序语言可参考Weinberg提供的相关资料(http://www.niehs.nih.gov/research/atniehs/labs/bb/staff/weinberg/index.cfm#downloads.)。

2 示例分析

以新生儿肺不张(NPA)病例中新生儿肺泡表面活性物质相关蛋白A(SPA)基因A186G多态性与新生儿出生1周内呼吸道病毒感染的交互作用的拟合数据为例(表1),应用LEM软件进行数据分析。

表1 200例新生儿肺不张病例的SPA基因A186G多态性与出生1周内呼吸道病毒感染状况分布Table 1 Distribution of the SPA A186G polymorphisms and respiratory viral infection in one week of birth in 200 NPA cases

父母基因型中0表示AA,1表示AG,2表示GG

将实际频数分别迭代入交互模型和非交互模型,计算出两模型中的各参数值,利用两模型得出的R1x,R2x;R10,R20进行LRT,判断有无交互作用,检验结果见表2。

所以出生1周内呼吸道病毒感染与SPA基因A186G多态性间存在交互作用。由于无法获取新生儿呼吸道病毒感染比例,无法估计该暴露的单独效应,此例采用模型(1),估计新生儿基因效应以及呼吸道病毒感染与SPA基因的交互效应(表3)。

表2 似然比检验结果Table 2 Results of LRT

表3 新生儿基因效应及与呼吸道病毒感染的交互效应Table 3 Effects of the fetal gene and the interaction with respiratory viral infection

分析结果表明:新生儿SPA基因A186G多态性与NPA发生相关,基因型AG、GG的新生儿发生肺不张的风险较AA基因型的新生儿显著降低;但AG、GG基因型与呼吸道病毒感染的交互作用会增加其患NPA的风险。

3 讨论

相对于传统的病例对照研究,病例-父母对照研究有较大优势,其利用父母的基因信息,在分析基因的致病效应时能显著减少由人群遗传结构引起的偏倚。同时病例组父母亲相对于随机挑选的无病对照参与研究的意愿更强,有利于资料收集完整。无论是否有人群分层,病例-父母对照研究的效率均高于传统病例对照研究[10-11],尤其是当易感等位基因外显率极低,以及环境因素对未携带易感等位基因者有显著效应的时候[3]。

病例-父母对照研究的首要假设条件是服从孟德尔遗传定律,即按父母基因组合的每种婚配类型下子代的候选基因型分布服从孟德尔遗传比例。此外所研究的疾病应当是尽早发作,比如胚胎期疾病,确保收集病例时病例父母均存活。在分析基因环境交互作用时,必须服从条件性独立,若不满足该假设,根据孟德尔遗传比例计算出的各暴露水平下各基因型的理论频数不能作为对照参考值来验证假设,此时容易产生假阳性结论。

病例-父母对照研究在研究设计时并不能单独评价环境作用,但如果有确定的参照值,并且保证人群各亚层中候选暴露因素发生率相同时,可以采用对数线性模型单独估计环境效应[5]。

目前国内也有关于病例-父母对照研究中探索基因环境交互作用的研究[1,4],主要局限于传递不平衡检验(transmission/disequilibrium test,TDT),对基于LRT的对数线性模型缺少系统性介绍,对于TDT的缺陷也有相应讨论。首先,在患病风险受变异等位基因影响时,无论交互作用存在与否,TDT基于的杂合子双亲的变异等位基因传递率在暴露组和非暴露组中仍会产生差异。其次,TDT在检验交互作用时需要满足杂合子双亲的等位基因传递为独立事件,即父母双方传递变异等位基因概率相同,但这个假设条件并非总能成立[8]。

LRT及对数线性模型也有其局限性,其前提假设(①孟德尔遗传假设;②条件性独立假设;③随机婚配)的检验均需要结合无病对照数据,在病例-父母对照研究设计中无法实现。如果能结合病例-对照研究设计,不仅能检验以上假设,还能扩大样本量,增加检验效能。目前也有针对基因型效应分析的混合设计,如病例-父母/对照-母亲混合设计[12]和病例-父母/对照-父母混合设计[13],也有文献简单介绍了病例-父母对照/对照-父母混合设计中采用LRT和对数线性模型估计基因环境交互作用[14],但其数理机制还有待进一步阐明,LRT及对数线性模型在这类混合设计中的应用也值得探索。

近年来采用单体型相对风险(haplotype relative risk,HRR)[15]、基因型相对风险(genotype relative risk,GRR)[16]来估计基因环境交互作用的研究也有报告,但鲜有实例应用,这几种方法的对比及适用情况也值得深入探讨。

[1] 范春红.基因与环境对疾病影响的交互作用研究方法[J].中国预防医学杂志,2015,16(1):75-80.

[2] Ottman R.An epidemiologic approach to gene-environment interaction[J].Genet Epidemiol,1990,7(3):177-185.

[3] Schaid D J.Case-Parents design for gene-environment interaction[J].Genet Epidemiol,1999,16(3):261-273.

[4] 易洪刚,陈峰.病例父母亲对照研究[J].中华流行病学杂志,2004,25(5):76-81.

[5] Umbach D M,Weinberg C R.The use of case-parent triads to study joint effects of genotype and exposure[J].Am J Hum Genet,2000,66(1):251-261.

[6] Wilcox A,Weinberg C,Lie R.Distinguishing the effects of maternal and offspring genes through studies of “case-parent triads"[J].Am J Epidemiol,1998,148(9):893-901.

[7] Weinberg C,Wilcox A,Lie R.A log-linear approach to case-parent-triad data:assessing effects of disease genes that act either directly or through maternal effects and that may be subject to parental imprinting[J].Am J Hum Genet,1998,62(4):969-978.

[8] Schaid D J.Likelihoods and TDT for the case-parents design[J].Genet Epidemiol,1999,16(3):250-260.

[9] van Den Oord E J,Vermunt J K.Testing for linkage disequilibrium,maternal effects,and imprinting with(in)complete case-parent triads,by use of the computer program LEM[J].Am J Hum Genet,2000,66(1):335-338.

[10] Khoury M J.Case-parental control method in the search for disease-susceptibility genes[J].Am J Hum Genet,1994,55(2):414-415.

[11] Hwang S J,Beaty T H,Liang K Y,et al.Minimum sample size estimation to detect gene-environment interaction in case-control designs[J].Am J Epidemiol,1994,140(11):1029-1037.

[12] Vermeulen S H,Shi M,Weinberg C R,et al.A hybrid design:case-parent triads supplemented by control-mother dyads[J].Genet Epidemiol,2009,33(2):136-144.

[13] Weinberg C R,Umbach D M.A hybrid design for studying genetic influences on risk of diseases with onset early in life[J].Am J Hum Genet,2005,77(4):627-636.

[14] Skare O,Jugessur A,Lie R T,et al.Application of a novel hybrid study design to explore gene-environment interactions in orofacial clefts[J].Ann Hum Genet,2012,76(3):221-236.

[15] Shi M,Umbach D M,Weinberg C R.Testing haplotype-environment interactions using case-parent triads[J].Hum Hered,2010,70(1):23-33.

[16] Shin J,Infante-Rivard C,Graham J,et al.Adjusting for spurious gene-by-environment interaction using case-parent triads[J].Stat Appl Genet Mol Biol,2012,11(2).Doi:10.2202/1544-6115.1714.

(2016-10-14 收稿)

Estimation on Gene-environment Interaction in Case-parent Traids

Zhang Heng,Peng Weijun,Li Yingxueetal

DepartmentofEpidemiologyandHealthStatistics,SchoolofPublicHealth,TongjiMedicalCollege,HuazhongUniversityofScienceandTechnology,Wuhan430030,China

Objective To introduce the application of log-linear model based on the likelihood ratio test(LRT)in the estimation on gene-environment interaction in case-parent traids.Methods Simulated data on the association between the risk of neonatal pulmonary atelectasis(NPA)and neonatal A186G polymorphism of surfactant protein A(SPA)gene with the infection of respiratory virus in one week of birth was analyzed to clarify the effect of neonatal gene and its interaction with the infection of respiratory virus,by means of a LRT-based log-linear model.Results The AG and GG genotypes of neonatal A186G polymorphism were associated with a reduced NPA risk,but the interactions of the two genotypes with the infection of respiratory virus in one week of birth increased the risk of NPA.Conclusion The log-linear model can be applied to the case-parent traids,which are qualified with the ability to test the gene-environment interaction and evaluate the effects of gene-environment interaction as well as the genotype.This approach can be used in etiological studies related to diseases originating from fetus and diseases occurring during pregnancy.

case-parent traids; gene-environment interaction; log-linear model; likelihood ratio test

*国家自然科学基金资助项目(No.81172679)

张 恒,女,1991年生,硕士研究生,E-mail:891935208@qq.com

△通讯作者,Corresponding author,E-mail:weirong.yan@hust.edu.cn

R181

10.3870/j.issn.1672-0741.2017.01.014

猜你喜欢
等位基因基因型效应
铀对大型溞的急性毒性效应
亲子鉴定中男性个体Amelogenin基因座异常1例
懒马效应
广东汉族人群Penta D基因座off-ladder稀有等位基因分析
贵州汉族人群23个STR基因座的OL等位基因研究
应变效应及其应用
WHOHLA命名委员会命名的新等位基因HLA-A*24∶327序列分析及确认
西安地区育龄妇女MTHFRC677T基因型分布研究
作物遗传育种研究进展Ⅴ.表型选择与基因型选择
甘蔗黄叶病毒基因型研究进展