新一代测序数据的罕见遗传变异关联性统计方法*

2015-01-27 13:48:53峰△
中国卫生统计 2015年6期
关键词:关联性变异遗传

曾 平 赵 杨 陈 峰△

新一代测序数据的罕见遗传变异关联性统计方法*

曾 平1,2赵 杨1陈 峰1△

通过在基因组水平上对成千上万的单核苷酸多态性(single nucleotide polymorphism,SNP)进行系统性检测和分析,全基因组关联性研究(genome-wide association study,GWAS)发现了一系列与人类复杂性状和疾病(比如,身高、恶性肿瘤、糖尿病和高血压)相关的常见遗传变异位点[1-3]。这些发现为深入研究疾病的遗传基础、发展新的诊断技术和治疗方法提供了全新的视角。

现阶段GWAS的有效性主要取决于常见疾病常见变异(common disease common variant,CDCV)的假设[4],即认为复杂疾病是大量具有弱效应的常见遗传变异和环境因素的共同结果。受技术上的制约,目前的商业芯片只能精确地检测最小等位基因频率(minor allele frequency,MAF)大于1%~5%的SNP(称为常见变异),而MAF<1%~5%的SNP(称为罕见变异)分型被认为是有问题的,通常在GWAS数据的质量控制阶段就会被删除掉[5-6],因此无法研究罕见变异与疾病的关系。

尽管GWAS取得了成功,但是对许多复杂疾病而言,已发现的常见位点仅能解释极少一部分的遗传度,没能取得预期的突破性进展,这种现象被称为遗传缺失(missing heritability)[7-8]。虽然遗传缺失的原因是多方面的(例如,关联性统计分析方法效能低、大量弱效应的SNP尚没有被发现以及环境因素及其与基因的交互作用),并且关于常见和罕见变异在复杂疾病中的遗传模式也存在争议[9],但越来越多的科学研究表明罕见变异在复杂疾病的发生发展过程中同样起着十分重要的作用,即所谓常见疾病帘见变异(common disease rave variant,CDRV)的假设[10-14]。最近的研究显示罕见变异与复杂疾病之间的效应往往高于常见变异[15]:常见变异的OR值多介于1.20~1.50,均值为1.36,而罕见变异的OR值一般都在2.00以上,均值为3.74。随着下一代测序技术(next-generation sequencing technologies)的发展和应用,科学家们已经能够在全基因组或全外显子水平上进行更高密度和更高精度的测序工作,能够精确地检测更低频和罕见的遗传位点[16]。许多研究显示罕见变异对复杂疾病有实质性的贡献[14-15],例如,位于ABCA1、APOA1、LCAT、APOA5、GCKR、LPL和APOB的罕见变异被发现与血浆中高密度脂蛋白水平有关[17-18],位于ANGPTL4的罕见变异能够显著降低甘油三酯和升高高密度脂蛋白[19],著名的Framingham心脏研究显示,通过调节肾脏对盐的代谢,位于SLC12A3、SLC12A1和KCNJ1的罕见变异能够有效降低血压[20],此外一组罕见变异被证明与炎症性肠病存在关联[21],最近的报道表明位于染色体8q24的罕见变异位点rs188140481是前列腺癌的高风险遗传因子[22]。

这些最新的科学证据无疑表明罕见变异与复杂疾病密切相关,是遗传缺失的重要原因之一[7-8,23]。然而,遗憾的是,罕见变异的关联研究不但面临着与常见变异相同的挑战(比如,高维度、统计效能低和多重比较),还具有更大的困难。从研究设计角度讲,由于罕见变异的发生极其稀少,因此需要在更广泛的人群中收集样本,这将导致研究费用和执行难度增加;从统计方法角度讲,即便是在大样本的情况下,现有的用于常见变异的关联分析方法对罕见变异的统计效能也很低或者根本不能使用[11,13,24-26]。

因此,发展高效灵活的罕见变异关联分析方法不但有利于进一步设计更加有效的GWAS研究,也是下一代测序工作的必然要求,更是当前统计遗传学和生物信息学面临的迫切任务之一。过去几年罕见遗传变异关联性分析方法迅速发展,本文主要对这些新出现的关联性分析思维和统计方法做一个系统性的介绍,使应用者了解这些方法背后的假设及其优缺点。

罕见遗传变异关联性分析统计方法

设遗传位点的基因型为aa、Aa和AA,其中a表示次等位基因。由于罕见遗传变异的MAF很小,即对某个具体的罕见位点而言,在人群中其基因型基本上全是AA,只有极个别的个体(在小样本研究中甚至可能没有个体)表达为aa和Aa。这导致的后果是,罕见变异的关联性分析无法像常见变异那样基于单个位点进行,如采用χ2检验、简单线性回归或logistic回归,或者单位点分析对罕见变异的检验效能极低[13,24,27]。

最近统计学家们提出了专门针对罕见变异的关联性分析方法,这些方法的基本策略是:针对一组而非单个位点进行。当对罕见遗传位点无法进行单位点分析或效能极低时,对一组罕见位点同时检验是很自然的选择。相对单个位点,基因是与疾病更加相关的功能单位,因此文献中通常根据基因定义一组罕见遗传变异。我们接下来介绍基于合并思想的检验方法和基于随机效应方差成分的检验方法,以及其他方法。

1.基于合并思想的方法

队列等位基因合计检验(cohort allelic sum test,CAST)[28]、联合多元合并检验(combined multivariate and collapsing test,CMC)[29]以及分组加权合计检验(group-wise weighted sum test,GWST)[30]是三种常见的基于合并的方法,也是最早提出的罕见变异关联性分析方法。

CAST根据一组位点中是否包含罕见SNP建立一个新的指示变量(假设为Z):Z=1表示这组位点包含至少一个罕见SNP,Z=0表示不包含罕见位点,即都是常见变异;然后采用类似χ2的方法执行关联性分析。CMC同样需要建立新的变量,但与CAST略有不同,在合并的过程中CMC计数这组罕见变异的个数而非仅仅是否包含罕见位点;然后将新的变量和常见变异一起执行HotellingT2检验。GWST在合并的过程中对每个罕见变异进行加权后求和,权重和MAF有关,通常MAF越小,权重越大。

虽然在如何合并一组罕见变异及其权重选择方面存在细微差别,但这些方法都基于朴素的思想:按照功能相近或物理位置相邻的原则(如:同一基因或通路),将某个区域内的罕见变异合并成单个位点,然后对合并的位点进行关联性分析,因此统称为负荷检验[25,31]。其合理之处在于,实际中常常观察到一组罕见变异共同与某种疾病有关,合并多个位点有利于关联信号的富集和增强。事实上,负荷检验基于如下的假设:该区域内所有或绝大多数罕见变异为关联位点,并且对疾病或表型影响的效应方向一致。然而这个假设存在明显的问题:①一组罕见变异可能与疾病有关、也可能和疾病无关,即使有关也可能只有少数几个是致病位点;②对一组罕见变异如何进行合理合并目前观点尚未统一;③更重要的是,致病位点有的可能具有保护作用,有的可能具有危险作用。现实中,我们基本上无法了解疾病的遗传模式或只有十分有限的认识,也就无法判断是否所有罕见位点的效应总是同方向的。因此,负荷检验最大的缺点在于无法处理位点效应方向性的问题,在异质性效应的情况下盲目进行位点合并无疑稀释了关联信号,从而降低统计效能[25,27,32-34]。

Price等[35]提出的可变阈值方法(variable-threshold test,VT)和负荷方法类似,不同之处在于,VT采用一系列阈值而非选择单个值(如0.01)来区分常见变异和罕见变异,针对每个阈值计算一个统计量,选择其中最大者为最终假设检验统计量,最后采用permutation程序获得对应的P值。VT背后的假设在于,具有不同MAF的罕见遗传位点可能对疾病的功能影响是不一样的。其缺点在于,和负荷检验一样在效应异质时效能低,并且因为采用重抽样的方法从而计算量大。

Han和Pan[34]意识到负荷检验在效应方向不同时效能低的缺点,提出了一种基于数据的自适应求和检验方法(data adaptive sum test)。为克服效应方向的问题,该方法对每个罕见位点与疾病之间的关系进行回归分析,通过回归系数判断该位点是具有正方向(符号为正)的影响还是负方向(符号为负)的影响;如果某个回归系数的P值小于α0(比如0.10)且符号为负,则对该位点进行重新编码:假设原来的基因型aa、Aa和AA分别赋值为2、1和0,则重新编码为0、1和2;最后采用类似负荷检验的方法进行位点合并和执行假设检验。在这一过程中重新编码会导致原始的无效假设分布失效,因此采用permutation程序获得P值。该方法虽然在一定程度上克服了效应方向性的问题,但是存在以下问题:①需要对单个位点进行效应估计和计算P值,然而如前所述在很多情况下,单位点罕见变异回归分析很不稳定或无法进行[36],因此获得的估计结果将严重影响后续的分析;②如何合适地选择α0及其敏感性尚不明确;③由于采用permutation程序将增大计算量。

2.基于混合效应模型方差成分的方法

从上可见,针对一组罕见变异的关联性研究,恰当地处理位点效应的方向性无疑是至关重要的。基于方差成分检验的提出正是出于这种认识,与负荷检验不同,方差成分检验并不关注如何合并罕见变异,而是将一组罕见变异与疾病的关系看作服从正态分布的随机效应,通过检验随机效应的方差成分来研究罕见变异与疾病之间的关联,因此能够有效地避免这个问题[37]。

(1)SKAT方法

Wu等[25]提出的SKAT(sequence kernel association test,SKAT)是一类非常有效的罕见变异关联性分析方法。在线性混合效应模型的框架下[38-40],SKAT采用基于得分函数(score function)的方差成分检验来研究罕见变异和疾病之间的关系,并通过核函数(kernel function)来量化个体间的遗传相似性[41-47]。其优势在于,SKAT只需要估计H0(即一组罕见变异和疾病之间无关联,等价于随机效应的方差成分为0)下的模型,此时混合效应模型退化为一般的简单线性模型或logistic回归模型,因此SKAT在计算上很有效;在核机器学习(Kernel machine learning)的框架下,通过选择和构造不同的核函数,研究者能够分析遗传位点与疾病之间的复杂关联(如非线性关系或位点间交互作用);另外,能够通过解析的方式获得SKAT统计量的无效分布。最近,类似SKAT的思想被推广到家系数据的罕见遗传位点关联性分析中[48-52]。

此外,Wu等[25]还证明Neale等[53]提出的C-alpha检验实际上是SKAT检验的一种特殊形式,即SKAT不包含协变量且表型为疾病状态时(如病例-对照研究中反应变量为0-1)的情形。

然而,SKAT也存在不足之处:①SKAT统计量越大并不意味这一组罕见变异的效应越大,有可能是因为很多弱的效应[54];②实际应用中,遗传学家和流行病学家不但关心罕见变异和疾病之间的P值,还更关心罕见变异和疾病之间的具体效应大小[55-56];换句话说,他们往往更希望获得一个定量的指标能够反应一组罕见变异对疾病的贡献;但是,本质上SKAT是一种得分检验[25,40],仅执行假设检验而不进行参数估计,因此不能给出关于罕见变异对疾病贡献或效应的度量值,实际工作中无法通过SKAT评价多组罕见变异对疾病的相对重要性;③因为SKAT得分检验的本质,在小样本和显著性检验水平很低的情况下可能会导致保守的结果[25,57-59]。针对SKAT保守的结果,最近提出了一些改进的措施,如采用数值调整或通过permutation和bootstrap方法校正[25,60]。但目前相应的校正仅针对病例-对照资料,针对定量数据校正方法尚不能得到。

模拟研究显示,当至少大部分罕见变异为关联位点且效应方向一致时,负荷检验的统计效应高于SKAT,但在只有少部分罕见位点为关联位点以及效应方向不一致时,SKAT具有明显的优势。然而,在实际中无法得知疾病的遗传模型,因此应用中对负荷检验和SKAT的最优选择将变得困难。为了解决这个问题,Lee等[60-61]提出在SKAT检验中纳入罕见变异关系结构的相关矩阵,称为SKAT-O(optimal sequence kernel association test)。该相关矩阵包含一个参数ρ,当ρ=1时SKAT-O退化为负荷检验,当ρ=0时SKAT-O退化为一般的SKAT。

(2)MiST方法

与SKAT-O的策略不同,Sun等[57]提出的MiST方法(mixed effects score test)直接将在负荷检验中合并的变量连同多个罕见变异一起纳入统计模型,然后构造两个独立得分检验,分别检验合并的变量和罕见变异的方差成分,最后通过Fisher或Tippett合并得到最终联合检验的P值。模拟研究显示,MiST方法要优于SKAT和SKAT-O以及负荷检验。研究还发现,在通过单一的相关系数来衡量罕见变异关系结构的做法(即SKAT-O中的思路)实际上并非是最优的[57],因为实际单个参数基本上无法反应罕见变异之间的复杂关系,这样做反而会降低统计效能,即有时候SKAT的效能要高于SKAT-O[57]。

(3)GenRF模型

通过借用在空间统计中发展的随机场理论(random field theory),He等[58]和Li等[59]提出了一种新的罕见变异关联分析方法,称为遗传随机场(genetic random field,GenRF)模型。在GenRF模型中某个具体个体的遗传表型被当做随机场在欧几里得空间中随机实现,并认为受剩下其他所有个体的影响,这种影响通过一个非负的尺度参数来量化。因此对一组罕见变异关联性的检验就转化为该尺度参数的检验。Li等[59]认为GenRF模型可看做一种特殊的Wald检验。

(4)基于似然的推断

如前文所述,在混合效应模型的框架下罕见变异关联性分析可以转化为对方差成分的假设检验。在统计推断中,相对于得分检验(如SKAT、SKAT-O或MiST方法)和Wald检验(如GenRF模型),似然比检验(likelihood ratio test,LRT)和限制性似然比检验(restricted likelihood ratio test,ReLRT)是另一类十分重要和流行的方法[3,62-65]。基于此,Zeng等[55-56]最近提出采用LRT和ReLRT执行罕见变异关联性分析,LRT和ReLRT统计量建立在剖面似然函数(profile log-likelihood)之上,通过抽样算法获得统计量的无效假设分布[3,55-56]。

模拟研究显示,LRT和ReLRT一致优于SKAT,甚至在罕见变异效应方向相同、当样本量比较大时其效能与SKAT-O和负荷检验基本一致;此外,LRT和ReLRT还能提供反映一组罕见变异相对重要性的指示统计量[55-56]。然而,LRT和ReLRT的不足之处在于,要求同时估计H0和H1条件下的模型,并且依赖模拟算法计算P值,因此其速度相对较慢。为了提高LRT和ReLRT的计算速度,我们最近尝试采用近似混合分布(mixture distribution),研究显示该近似分布能够在维持其高统计效能的基础上显著提高计算速度。

3.其他方法

虽然近年来针对罕见变异关联性分析的统计方法层出不穷;然而,在实际应用中有些方法存在明显的局限或其理论假设不现实。例如,Zhan和Xu[54]提出的自适应岭回归(adaptive ridge regression)被验证不能有效控制I型错误,负荷检验不能有效处理效应方向的问题,Lin和Tang[36]提出的EREC方法以及其他方法如VT检验[35]、Han和Pan自适应检验[34]、加权检验[29]以及Liu和Leal提出的KBAC[67]都要求执行permutation程序或Monte Carlo检验,因此计算复杂。基于Bayes等级模型[68]的方法虽然显示出好的性质,但需要通过MCMC迭代抽样以及评价Markov链是否收敛,同样具有计算量大的缺点,实际应用受限。此外,基于维度降低的策略如主成分法也受到重视,Luo等[69]比较了八种罕见变异关联性分析方法(包括CMC、T2和主成分法等),认为功能主成分法(functional principal component analysis)具有较高的效能,但目前功能主成分法与SKAT、似然比检验之间的相对效能尚不明确。

好的罕见遗传变异关联性分析统计方法应该具备的特点

我们认为一个好的罕见遗传变异关联性分析统计方法应该具备一些优良的性质:①能够有效处理罕见变异效应方向性的问题,即需要对异质效应稳健,这也是所有性质中最为重要的;②能够同时考虑协变量;因为关联研究中可能存在其他协变量需要校正,如性别、年龄或暴露水平等;另一个重要的情况是人群分层(population stratification),目前校正人群分层的常规做法是在分析中纳入前几位的主成分[70],因此校正协变量也就变得异常重要[25-26,36];③考虑到在全基因组或全外显子规模上需要执行成千上万次的关联分析,因此需要快速的计算;我们注意到,通过多核运算或并行运算等方式以及近似的方法能显著提高计算速度;④能够提供度量一组罕见变异和疾病之间效应的客观指标,以及能够分析疾病和遗传位点之间的复杂关系的指标。

事实上,上面提到的SKAT、MiST、GenRF以及LRT和ReLRT都具备上述大部分性质。它们还具有共同的特点:将一组罕见变异关联研究的问题转化为对一个非负参数假设检验的问题,避免了多元检验存在的问题,如自由度消耗、多重共线性和效能低等,因此,在罕见变异个数比较多时仍然有效。

未来的方向

上述罕见变异检验方法的统计效能表现主要取决于潜在的模型假设,总的罕见变异位点个数、位点效应的方向、位点MAF和效应之间的关系以及致病位点在所有位点中的比例。大量的经验研究显示[25-26,71-72],已经发展的罕见变异关联性研究方法并没有一种检验在任何情况下都是最优的,即任何情况下总具有最高的检验效能,虽然有研究者宣传他们获得了最优(optimal)的检验方法[36,53,60-61]。

考虑到罕见变异和疾病之间的复杂关系,以及现有方法本身效能并不高,因此需要进一步建立更加有效的关联性分析方法和统计分析策略,合理联合不同的检验方法是一种有效的尝试[57,60-61,73],这些联合检验方法通常更加稳健和高效。然而,也有研究显示联合检验方法并不总是能够提高统计效能[55,57]。

对若干个不同的测序数据执行Meta分析也是提高统计效能的一个潜在手段[74-77]。然而,罕见变异Meta分析可能存在的问题包括致病的罕见遗传位点通常出现在具体的某个人群,不同的人群可能并不共享相同的罕见致病位点[78]。

目前的罕见变异关联性分析方法及其分析策略多主要集中于基因内的罕见位点,而忽略常见位点。然而,大量的研究显示致病遗传位点的等位基因频率分布广范,既有罕见位点,也有低频位点和常见位点。在实际应用中,如果仅仅局限于罕见变异无疑会导致统计效能低下,因此整合外源性信息(包括多平台遗传数据和环境数据)以及联合分析常见和罕见位点及其可能的交互作用是十分有必要的[37,79-81],但相关的文献目前还很有限。

虽然已有家系数据的罕见变异关联性分析方法,但越来越多的GWAS研究为了了解遗传因素和疾病的因果关系而采用队列(cohort study)的方式执行[82-83],纵向数据(longitudinal data)本身的非独立性会使得罕见变异关联性分析变得更加复杂,因此迫切需要发展适合纵向测序数据的罕见变异关联性统计方法。

[1]Hindorff L,Sethupathy P,Junkins H,et al.Potential etiologic and functional implications of genome-wide association loci for human diseases and traits.Proceedings of the National Academy of Sciences of the United States of America,2009,106(23):9362-9367.

[2]Visscher P,Brown M,McCarthy M,et al.Five Years of GWAS Discovery.American Journal of Human Genetics,2012,90(1):7-24.

[3]Crainiceanu CM,Ruppert D.Likelihood ratio tests in linear mixed models with one variance component.Journal of the Royal Statistical Society:Series B(Statistical Methodology),2004,66(1):165-185.

[4]Reich DE,Lander ES.On the allelic spectrum of human disease.Trends in Genetics,2001,17(9):502-510.

[5]Hu Z,Shi Y,Mo X,et al.A genome-wide association study identifies two risk loci for congenital heart malformations in Han Chinese populations.Nature Genetics,2013,45(7):818-821.

[6]Wellcome Trust Case Control Consortium.Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls.Nature,2007,447(7145):661-678.

[7]Manolio T,Collins F,Cox N,et al.Finding the missing heritability of complex diseases.Nature,2009,461(7265):747-753.

[8]Eichler EE,Flint J,Gibson G,et al.Missing heritability and strategies for finding the underlying causes of complex disease.Nature Reviews Genetics,2010,11(6):446-450.

[9]Gibson G.Rare and common variants:twenty arguments.Nature reviews Genetics,2012,13(2):135-145.

[10]Pritchard JK.Are rare variants responsible for susceptibility to complex diseases? American Journal of Human Genetics,2001,69(1):124-137.

[11]Carvajal-Carmona LG.Challenges in the identification and use of rare disease-associated predisposition variants.Current Opinion in Genetics and Development,2010,20(3):277-281.

[12]Schork NJ,Murray SS,Frazer KA,et al.Common vs.rare allele hypotheses for complex diseases.Current Opinion in Genetics and Development,2009,19(3):212-219.

[13]Asimit J,Zeggini E.Rare variant association analysis methods for complex traits.Annual Review of Genetics,2010,44:293-308.

[14]Cirulli ET,Goldstein DB.Uncovering the roles of rare variants in common disease through whole-genome sequencing.Nature Reviews Genetics,2010,11(6):415-425.

[15]Bodmer W,Bonilla C.Common and rare variants in multifactorial susceptibility to common diseases.Nature Genetics,2008,40(6):695-701.

[16]Shendure J,Ji H.Next-generation DNA sequencing.Nature Biotechnology,2008,26(10):1135-1145.

[17]Cohen JC,Kiss RS,Pertsemlidis A,et al.Multiple Rare Alleles Contribute to Low Plasma Levels of HDL Cholesterol.Science,2004,305(5685):869-872.

[18]Johansen CT,Wang J,Lanktree MB,et al.Excess of rare variants in genes identified by genome-wide association study of hypertriglyceridemia.Nature Genetics,2010,42(8):684-687.

[19]Romeo S,Pennacchio LA,Fu Y,et al.Population-based resequencing of ANGPTL4 uncovers variations that reduce triglycerides and increase HDL.Nature Genetics,2007,39(4):513-516.

[20]Ji W,Foo J,O’Roak B,et al.Rare independent mutations in renal salt handling genes contribute to blood pressure variation.Nature Genetics,2008,40(1):592-599.

[21]Rivas M,Beaudoin M,Gardet A,et al.Deep resequencing of GWAS loci identifies independent rare variants associated with inflammatory bowel disease.Nature Genetics,2011,43(11):1066-1073.

[22]Gudmundsson J,Sulem P,Gudbjartsson DF,et al.A study based on whole-genome sequencing yields a rare variant at 8q24 associated with prostate cancer.Nature Genetics,2012,44(12):1326-1329.

[23]Maher B.Personal genomes:The case of the missing heritability.Nature,2008,456:18-21.

[24]Bansal V,Libiger O,Torkamani A,et al.Statistical analysis strategies for association studies involving rare variants.Nature Reviews Genetics,2010,11(11):773-785.

[25]Wu MC,Lee S,Cai T,et al.Rare-Variant Association Testing for Sequencing Data with the Sequence Kernel Association Test.American Journal of Human Genetics,2011,89(1):82-93.

[26]Derkach A,Lawless JF,Sun L.Pooled association tests for rare genetic variants:A review and some new results.Statistical Science,2014,29(2):302-321.

[27]Lange K,Papp JC,Sinsheimer JS,et al.Next-Generation Statistical Genetics:Modeling,Penalization,and Optimization in High-Dimensional Data.Annual Review of Statistics and Its Application,2014,1(1):279-300.

[28]Morgenthaler S,Thilly W.A strategy to discover genes that carry multi-allelic or mono-allelic risk for common diseases:a cohort allelic sums test(CAST).Mutation Research,2007,615(1-2):28-56.

[29]Li B,Leal S.Methods for detecting associations with rare variants for common diseases:application to analysis of sequence data.American Journal of Human Genetics,2008,83(3):311-321.

[30]Madsen BE,Browning SR.A Groupwise Association Test for Rare Mutations Using a Weighted Sum Statistic.PLoS Genetics,2009,5(2):e1000384.

[31]Ionita-Laza I,Buxbaum JD,Laird NM,et al.A New Testing Strategy to Identify Rare Variants with Either Risk or Protective Effect on Disease.PLoS Genetics,2011,7(2):e1001289.

[32]Logsdon BA,Dai JY,Auer PL,et al.A Variational Bayes Discrete Mixture Test for Rare Variant Association.Genetic Epidemiology,2014,38(1):21-30.

[33]Pan W,Shen X.Adaptive tests for association analysis of rare variants.Genetic Epidemiology,2011,35(5):381-388.

[34]Han F,Pan W.A data-adaptive sum test for disease association with multiple common or rare variants.Human Heredity,2010,70(1):42-54.

[35]Price AL,Kryukov GV,de Bakker PI,et al.Pooled association tests for rare variants in exon-resequencing studies.American Journal of Human Genetics,2010,86(6):832-838.

[36]Lin D,Tang Z.A General Framework for Detecting Disease Associations with Rare Variants in Sequencing Studies.American Journal of Human Genetics,2011,89(3):354-367.

[37]Lee S,Abecasis Goncalo R,Boehnke M,et al.Rare-Variant Association Analysis:Study Designs and Statistical Tests.American Journal of Human Genetics,2014,95(1):5-23.

[38]Laird NM,Ware JH.Random-effects models for longitudinal data.Biometrics,1982,38(4):963-974.

[39]Breslow N,Clayton D.Approximate inference in generalized linear mixed models.J Am Stat Assoc,1993,88(421):9-25.

[40]Lin X.Variance component testing in generalised linear models with random effects.Biometrika,1997,84(2):309-326.

[41]Schaid DJ.Genomic Similarity and Kernel Methods I:Advancements by Building on Mathematical and Statistical Foundations.Human Heredity,2010,70(2):109-131.

[42]Hofmann T,Schölkopf B,Smola AJ.Kernel methods in machine learning.Annals of Statistics,2008,36(3):1171-1220.

[43]Hastie T,Tibshirani R,Friedman J.The Elements of Statistical learning:Data Mining,Inference,and Prediction,2 nd edition.New York:Springer,2009.

[44]Cristianini N,Shawe-Taylor J.An introduction to support vector machines and other kernel-based learning methods.New York:Cambridge University Press,2000.

[45]Schölkopf B,Smola A.Learning with Kernels:Support Vector Machines,Regularization,Optimization,and Beyond.Cambridge:The MIT Press,2001.

[46]Shawe-Taylor J,Cristianini N.Kernel methods for pattern analysis.New York:Cambridge University Press,2004.

[47]Gönen M,Alpaydin E.Multiple kernel learning algorithms.Journal of Machine Learning Research,2011,12:2211-2268.

[48]Schifano ED,Epstein MP,Bielak LF,et al.SNP Set Association Analysis for Familial Data.Genetic Epidemiology,2012,36(8):797-810.

[49]Chen H,Meigs JB,Dupuis J.Sequence kernel association test for quantitative traits in family samples.Genetic Epidemiology,2013,37(2):196-204.

[50]Oualkacha K,Dastani Z,Li R,et al.Adjusted Sequence Kernel Association Test for Rare Variants Controlling for Cryptic and Family Relatedness.Genetic Epidemiology,2013,37(4):366-376.

[51]Svishcheva GR,Belonogova NM,Axenovich TI.FFBSKAT:Fast Family-Based Sequence Kernel Association Test.PLoS ONE,2014,9(6):e99407.

[52]Chen H,Malzahn D,Balliu B,et al.Testing Genetic Association With Rare and Common Variants in Family Data.Genetic Epidemiology,2014,38(S1):S37-S43.

[53]Neale BM,Rivas MA,Voight BF,et al.Testing for an Unusual Distribution of Rare Variants.PLoS Genetics,2011,7(3):e1001322.

[54]Zhan H,Xu S.Adaptive Ridge Regression for Rare Variant Detection.PLoS ONE,2012,7(8):e44173.

[55]Zeng P,Zhao Y,Liu J,et al.Likelihood Ratio Tests in Rare Variant Detection for Continuous Phenotypes.Annals of Human Genetics,2014,78(5):320-332.

[56]Zeng P,Zhao Y,Zhang L,et al.Rare Variants Detection with Kernel Machine Learning Based on Likelihood Ratio Test.PLoS ONE,2014,9(3):e93355.

[57]Sun J,Zheng Y,Hsu L.A Unified Mixed-Effects Model for Rare-Variant Association in Sequencing Studies.Genetic Epidemiology,2013,37(4):334-344.

[58]He Z,Zhang M,Zhan X,et al.Modeling and testing for joint association using a genetic random field model.Biometrics,2014,70(3):471-479.

[59]Li M,He Z,Zhang M,et al.A Generalized Genetic Random Field Method for the Genetic Association Analysis of Sequencing Data.Genetic Epidemiology,2014,38(3):242-253.

[60]Lee S,Emond MJ,Bamshad MJ,et al.Optimal Unified Approach for Rare-Variant Association Testing with Application to Small-Sample Case-Control Whole-Exome Sequencing Studies.American Journal of Human Genetics,2012,91(2):224-237.

[61]Lee S,Wu MC,Lin X.Optimal tests for rare variant effects in sequencing association studies.Biostatistics,2012,13(4):762-775.

[62]Self SG,Liang KY.Asymptotic Properties of Maximum Likelihood Estimators and Likelihood Ratio Tests under Nonstandard Conditions.J Roy Stat Soc,B,1987,82(398):605-610.

[63]Stram DO,Lee JW.Variance Components Testing in the Longitudinal Mixed Effects Model.Biometrics,1994,50(4):1171-1177.

[64]Liang KY,Self SG.On the Asymptotic Behaviour of the Pseudolikelihood Ratio Test Statistic.Journal of the Royal Statistical Society:Series B(Statistical Methodology),1996,58(4):785-796.

[65]Greven S,Crainiceanu CM,Küchenhoff H,et al.Restricted Likelihood Ratio Testing for Zero Variance Components in Linear Mixed Models.Journal of Computational and Graphical Statistics,2008,17(4):870-891.

[66]Lippert C,Xiang J,Horta D,et al.Greater power and computational efficiency for kernel-based association testing of sets of genetic variants.Bioinfor matics,2014,30(22):3206-3214.

[67]Liu D,Leal S.A novel adaptive method for the analysis of next-generation sequencing data to detect complex trait associating with rare variants due to gene main effects and interactions.PLoS Genetics,2010,6:e1001156.

[68]Yi N,Liu N,Zhi D,et al.Hierarchical Generalized Linear Models for Multiple Groups of Rare and Common Variants:Jointly Estimating Group and Individual-Variant Effects.PLoS Genetics,2011,7(12):e1002382.

[69]Luo L,Boerwinkle E,Xiong M.Association studies for next-generation sequencing.Genome Research,2011,21:1099 - 1108.

[70]Price AL,Patterson NJ,Plenge RM,et al.Principal components analysis corrects for stratification in genome-wide association studies.Nature Genetics,2006,38(8):904-909.

[71]Basu S,Pan W.Comparison of statistical tests for disease association with rare variants.Genetic Epidemiology,2011,35(7):606-619.

[72]Ladouceur M,Dastani Z,Aulchenko YS,et al.The Empirical Power of Rare Variant Association Methods:Results from Sanger Sequencing in 1,998 Individuals.PLoS Genetics,2012,8(2):e1002496.

[73]Derkach A,Lawless JF,Sun L.Robust and Powerful Tests for Rare Variants Using Fisher’s Method to Combine Evidence of Association From Two or More Complementary Tests.Genetic Epidemiology,2013,37(1):110-121.

[74]Evangelou E,Ioannidis JPA.Meta-analysis methods for genome-wide association studies and beyond.Nature reviews Genetics,2013,14(6):379-389.

[75]Hu YJ,Berndt SI,Gustafsson S,et al.Meta-analysis of gene-level associations for rare variants based on single-variant statistics.American Journal of Human Genetics,2013,93(2):236-248.

[76]Liu DJ,Peloso GM,Zhan X,et al.Meta-analysis of gene-level tests for rare variant association.Nature Genetics,2014,46(2):200-204.

[77]Lee S,Teslovich TM,Boehnke M,et al.General framework for meta-analysis of rare variants in sequencing association studies.American Journal of Human Genetics,2013,93(1):42-53.

[78]Moutsianas L,Morris AP.Methodology for the analysis of rare genetic variation in genome-wide association and re-sequencing studies of complex human traits.Brief Funct Genomics,2014.

[79]Wang X,Epstein MP,Tzeng J.Analysis of Gene-Gene Interactions Using Gene-Trait Similarity Regression.Human Heredity,2014,78(1):17-26.

[80]Larson NB,Schaid DJ.A Kernel Regression Approach to Gene-Gene Interaction Detection for Case-Control Studies.Genetic Epidemiology,2013,37(7):695-703.

[81]Ionita-Laza I,Lee S,Makarov V,et al.Sequence Kernel Association Tests for the Combined Effect of Rare and Common Variants.American Journal of Human Genetics,2013,92(6):841-853.

[82]Fan R,Zhang Y,Albert PS,et al.Longitudinal Association Analysis of Quantitative Traits.Genetic Epidemiology,2012,36(8):856-869.

[83]Furlotte NA,Eskin E,Eyheramendy S.Genome-Wide Association Mapping With Longitudinal Data.Genetic Epidemiology,2012,36(5):463-471.

(责任编辑:郭海强)

*:国家自然科学基金项目(81473070,81373102,81402765);国家统计局全国统计科学研究项目(2014LY112);江苏省教育厅高校哲学社会科学研究基金项目(2013SJD790032,2013SJB790059);江苏省普通高校研究生科研创新计划项目(CXLX13_574);南京医科大学公共卫生学院优势学科建设工程项目和优秀博士论文培育项目

1.南京医科大学公共卫生学院生物统计学系(210029)

2.徐州医学院公共卫生学院流行病与卫生统计学教研室(221004)

△通信作者:陈峰,E-mail:fengchen@njmu.edu.cn

猜你喜欢
关联性变异遗传
非遗传承
区域治理(2022年40期)2022-11-27 04:01:54
变异危机
趣味(数学)(2020年4期)2020-07-27 01:44:16
变异
支部建设(2020年15期)2020-07-08 12:34:32
还有什么会遗传?
还有什么会遗传
还有什么会遗传?
四物汤有效成分的关联性分析
中成药(2017年3期)2017-05-17 06:09:05
如何准确认定排污行为和环境损害之间的关联性
CRP检测与新生儿感染的关联性
变异的蚊子
百科知识(2015年18期)2015-09-10 07:22:44