贝叶斯错误发现率在分子流行病学中的应用*

2021-03-16 10:18齐齐哈尔医学院公共卫生学院流行病与卫生统计学教研室161006
中国卫生统计 2021年1期
关键词:关联性贝叶斯流行病学

齐齐哈尔医学院公共卫生学院流行病与卫生统计学教研室(161006)

葛 杰 贾月辉 韩云峰 谢志平 王 琪 郑 毅 李继媛 杨晓蕾△

【提 要】 目的 探讨贝叶斯错误发现率(bayesian false-discovery probability,BFDP)在分子流行病学研究中的应用。方法 从理论和实际应用的角度说明BFDP的优势及不足,采用R阐述BFDP的计算方法。结果 BFDP同时考虑了单核苷酸多态性的最小等位基因频率及其与疾病的关联强度,其相对于假阳性报告率(false positive report probability,FPRP)而言具有计算简单、应用信息全面、方法学合理等优势。结论 BFDP可以应用于SNP的筛选,但结果与真实情况可能存在一定的偏差,尚需进一步进行功能验证以揭示SNP与疾病关联的真实性。

随着高通量测序技术的发展,分子流行病学研究中涌现了大量的基因组数据,因此一些复杂疾病的关联性分析中需要进行假设检验的次数随之增加。显然这样的多重比较会从统计学角度增大假阳性错误的发生概率。为了尽量控制这种假阳性错误又不至于损失数据信息而漏掉一些有意义的结果,目前常用错误发现率(false discovery rate,FDR)、假阳性报告率(false positive report probability,FPRP),或采用Bonferroni校正以减少假阳性错误的发生[1-3]。但有学者提出这些方法在对全基因组关联(GWAS)数据进行分析时存在一定的弊端,而贝叶斯错误发现率(bayesian false-discovery probability,BFDP)则考虑了数据间的关联性,且相对于FPRP而言具有计算简单、应用信息全面、方法学合理等优势,在分子流行病学研究中日益得到学者的重视和应用[4-5]。

BFDP的定义

在研究遗传变异与疾病的关联研究中,频率论者一般认为无效假设H0是非随机的,因此在计算H0的概率时需采用贝叶斯理论及方法。BFDP是一种基于贝叶斯模型的方法,其概率值的大小与先验概率π0的选择密切相关[6]。同时BFDP也反映了这样一个事实:如果我们报告研究的关联有意义,那么BFDP代表的是无效的概率,也就是说代表的是假阳性的概率。BFDP的计算式为:

应用步骤

现以logistic 回归模型为例说明R软件中计算BFDP的步骤:

(1)预先设定有真阳性关联的SNP的BFDP临界值,记为BFDPt,小于该值的SNP确定为非假阳性。BFDPt=R/(1+R),其中,R表示发生假阴性错误与发生假阳性错误的比值。例如R=4,则BFDPt=T=0.8,即以0.8作为截断值判定某研究结果是否为假阳性结果,< 0.8为真阳性。

(2)设定有关联的先验概率值π0,注意不能选择与其他混杂因素共同作用的先验值,如0.7,0.6,0.5,0.01,0.001,0.00001等。值得注意的是,Wakefield等人给出的BFDP定义中的π0为无效假设成立时的先验概率值,而在R中使用的是备择假设成立的情况下的先验概率值,因此其P0=(1-π0)/π0,与原有的公式互为倒数。

(3)给定OR值,一般为先验概率第97.5%的OR值。例如,如果OR取1.5,那么我们认为OR值比1.5大的先验概率为2.5%。

(4)首先根据每个SNP的ORi值及其95%可信区间计算斜率θi=log(ORi),标准误se(logORi)=(log(ORi_U)-log(ORi))/1.96;令ORhi=1.5,则W=[log(ORhi)/1.96]2;r=W/[W+se(logORi)2];Zi=logORi/se(logORi);再由前述公式分别求出ABF,P0和BFDP。

(5)软件选择:BFDP的计算除了可以应用R或Rstudio中的gap包[7],还可以采用SAS编写程序或Excel公式进行计算。

实例分析

以一项乳腺癌的meta分析数据为例,该数据来源于DRIVE(Discovery,Biology,and Risk of Inherited Variants in Breast Cancer)(phs001265.v1.p1)[8],共纳入28758乳腺癌患者和24349例对照的14项病例对照研究,这项基于通路的关联研究中共分析了197个SNP与乳腺癌的关联性,我们认为会有2~3个SNPs与癌症发病有关。假定W=[log(1.5)/1.96]2,π0=0.9。

表1 依据BFDP标准纳入的前8个与疾病相关的SNP

讨 论

BFDP是目前值得关注的一种判断结果是否具有关联性的新方法,它既保持了FPRP的优势,也细化了FPRP的标准。具体地说,我们推荐使用BFDP是因为它可以减少那些在随后的研究中难以验证的“阳性发现”的数量,而且可以选择一个明确考虑假阳性错误和假阴性错误成本的BFDP阈值。

BFDP具有计算简单的优点,可以应用参数估计值及其标准误,也可应用95%可信区间计算。R或Rstudio软件中的gap包可以实现BFDP值的计算,也可应用更为简单应用的Excel表单进行计算。此外,BFDP除了可以用于SNP的关联分析,还可以用于碱基的插入/删失或拷贝数改变的筛选。

目前多阶段的全基因组关联分析研究越来越普遍,常用的方法是按照P值进行排序,然后选择一组P值最小的SNP进行下一阶段的研究。而我们更推荐使用BFDP排序进行这样的选择,它将提供不同的排列顺序,因为SNP之间的效能是不同的,它同时依赖于SNP的最小等位基因频率和关联强度,而P值不能解释这一点[6,9]。因此,当考虑成本比率以确定BFDP的截断值时,这些比值在不同阶段可以有不同的选择。一般而言,在第一阶段,我们的目标是尽量不漏掉可能有关联的SNP,而在第二阶段及以后的阶段上,将会应用更加严格的截断值。

值得注意的是,BFDP的实际应用中要求数据中的SNP是相互独立的,忽视这种独立性将降低估计的效率。一种解决的办法是建立特定的层次模型,但这样会减弱BFDP计算简单这一优势[10]。此外,BFDP的实施与π0和R的取值密切相关,一般地,π0的大小会对有意义关联的SNP数量产生较大的影响,而R值影响假阳性数和假阴性数的预期数量。R的取值在候选基因关联研究中可以比全基因组关联研究低,原因在于:全基因组关联研究中研究者往往期望得到更多的候选基因以进一步研究,而候选基因关联研究中对这些候选基因的深入研究所需费用较高。

与目前应用较多的FPRP相比较,BFDP在对SNP进行排序的结果上基本与FPRP一致,但因为FPRP调整了尾部面积而得到较小的后验无效估计值,而BFDP依靠点估计计算,故通常BFDP得到的阳性结果比FPRP更有意义[11]。Wakefield运用模拟实验也证实了这一点[6]。此外,BFDP与全基因组关联分析中常用的P值相比,其排序也不尽相同,正如本文结果部分表1所示,较小的P值未必得到较小的BFDP,原因在于BFDP的计算同时考虑了SNP的等位基因频率和其与疾病关联的大小。

尽管目前BFDP已被一些学者应用于SNP的筛选,但由于其方法学的限制,研究结果与真实情况可能存在一定的偏差[9]。因此对应用BFDP筛选得到的有意义的SNP尚需进一步进行功能验证以揭示其与疾病关联的真实性。

猜你喜欢
关联性贝叶斯流行病学
羊细菌性腹泻的流行病学、临床表现、诊断与防治措施
羊球虫病的流行病学、临床表现、诊断和防治措施
新型冠状病毒及其流行病学特征认识
四物汤有效成分的关联性分析
如何准确认定排污行为和环境损害之间的关联性
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
CRP检测与新生儿感染的关联性
一种基于贝叶斯压缩感知的说话人识别方法
IIRCT下负二项分布参数多变点的贝叶斯估计