徐州医科大学公共卫生学院流行病与卫生统计学教研室(221004)
黄林玉 王鸣岐 余星皓 曾 平△ 黄水平△
【提 要】 目的 采用孟德尔随机化方法探索饮酒行为和肌萎缩侧索硬化发病风险的因果关系。方法 利用大样本全基因组关联研究数据,确定与酒精依赖密切相关的遗传位点作为工具变量,通过逆方差加权法、MR-Egger回归法等两样本孟德尔随机化方法,以比值比(OR值)作为结局指标对因果关系进行评价。结果 本研究共纳入476例男性酒精依赖患者和1358例男性对照,IVW方法估计的OR值为1.12(95%可信区间:1.02-1.24,P=0.021),MR-Egger回归结果表明遗传多效性不会对结果造成偏倚(截距=-0.036,P=0.755)。结论 本研究采用两样本孟德尔随机化的方法,表明在男性中严重的酒精依赖会增加肌萎缩侧索硬化的风险。
肌萎缩侧索硬化(amyotrophic lateral sclerosis,ALS),俗称“渐冻症”,是一种致命的退行性神经疾病,欧洲人群年发病率约为2~3/10万,且男性患者多于女性[1]。ALS初期临床表现为肌束震颤、吞咽和讲话困难;随病程进展,运动神经元发生不可逆的程序性凋亡进而导致全身肌肉萎缩,患者逐渐失去运动能力,最终往往因呼吸系统衰竭而窒息死亡;中位生存期约为3年[2-3]。目前暂无针对ALS的有效临床诊断及治疗方法;利鲁唑是目前唯一一个美国食品药品管理局批准用于治疗ALS的药物,但仅能延长患者3~6个月的生存期[4-5]。
在所有ASL病例中,约有10%的ALS显示家族聚集性的特点,而其余90%为散发病例。ALS的致病机制和病因尚未明确,遗传因素和环境因素都会影响ALS的发展,其中20%的病例可能与遗传和基因缺陷有关。目前已研究发现30多种ALS相关致病基因[6],主要包括SOD1[7],TDP43和C9orf72。流行病学研究表明,吸烟、饮酒等行为因素[8-11]以及重金属中毒[12]等环境因素都和ALS存在一定关联。
识别ALS的病因对其预防、诊断和治疗至关重要。传统的观察性流行病学方法,如病例对照研究、队列研究,可用来探索复杂疾病的病因,但往往受到反向因果关联及潜在混杂因素(如,吸烟、饮酒和饮食等)的影响,从而影响其论证病因假设的能力。随机对照试验(randomized controlled trial,RCT)因其可比性好、因果关联时序合理、有效控制偏倚的优点,被视为检验因果关系的“金标准”[13]。然而,RCT难以控制样本的代表性,需要大量的人力物力及财力,且经常受到伦理学限制,因而实际中实施难度较大。
1986年,学者Katan[14]提出了孟德尔随机化(Mendelian randomisation,MR)的概念,具体思想是:配子在形成过程中遵循孟德尔随机分配定律,即亲代等位基因随机分配给子代;如果基因型决定表型,基因型可通过表型与疾病发生关联,因此可以使用基因型作为工具变量[15](instrumental variable,IV)来推断表型与疾病之间的因果关联。MR是一种在观察性研究中以IV为基础进行因果推断的方法,与中间表型或环境暴露有关联的遗传变异可以作为中间变量,来估计暴露对疾病结局的影响。由于基因是人类一出生即决定的,因此不会受到后天的环境因素、生活方式、行为因素等常见的混杂因素的影响;且符合因果判定中“先因后果”的时序性要求,可以有效避免反向因果关联的干扰[16]。但是,MR的应用需要满足三个前提假设[17]:(1)作为IV的遗传变异与待研究的暴露因素密切相关;(2)IV与已知的混杂因素不存在关联;(3)IV和疾病结局无直接关联,即IV除了通过暴露因素以外,不可以通过其它途径来影响疾病结局(见图1)。近年来,大样本的全基因组关联研究(genome-wide association study,GWAS)的广泛应用和公共数据的公开,使得通过MR来广泛研究不同暴露和ALS的因果关联成为可能[18]。
图1 多个工具变量孟德尔随机化的图模型*实线表示存在关联,虚线表示不存在关联
作为一个常见的生活行为暴露,饮酒与ALS的关系引起了广泛关注。先前一项大型瑞典国家队列研究的结果表明[11],患有酒精使用障碍的人群和未患有酒精使用障碍的对照组相比,ALS的发病风险明显降低,标化发病率为0.54[95%可信区间(confidence interval,CI):0.45~0.63,P=7.04×10-14]。有两项基于人群的病例对照研究表明,高酒精摄入和ALS风险降低有关,优势比(odds ratio,OR)分别为0.91(95%CI:0.84~0.99,P=0.03)[19]和0.52(95%CI:0.40~0.75,P=4.54×10-5)[10]。一项包括5个观察性研究的关于酒精消耗与ALS的meta分析表明[20],饮酒可降低患ALS风险(OR=0.57,95%CI:0.51~0.64,P=2.88×10-22)。这些观察性研究的结果暗示酒精对ALS可能具有潜在的神经保护作用。然而,也有研究表明饮酒可能增加ALS的潜在发病风险。例如,有两项关于日本人群和新西兰人群的病例对照研究报告饮酒和ALS发病风险的OR值分别为1.10(95%CI:0.70~1.50,P=0.62)[21]和1.10(95%CI:0.50~2.50,P=0.82)[22],但这种关联在调整吸烟的混杂后不存在统计学意义。此外,最近的一项meta分析[23]证实饮酒和ALS风险之间不存在关联。从上可见,目前尚不清楚饮酒与ALS之间是否存在因果关系。因此,本文尝试通过MR来探索饮酒与ALS的关系,并估计其效应大小。
1.研究设计
本研究采用两样本MR[24]作为估计酒精依赖和ALS发病风险因果关系的方法。两样本MR研究是以最早的一阶段MR研究为基础发展形成的。所谓两样本,即在一个样本获得GWAS与酒精依赖(暴露因素)的关联数据,确定与酒精依赖密切相关的遗传变异;通过另一个样本获得GWAS与ALS(疾病结局)的关联数据,再结合与酒精依赖相关联的遗传变异,进而确定可以作为工具变量的遗传变异(即与酒精依赖和ALS均密切相关的遗传变异)。两样本MR要求两样本相互独立,来自同一人群,具有相似的性别、年龄以及种族特征。任何一种遗传变异类型都可以作为IV,本研究选择单核苷酸多态性(single nucleotide polymorphisms,SNP)位点作为工具变量类型。
2.数据来源
以2009年发表在Archives of General Psychiatry上的一项关于酒精依赖的GWAS作为酒精依赖遗传变异的数据库[25]。该项研究共包括476个男性病例和1358个男性对照,所有个体均为德国人,以美国精神障碍诊断统计手册(DSM-IV)的标准来定义酒精依赖,符合严重酒精依赖且发病年龄早于28岁者纳入病例组;数据库中共包括524396个SNPs,其中有8个SNPs和酒精依赖密切相关(P<1×10-5)。需要说明的是,通常当SNP的P<5×10-8的临界值时才具有全基因组意义;但若以P<5×10-8作为筛选标准,在该数据库中仅有3个SNP符合,且彼此之间存在连锁不平衡。有研究表明,在对风险因素的每个遗传变异进行线性回归后,若P<1×10-5,则MR分析存在弱工具变量偏倚的可能性很小(即不违反MR应用的第一项假设)[26],故而本研究采用P<1×10-5作为临界标准并确定了8个和酒精依赖密切相关的SNP,提取需要的数据信息,包括每个SNP的rs编号、主要和次要等位基因,以及等位基因频率、β系数、P值和标准误。
关于ALS的基因型数据来自于2017年对ALS的一项GWAS分析[27],包括12577例ALS患者和23475例健康对照,所有个体均为欧洲血统。数据库中包括7740344个与ALS有关的遗传变异。在ALS基因型数据库中筛选和酒精依赖密切相关的8个SNP,最终确定了7个和酒精依赖、ALS均存在关联的具有全基因组意义(P<1×10-5)的SNPs作为工具变量。但是,有3个SNPs两两之间存在明显的连锁不平衡(linkage disequilibrium,LD),分别是rs7590720、rs1344694及rs705648(rs1344694-rs7590720:r2=0.739;rs1344694-rs705648:r2=0.568;rs7590720-rs705648:r2=0.776)。为避免LD对因果估计结果造成偏倚及过度估计,本研究依次纳入3个SNP的其中之一进行MR分析,即每次分析有5个SNP作为遗传工具变量。本文所有的统计分析均在R软件3.4.4版本中进行。
3.两样本MR方法
(1)Wald比值和逆方差加权法估计效应
IVW模型(inverse-variance weighting,IVW)是一种加权线性回归模型,所谓逆方差加权,是聚集两个或多个随机变量的方差总和并使之最小化的一种方法,且每个随机变量与它的方差成反比:
(2)敏感性分析
Egger′s检验常用来定量评价meta分析中发表偏倚的大小,用回归方程的截距来表示[28]。在MR分析中,采用多个SNP作为工具变量,这样就难以避免遗传多效性对因果估计产生影响,使用MR-egger回归可以评价遗传多效性带来的偏倚,MR-Egger回归直线的截距说明了定向多效性的大小[29]。若回归方程的截距接近于0,则认为遗传多效性影响较小。使用MR-Egger回归的前提是要满足InSIDE假设,即遗传变异-暴露因素和遗传变异-疾病结局之间的影响是相互独立的[30]。采用meta分析中“leave-one-out”的敏感性分析方法,每次分析剔除一个SNP,将其作为测试集,剩余的SNP作为训练集。若研究中使用非特异性SNP作为IV,即同时与目标暴露因素和其他暴露因素均存在关联的SNP,可能会对因果估计效应产生影响,而敏感性分析可以评价非特异性SNP对因果关联估计结果的影响大小。
1.工具变量SNP信息
表1列出了用于MR分析的7个遗传工具变量的相关信息,包括染色体位置、效应等位基因及其频率、与酒精依赖关联的β系数及其标准误、与ALS的关联β系数及其标准误。每个SNP的Wald比值及其95%置信区间的森林图见图2。图2展示了既往饮酒与ALS关系的观察性研究结果,Ji 2016表示瑞典人群队列研究结果[11];Meng 2016表示一项关于欧洲人群meta分析的结果[20];Huisman 2015表示一项荷兰人群的病例对照研究结果[19]。
图2 工具变量SNP及三项既往关于饮酒与ALS关系的研究结的OR值及其95%CI森林图
*IVW effect1、MR-Egger effect1表示:rs1344694纳入研究;IVW effect2、MR-Egger effect2表示:rs7590720纳入研究;IVW effect3、MR-Egger effect3表示:rs705648纳入研究
表1 工具变量SNP信息列表
*:Chr:染色体;BP:碱基对位置;EA:效应SNP的等位基因;MAF:效应SNP的等位基因频率;AD:酒精依赖;SE:标准误;ALS:肌萎缩侧索硬化。
2.IVW法结果
将rs1344694、rs7590720、rs705648OR分别纳入研究,OR值分别为1.10(95%CI:1.00~1.22,P=0.062)、1.11(95%CI:1.01~1.22,P=0.027)、1.12(95%CI:1.02~1.24,P=0.021),表明酒精依赖会提高ALS的发病风险约为10%。
3.敏感性分析结果
将rs1344694、rs7590720、rs705648分别纳入研究,MR-Egger回归的OR值分别为1.17(95%CI:0.47~2.93,P=0.739)、1.16(95%CI:0.54~2.48,P=0.706)、1.30(95%CI:0.53~3.16,P=0.573),截距分别为-0.016(95%CI:0.12~0.25,P=0.897)、-0.011(95%CI:0.10~0.21,P=0.918)、-0.036(95%CI:0.12~0.26,P=0.755),截距都很小,接近于0,且P值均大于0.05,说明遗传多效性不会对因果效应造成偏倚。
敏感性分析结果见表2、表3及表4,结果表明,每次MR分析中,即使将和酒精依赖关联最为密切的上述3个SNP依次移除研究,OR仍为1.11(95%CI:1.01~1.21,P=0.02),说明不存在会对因果估计结果产生影响的非特异性SNP。
表2 rs1344694纳入研究的敏感性分析
表3 rs7590720纳入研究的敏感性分析
表4 rs705648纳入研究的敏感性分析
本研究借助大规模GWAS,利用MR研究了酒精依赖和ALS的关系,结果表明男性酒精依赖和ALS之间存在因果关联,严重的酒精依赖会提高ALS的发病风险。据我们所知,本研究是首次对酒精依赖和ALS进行因果关系估计的MR评价。MR研究进行因果推断的优点在于遗传变异是长期而稳定的暴露因素,且可以直接测量,不受社会环境、生活方式等混杂因素的干扰。和RCT相比,MR可以严格控制样本代表性并将其随机分配到各个观察组。本研究采用的两样本MR研究,基于现有的公开GWAS数据,样本量较大,可以获得更大的把握度,经济且高效。
先前的观察性研究[10-11,19-20]显示酒精可能具有潜在的神经保护作用而本研究暗示了饮酒对ALS的潜在风险,其机制可能与胶质纤维酸性蛋白以及酒精的神经毒性有关。有学者进行了动物实验,在一项大鼠实验中,酒精组和对照组相比,星形胶质细胞中的GFAP密度降低[31]。而在ALS的发展过程中,一个明显特征就是反应性星形胶质细胞中的胶质纤维酸性蛋白的表达增加[32]。但是,神经毒性物质谷氨酸堆积在神经细胞之间对ALS有很大影响,过量的谷氨酸能直接破坏运动神经细胞。已有研究表明,长期大量饮酒可介导谷氨酸离子型受体N-methy1-D-aspartat(NMDA受体),造成细胞间隙谷氨酸盐的大量堆积,导致细胞迟发型损伤[33],这一结论也支持了本研究的结果。
本研究也具有一定的局限性,首先,两样本MR分析使用的是GWAS的汇总数据,目前还无法检测暴露因素和疾病结局之间的非线性关系,也无法进行女性亚组(或男女总体人群)分析;例如,通常男性与女性在饮酒行为方面存在较大差异且ALS的发病存在性别差异,进行不同性别的MR分析可获得更加具体的效应关系。本研究对严重的酒精依赖与ALS之间的因果关系进行估计,但是,由于缺少分组数据,无法探索轻度或中度酒精依赖是否与ALS也存在因果关联,也无法研究不同饮酒种类(例如,红酒、烈酒或啤酒)是否与ALS也存在因果关联。其次,两样本MR假定两个样本来自相同的人群且没有重叠。若两样本来自不同的人群,估计的因果效应大小可能存在偏倚。在本研究中,确保两样本人群均为欧洲血统的个体,以减少种族偏倚的影响。此外,两样本MR分析无法对发病机制进行解释,因此还需要进一步探索饮酒对ALS致病机制。
总之,本研究采用两样本孟德尔随机化的方法,对酒精依赖和肌萎缩侧索硬化进行因果关系推断,认为男性中严重的酒精依赖会导致ALS患病风险增加。