吕智涵,姬云熙
安徽医科大学第一临床医学院,安徽合肥 230032
复杂疾病(Complex disease)又称为常见疾病,即不同于我们所熟知的染色体病或单基因遗传病,其通常为多种基因与多种环境因素共同作用的结果[1],如肥胖、银屑病等。随着社会的进步以及人们对于生活质量水平要求的提高,复杂疾病对人们的生理与心理等各个方面产生着越来越严重的威胁。复杂疾病的发生发展十分迅速,并且病死率与致残率等居高不下,现已成为国内外科研工作者迫切希望解决的难题。
遗传因素在复杂疾病的发病中扮演着十分重要的角色。然而,由于复杂疾病的遗传机理复杂,受到多种基因与环境的协同作用,每个基因在疾病的发生以及性状的表现上影响甚微,这些因素都从各个方面影响着复杂疾病的研究分析与发现进展[2]。自1918年英国著名统计与遗传学家Fisher首次提出“多基因遗传”概念至今,虽然已经过去了102年,但是人们在此领域的进展依旧缓慢,探索复杂疾病的遗传基础工作可谓是异常的艰辛。尽管前进的道路上困难重重、荆棘满布,但科学家前进的脚步从未停止,经过多年的不懈努力已经发现了包括冠心病、哮喘、银屑病等在内的多种复杂疾病的多基因遗传位点,不断推动着人类对各种疾病的认识,为疾病的风险评价、疾病的诊断以及疾病的治疗等提供了重要的依据。
复杂疾病的研究之所以进展缓慢,其原因不外乎三点,即:遗传模式的未知、遗传的异质性、表型的异质性[3]。首先,复杂遗传病的复杂,在于其并不像单基因遗传病一样有着明确的遗传方式。通常单基因遗传病严格的遵循基因型与表型共分离定律,单个致病基因与疾病表型存在着直接的因果关系。而复杂疾病的遗传模式十分复杂,截至目前为止我们都无法用固定的理论模式或框架来解释[4]。其次,遗传的异质性也从另一方面制约了人们对于复杂疾病的研究。复杂疾病往往由不同的等位基因与基因座所引起,基因组的不同部位存在着复杂疾病的多种易感基因,加之环境因素的作用,更加重了复杂疾病研究的困难性。最后,即使是同一种复杂疾病也可能会有不同的临床表型,这就使得我们更加难以观察与研究基因与性状之间的关系,增大了研究的难度。这些种种因素都从各个方面制约着复杂疾病遗传学研究的进展。
目前对于复杂疾病的遗传理论基础,为人们所公认的主要有两种假说与两种理论[5]。即常见疾病—常见变异假说(CD-CV)与常见疾病—罕见变异假说(CD-RV)、微效位点累加理论与主要位点决定理论。
依据最小等位基因频率MAF我们可以把变异分为三种,包括常见变异(MAF>0.05)、低频变异(MAF<0.05)和罕见变异(MAF<0.005)。基于MAF>0.05的常见疾病-常见变异假说于1997年由Collins等[6]提出,他们认为复杂疾病的产生主要是由大量基因频率较高但致病风险比较低的常见变异累积所造成,目前的大多数研究也正是基于这一假说。然而,随着科学家们对常见疾病—常见变异的研究逐渐深入,我们逐渐认识到人类所发现的变异位点仅仅能解释遗传中的很小一部分,并不能完美地解释复杂疾病的遗传风险(OR 1.1~1.5)[7]。这时,常见疾病—罕见变异假说开始被科学家们所关注,基因频率较低,但是致病风险较高的罕见变异尚未被发现,或许是导致我们无法完全解释遗传变异的另一原因[8-10]。随着技术的不断进步,常见变异与罕见变异假说不断被加以证明,最近科学家已经开始从蛋白质组—蛋白质相互作用动力学角度推断常见变异与罕见变异是如何导致数量性状或疾病风险与进展的[11]。
微效位点累加理论则认为复杂疾病是多个效应微小的基因或者位点共同变异所累加的结果,在这一点上,其实微效位点累加理论与常见疾病—常见变异假说的观点相吻合。而主要位点决定理论认为在复杂疾病的发病中存在着单个的变异对其表型有特别强的效应。但是从目前的研究来看,除了阿尔茨海默病的Apo E基因[12]、银屑病的LCE基因[13]等以外,大多数复杂疾病的易感位点其实只在其中起着微小的作用。
复杂疾病的遗传学研究主要包括遗传流行病学研究和易感基因的搜寻与定位。遗传流行病学研究通过大量的样本可以估计基因与环境在发病过程中所起到的作用,而易感基因的搜寻与定位则更加倾向于准确的找出与疾病发病相关的基因。在此,我们主要就易感基因的搜寻与定位策略进行探讨。
复杂疾病的遗传学研究是一个十分艰难而繁琐的过程,人们曾经开发出许多的研究方法来进行研究分析,其中,经典的研究方法主要包括连锁分析、关联分析以及传统的候选基因研究。
3.1.1 基于家系的连锁分析同一染色体上不同的基因之间互相连锁,在遗传的过程中,距离越近的两个基因的连锁就越紧密。连锁分析正是基于这一基本原理,利用致病基因与标记基因互相连锁,通过基因分型与数学计算,检测标记基因与复杂疾病的表型之间是否存在共分离现象,就能把该基因定位于某一染色体的某一特定部位[14-15]。连锁分析一般可分为参数连锁分析法与非参数连锁分析法。这一方法的应用使经典的连锁理论得到了发扬,为基因定位提供了大量的帮助。
然而,连锁分析在应用于复杂疾病研究的同时,也存在一定的弊端。首先,因其是基于家系的研究,所以我们需要在前期收集大量的家系资料,而家系资料的收集往往需要耗费大量的时间与人力、精力。其次,这种连锁分析方式的定位并不够精细,该方法往往只能定位基因组内大约20~30 cm的区域,而其中可能存在着成百上千个基因。此外,此方法对于高效基因有较好的检出率,但是对于中效和微效的基因则难以检出。最后,连锁分析的方法对于孟德尔遗传病或主效基因所致疾病往往有很高的效能,而对于多基因的复杂疾病往往显得有些力不从心。所以,在很大程度上连锁分析正逐渐被全基因组关联研究所取代,然而,随着近些年全基因测序技术的应用,连锁分析又成为了一种重要而有力的复杂疾病病因分析方法[16]。3.1.2 候选基因关联分析候选基因关联分析曾是人类研究复杂疾病的主要策略,此方法在最近几十年的研究中可谓是喜忧参半[17],然而一直到目前为止,其依旧在复杂疾病的研究中扮演者不可或缺的角色。候选基因关联分析是基于连锁不平衡的原理,在候选基因附近选择遗传标记,通过观察两基因的连锁不平衡,来比较患者与正常人遗传标记的等位基因频率并计算相对危险度(relative risk),从而确定与疾病发病相关的致病基因并将其定位,其本质上属于病例对照研究。
此方法基于比较非血缘关系的患病人群与非患病人群的等位基因出现频率差异,所以相较于连锁分析来说,并不需要耗费大量的时间与精力收集家系资料。候选基因关联研究,不但可以检出主效基因,而且对于次效基因也有一定的检出率,并且其对基因的定位通常比连锁分析更加精确,定位区域在1~10 cm之间,所以相比较连锁分析而言,它更适合用于复杂疾病的研究[18-19]。然而此方法也常常会因为样本量的不足而造成结果的偏倚,有假阳性存在的可能。另外,在候选关联分析时需要大量的分子标记,这也在一定程度上加大了疾病研究的难度。同时由于群体分层现象的存在,所以在研究方案设计时需要特别注重病例组与对照组的互相匹配问题,以减少不同人群、地理和社会背景等因素对结果的影响[20]。
3.1.3 基于疾病生化代谢机制的单一候选基因研究早期人们在研究复杂疾病的时候往往是通过生化代谢通路来进行研究的。这要求研究者掌握与疾病相关的生化代谢途径,从众多基因中选择一个可能与疾病的发生相关的候选基因,通过连锁分析与关联研究,从而得出该基因与复杂疾病的发生是否有关[21]。
这种方法简单易行,操作简单,但是它又存在一定的局限性。比如,在候选基因的选取上往往具有盲目性,并且它对研究者的医学知识水平要求较高,需要掌握大量的生化代谢知识,所以此方法已经很少应用于复杂疾病的遗传研究。
自从进入了21世纪,计算机技术飞速发展,随着两大国际性研究计划的顺利完成,高通量芯片的发展,基因测序技术的成熟与推广,不断催生出新的复杂疾病遗传学研究方法。单体型分析与全基因组关联分析就是其中被寄予厚望的两种方法。
3.2.1 单体型分析随着人类基因组计划HGP的顺利完成,科学家们发现任意两个人的遗传物质中只有0.1%的DNA序列不同。但正是这0.1%的不同导致了人们对于不同疾病的易患程度的不同[22-23],同时也为复杂疾病的遗传学研究找到了前进的方向。
2002年,人类基因型单体型图计划的实施更是促进了单体型分析的发展。这项人类基因学上的又一重大国际性研究计划,旨在绘制出人类基因上DNA变异的常见组合模式,为全世界的遗传学研究提供支持和帮助[24]。随着HapMap的实施,单体型分析也逐渐成为研究的热点,其发展也推动着大规模的乃至全基因组的关联分析。
我们通常把DNA序列上单个基因的突变发生率大于1%的变异称为单核苷酸多态性(SNPs)。在世代遗传的过程中,相邻的SNPs通常以一个整体遗传给后代,而这个“整体”通俗的讲也就是所谓的单体型(haplotype)。单体型分析也正是以此为研究对象而开展的复杂疾病遗传学研究方式。单体型分析方式的出现使人们打破了传统的对于单个基因进行的研究,从而减少了遗传分析的SNPs数量,为人类复杂疾病的遗传学研究带来的新曙光。由于SNPs具有数量多分布广泛、适用于快速筛查、易于分型等优点,目前SNPs已成为被寄予厚望的第三代遗传标记。
自从SNPs的作用被获得重视以来,人们对SNPs的研究方法进行了不断的改进与探索,单体型分析的方式也被不断创新[25-26]。通常,在进行单体型分析之前,我们首先要进行SNP的检测与单体型的推断。SNPs的检测技术我们可以根据技术的发展划分为传统的SNP检测与高通量SNP检测[27]。传统的检测技术主要利用构象进行凝胶电泳,由于其无法实现自动化,而只能进行小规模的测试现已很少使用。相比之下,高通量检测的准确性高、性价比强、检测通量大周期短等特点则显得尤为突出,所以高通量检测被广泛用于目前的科学与研究中。而对于单体型的推断方法主要有实验法、系谱推断法与统计算法。但由于实验法的低性价比[28]以及系谱推断的家系限制,这些种种因素制约了他们的发展,目前多使用统计算法来进行单体型推断。应用于单体型推断的统计算法主要有Clark算法、最大似然算法以及贝叶斯算法等。一旦经历了SNP检测与单体型推断之后,单体型分析就会得心应手。我们既可以运用混合模型进行单体型与性状之间的分析,也可以采用病例对照方式进行χ2检验而分析得出结果,甚至还可以利用家系采取连锁不平衡检验进行关联分析[29]。
单体型分析研究的是某一区域内某一组相关的SNP位点,从某种程度上来讲,这一研究方法恰好与微效位点累加理论相一致[5]。同时大量的实验和研究证实,基于单体型的研究通常比基于单个位点的研究会更加有效[30-31]。所以,在今后的复杂疾病研究中单体型分析将会继续成为研究的热点。
3.2.2 全基因组关联分析全基因组关联分析(Genome-Wide Association Studies,GWAS)自从产生以来就被人们寄予厚望并高度评价,其曾在2011年被Nature评为“重大发现与科学事件”。早在人类基因组计划还没有完成、测序还是一门昂贵技术的1996年,就曾有人在《Science》上预测,GWAS可以用于复杂疾病的研究[32]。随着研究人员对基因组学研究的深入、HapMap和千人基因组计划的顺利完成以及高通量芯片测序技术的成熟,GWAS蓬勃发展并被广泛应用到复杂疾病的研究,从2005年第一篇有关GWAS的研究成果被发表[33]到2009年安徽医科大学张学军团队发表的中国第一篇有关GWAS成果的论文[13],再到如今,虽然仅仅过去了15年的时间,但是GWAS的发展速度却超乎人们想象。无论是发表的有关GWAS的论文数量还是利用GWAS所发现的易感位点数量都成指数式增长,截至2018年12月,美国NIH全基因组关联研究权威数据库已经收录了覆盖1995个人类复杂疾病或性状的3 675篇论文,包含SNPs 68 289个[34]。
全基因组关联分析主要基于“常见疾病—常见变异假说”,原理与候选基因关联分析基本一致。它是运用病例对照研究方式,在全基因组层面上对疾病与基因进行关联研究,通过比较病例组与对照组之间标记基因的差异,统计分析并挑选出最相关的遗传变异,从而寻找出与疾病发病相关的基因,全面研究疾病的发生、发展与预防[35-36]。可以说全基因组关联研究不论是在国内[37-38]还是在国际上都取得了前所未有的进步。
单核苷酸多态性(SNP)与拷贝数变异(CNV)是人类表型变异的两个重要来源,全基因组关联研究正是基于这两个变异,并选取它们作为主要研究对象。以往,人们大多集中于对SNP的研究,随着近些年来人们对CNV重要性认识的逐渐加深[39],对拷贝数变异的研究激起了医学界的广泛兴趣[40-41]。而根据研究设计类型,目前GWAS可以分为单阶段研究与两个阶段研究。单阶段研究即一次性的选取足够大的样本量,在所有研究对象中选取SNP进行分型,从而分析出其与疾病的关联。两个阶段则是现如今被广泛采用的方法[42],首先第一个阶段是以个体为单位筛选出少量的阳性SNP,然后在第二个阶段扩大样本量对筛选出的SNP进行分析研究,从而得出与复杂疾病发病相关的基因型组合[43]。二者各有优缺点,单阶段研究虽然研究方式较为复杂且耗资巨大,但是误差相对较小[44-45]。GWAS在进行遗传统计分析时,往往需要对主要混杂因素进行logistic回归分析以减少混杂影响,同时需要运用χ2检验来分析每个SNP差别。
任何一种方法都不能做到完全消除误差带来的影响,GWAS同样也不例外。群体分层与多重假设检验调整是造成其误差的主要原因。群体分层可能会导致结果中出现大量的假阳性与假阴性,而如果基于家系进行研究则可能会减少这一误差。多重假设检验同样也会对结果产生影响,如果采用宽松的多重假设检验方法,则可能会导致结果出现大量假阳性,而如果使用严格的Bonferroni校正,则可能会出现矫枉过正,使结果出现大量的假阴性[46-47]。所以GWAS研究不能仅仅通过P值判断SNP是否与疾病有关联,而应通过大样本多群体的重复验证,才能提高结果的准确性。
GWAS方法本身存在着众多的优点与不足[48],同时也正是因此才促进了GWAS的迅速发展。回顾多年来的发展历史,我们不难发现,运用GWAS,我们取得了许多可喜的成果,比如发现了众多与疾病发病相关的遗传位点,但因其主要是基于“常见疾病—常见变异”,所以在研究的过程中常常会忽略掉一些罕见变异。为了弥补这方面的不足,科学家们拓展出许多新的方法,不断开阔研究领域,比如表观基因学研究、基因型填补研究等方法的应用都为准确揭示复杂疾病发病机理提供了帮助。目前的GWAS研究已经不仅仅满足于寻找遗传位点,科学家们已经利用生物信息对GWAS资料进行分析,以期发现感染途径等。除此之外,我们已经将GWAS的研究成果进行了各种临床转化,如对疾病的风险进行预测[49]、对药物的临床应用进行指导[50]、药物开发等[51-52]方面。如今,随着基因芯片、队列大小、生物信息库的发展,GWAS也正面临着数据管理、质量控制、研究设计[53]、疾病风险评估、个体化治疗等[54]众多方面的前所未有的挑战[55],相信未来GWAS还会有更长的路要走,GWAS也将会应用于多方位、多角度、多领域的研究。
站在生命科学飞速发展的快车道上,我们不难发现,复杂疾病的遗传学研究前景广阔,但同时也面临着前所未有的机遇与挑战[56]。未来,我们必将打破各种研究策略所带来的局限,综合运用各种方法,为寻求复杂疾病发病机制不断前进。同时,我们也需要综合各个学科的优势,复杂疾病之所以复杂,在于其不只受基因的影响,同时还受环境包括内在和外在等多种因素的影响,所以多学科合作研究将会是复杂疾病研究的必经之路。在复杂疾病的研究过程中,我们往往过于注重理论的研究,而忽略了与临床结合,这一问题在我国显得尤为严重,所以提高成果转化,使遗传学研究成果与临床结合得更加紧密,是复杂疾病遗传学研究走出困境的重要途经。
随着人们对复杂疾病的研究更加深入,对复杂疾病的发病机理的理解更加透彻,我们对疾病的预防与治疗将更加系统。在未来,复杂疾病的遗传学研究将会大力推动基因诊断的发展,个体化治疗与药物基因组学也将会被应用与临床实践。通往科学研究的道路上没有所谓的一马平川,唯有我们一路披荆斩棘乘风破浪,才能抵达成功的彼岸。