刘 珺,林 凯,杨晓明,徐余海,张荣强,郭 青,周晴霖,朱美财
2004 年生物医学领域的研究人员完成了人类基因组计划(human genome project,HGP)和对人类染色体基因的测序,建立了基因组学等数据库,并利用数据挖掘技术进行基因分析,使从基因组角度对疾病进行准确、全面、科学的早期预测和早期干预成为可能[1]。HGP对于分析基因变异和各种疾病的关系具有重大意义[2-3]。在进行致病基因分析时利用数据分析技术可从DNA序列中找到与疾病相关的遗传等信息,Alsuami等[4]分析了变异基因与血压之间的关系,发现CD47基因与血压之间有显著相关性。致病基因的发现促进了以预测和早期干预为主的5P医学[5](预测医学Predictive;预防医学Preventive;个体化医学Personalized;主动参与医学Participatory和精细医学Precise)。
1.1 全基因组关联研究(GWAS)的概念 全基因组关联分析(genome-wide association study,GWAS)就是针对包含有数以千计甚至万计个体的人群基因组中数十万甚至愈百万的单核苷酸多态性(single nucleotide polymorphism,SNP)位点,进行基因分型并与某种疾病或其它复杂性状做病例-对照关联分析,其关键技术在于探索影响人类复杂性状疾病发生的易感基因或者SNP位点。与既往研究SNP与疾病的关系采用的“候选基因”的策略不同,GWAS的优势在于可直接分析与疾病关联的SNP,并可以高通量地快速发现一些新的SNP位点,并应用已经发现的遗传学风险靶标对不同个体疾病发生的风险做出预测。
1.2 GWAS-全基因组关联技术应用进展 GWAS是通过基因测序或基因芯片等手段,在全基因组范围内进行整体研究,适用于复杂疾病的研究[6]。2005年《Science》杂志首次报道了用全基因组关联研究技术发现了补体因子H基因(CFH)是年龄相关性视网膜黄斑变性病的重要风险因素[7],此后陆续有研究人员报道了有关肥胖[8]、糖尿病[9]和冠心病[10]等常见疾病的GWAS研究。另外GWAS技术也用于多种癌症的诊断,如前列腺癌[11]、肝癌[12]、食道癌[13]、乳腺癌[14]等,便于癌症的早期诊断和治疗,另外通过挖掘遗传致病基因的相关突变进行胎儿产前诊断等。
近年来,随着基因测序仪器和技术的飞速发展,基因测序速度不断加快、成本也大幅下降,使其应用于临床疾病诊断成为可能;另一方面基因测序的推广极大地推动了全球范围的DNA数据的积累,以及相应的疾病症状或复杂生物学性状等数据的积累。当前临床应用主要在两个方面,一方面是针对普通疾病的筛查,通过测定已知疾病相关的基因序列位点来预测其未来罹患该疾病的概率:另一方面是针对癌症等难治性疾病的追踪诊断,通过测定某些特定的基因序列位点,探讨药物的有效性,最终为患者找到更适合基因突变的最为有效的药物或治疗方案,真正实现个体化医疗。
1.3 全基因组关联技术的发展现状及优势 基因诊断始于探寻遗传疾病的分子生物学病因,分子生物学家利用基因敲除等技术研究单个基因对生物表型的影响,取得了很多重大的突破;并运用统计学等数学分析方法处理大量数据研究基因序列与生物表型之间的关系。
人类疾病经历了从最简单的单基因疾病到多基因、多因素的复杂疾病(complex diseases)的演变过程,对于疾病的基因诊断已经从基于单基因或者少数基因的疾病遗传学风险预测走向多基因多因素的疾病风险预测。随着近年来GWAS研究数据的积累,科学家们对基于GWAS数据的疾病或表型风险预测方法进行了大量的研究。目前比较统一的观点是:由于全基因组关联研究要求统计分析的显著性阈值为P<5×10-8[15],而在当前情况下,很多复杂表型GWAS探索由于外显率和样本量的限制并不能发现大量的符合统计学标准的关联SNP,即大量的遗传学标记被严格的显著性标准过滤掉[16],因此在GWAS的剩余数据中必然包括着大量阳性关联的SNP,但他们由于对表型的影响效果较小(small effect size)而在统计学显著性上表现为接近阈值而大于阈值[17],很多研究也表明,在样本量增多时,很多新的关联SNP能够被发掘出来[18]。有些研究者受到样本量和研究资金的限制,不能够对大量的(数十万)样本群进行基因分型,于是便从统计学的角度入手探索了更深层次挖掘潜在关联SNP信息的方法,利用多基因模型[19]在帕金森病[20]、血管疾病[21],子宫内膜异位[22]和其他相关疾病的基因预测上也取得了一定的成绩。
GWAS的优势在于它集合了全人类基因组筛选和关联分析的优点,且能发现未知基因,在基因序列分析中运用生物信息学和统计学也将极大地推动GWAS的发展。随着GWAS的研究越来越热,目前人类基因组学已正式进入GWAS新纪元。在未来GWAS研究将有可能大幅推动疾病早期诊断、个体化治疗和药物基因组学的研究及其应用[23]。
人类目前面临的待解决成因的疾病大多属于复杂疾病,包括各类神经性疾病、肿瘤、糖尿病、心脏病和各类疑难杂症等,应用全基因组关联分析考察全基因组范围DNA变异的SNP,挖掘影响复杂疾病的表型SNP,有助于明确复杂疾病的发病机制[24]。
2005 年Klein等[25]研究人员第一次成功确定了影响年龄相关性黄斑变性病的重要遗传因子。与年龄有关的黄斑变性(AMD)是老年人失明的主要原因,与许多其他慢性疾病一样,AMD是由遗传和环境风险因素共同导致的。该研究报告了96个受试者和50个对照者的全基因组分析结果:基因分型的116 204个单核苷酸多态性中,补体因子H基因(CFH)的内含子和常见变异与AMD(P<10-7)密切相关。GWAS研究首次表明了人类补体因子H基因中的序列多态性可导致AMD,也是GWAS研究较早的一个成功案例。自此以后在更多的疾病诊断领域见证了GWAS的应用。
为了探索癌症的发生发展机理,研究人员从全基因组的所有SNP中,找出仅仅与癌症相关联的SNP,进行癌症的早期诊断。通过对癌症基因组序列和结构的分析,可以了解癌症发生发展机制。癌症相关的遗传因素、表遗传因素及众多的癌症基因表达或活性性状,构成了癌症发生、发展的分子网络,癌症分子网络研究已经成为癌症研究的一大热点,具有重要的研究价值。近年来,随着测序技术的不断进步,第二代测序技术在内的新一代高通量技术越来越多地应用于解决生物学问题,这种以数据为基础,大规模的研究模式使得从基因组、转录组水平等角度全方位,多层次的癌症研究成为可能[26]。基因组是指生命体内所有DNA分子,通过对基因组的研究,能够发现包括位点突变、插入与缺失、拷贝数变异及结构变异等在内的疾病特异性突变[27]。
近几年有文献报道了关于中国人群和日本人群中食管鱗状细胞癌(ESCC)的全外显子组测序的研究,这些研究鉴定出食管鳞状细胞癌驱动基因包括突变频率很高的TP53和突变频率不高但具有统计学意义的基因(CDKN2A,NOTCH1,RB1和PIK3CA)[28]。北京协和医学院的研究人员随访了5年以上的1088例ESCC患者外周血DNA的7 875 353个SNP,并与患者总生存时间进行关联分析,然后对发现的相关SNP在1479例ESCC患者的独立样本中进行验证,以探索中国人群ESCC预后相关联的SNP位点和基因。该研究通过对94例ESCC样本的全基因组测序和转录组测序的整合分析,建立了ESCC更全面的基因组景观[29]。
另外多项研究通过GWAS技术探索了乳腺癌易感基因位点,如Cai等[30]研究人员从22 780个样本和24 181个对照样本中发现了30个独立的乳腺癌易感基因位点。2017年,Michailidou等[31]研究人员对122 977例欧洲乳腺癌患者和105 974例对照者进行了基因分型阵列和SNP分析,证实了许多之前发现的乳腺癌致病位点,并找出了65个新的乳腺癌致病基因位点。 Milne等[32]研究人员通过GWAS分析与雌激素受体阴性乳腺癌风险的关联性,证实了之前发现的10个易感基因位点。
将GWAS技术应用在癌症发生发展机制的研究上,已取得了可喜的成绩。发掘癌症患者基因组的疾病特异性突变和鉴定有效的预后分子标志物,对癌症患者的早期诊断和潜在治疗靶点的发掘具有极其重要的意义。另外近年来也有将GWAS技术应用糖尿病[33-34]、阿尔茨海默症[35]等慢病的筛查上,对于慢病的预防和管理有积极作用。
近年来,医学界开始重视“治未病”的理念,即“未病先防”、对疾病早发现、早治疗和“既病防变”。对于慢性病的预防和管理,"治未病"的理念更应大力倡导。Zhu等[36]研究人员为了推断各种危险因素与常见疾病之间的因果关系,开发并应用了一种方法(称为GSMR),即用全基因组关联研究的汇总数据进行多SNP孟德尔随机化分析,发现了BMI、腰臀比、血清胆固醇、血压、身高和受教育年限等与常见疾病(样本数量达405 072个)之间的因果关系,确定了低密度脂蛋白胆固醇对Ⅱ型糖尿病(T2D)的保护作用,这可能解释了他汀类药物对T2D有改善作用,以及受教育年限对阿尔茨海默症的保护作用等。该研究发现BMI每增加4 kg/m2,患T2D的风险增加约2.3倍,另一方面T2D对BMI有显著的负面影响。
以上研究结果对于Ⅱ型糖尿病的诊断、治疗及病程管理有重要的意义。每个人的体质不同、健康状况不同、生活习惯不同,人们可以对照以上结果,对身体质量指数(BMI)、腰臀比、血清胆固醇、血压等体检指标进行检测,排查危害健康的因素,并通过各种健康干预措施,如:改变生活方式、调节心理、平衡膳食等,增强体质,预防疾病,真正的实现未病先防。
从全基因组范围中挖掘,是为了不漏掉任何可能的致病SNP,但由于全基因组中涉及的SNP达到百万甚至千万数量级,在快速精准诊断疾病方面GWAS技术还面临着巨大的挑战,如GWAS疾病风险预测模型区分度和校准度尚有待提高,这就需要优化GWAS疾病预测模型;DNA数据分析的质量控制也需要加强,质量控制在全基因组关联研究中非常重要,关系到是否能够提供高质量的DNA样本。鉴于全基因组关联研究能够挖掘影响人类疾病的易感基因或者SNP位点,预测不同个体未来罹患该疾病的概率,并找到更适合基因突变的最为有效的药物或治疗方案,有必要提高全基因组关联研究的技术水平,并扩大其临床实际应用,促进个体化精准医疗的发展。