后全基因组病例对照研究时代的功能研究策略

2015-02-11 08:52刘佳宇张丽娜郑红

天津医药 2015年7期

刘佳宇，张丽娜，郑红

综述

刘佳宇1，2，张丽娜3，郑红1△

自首次报道了有关人类年龄相关性黄斑变性的全基因组关联研究（GWAS）以来，人们通过GWAS方法发现并鉴定了大量与人类复杂性疾病关联的遗传变异。但是，对这些遗传变异位点的生物学功能尚不十分清楚。本文重点介绍了在后GWAS时代，对疾病易感基因位点进行精细定位的方法和功能学研究进展。在后GWAS时代，遗传机制研究可以帮助临床深入地理解疾病的发病机制。

基因组；病例对照研究；多态性，单核苷酸；全基因组关联研究；精细定位；功能研究；易感基因；综述

全基因组关联研究（GWAS）是一种分析全基因组范围内的遗传变异与性状或疾病之间关联的研究手段。它主要基于连锁不平衡（LD）原理：选择几十万甚至上百万个多态性位点（SNP）代表全基因组范围内的遗传变异，并应用高通量基因分型平台对这些代表位点进行检测［1］。由于没有预先的研究假设，实验设计多为大样本量、多阶段、多中心的病例-对照研究，并用多个独立的研究中心进行后期验证，这样可以克服先假设易感基因，再挑选SNP模式的局限性。目前发现了超过10 000个与疾病或性状相关的SNP［2］。GWAS识别出具有统计学意义的疾病相关SNP可能仅仅只是功能区域单体型（haplotype）［3］的一个标签。后续挑战主要在于找到关联最强的具有生物学功能的候选变异位点以及相关的靶基因，并阐明其中关联的调控机制。因此，本文针对疾病相关位点，对后GWAS的精细定位以及功能研究的方法加以综述，以期为后GWAS研究提供参考。

1 精细定位（fine mapping）

GWAS研究目前发现了大量的与疾病相关的位点和区域，但能明确阐述其生物学功能的位点很少，在这些所谓的“热点”之间分布着稳定的DNA碱基序列，它们在进化过程中经历的重组很少，这些重组贫乏的序列被称作单倍型，约占人类基因组的80%［4］。在一个稳定的、所有SNP都倾向于被隔离到一起的DNA序列区域，包含一些尚未被检测到的SNP，GWAS研究中所选用的SNP可能只是这个区域中SNP的代表，后GWAS研究关键的第一步就是确定与疾病易感的SNP所在区域的单体型结构，即确定这个稳定DNA区域的范围。之后对该区域进行精细定位（fine mapping），例如对该区域进行重测序（re-sequencing），以便查明这个区域上还存在哪些其他的SNP，并进行病例-对照样本的验证、基因表达分析、体内外功能学等实验，以确定真正的致病位点。但是单体型结构受人种的影响较大［5］，研究者要根据研究对象选择合适的数据库和工具（例如Haploview：http://www.broad. mit.edu/mpg/haploview/）对目的SNP所在的单体型结构进行分析，再获取该单体型结构的高密度遗传变异目录及其基因型。

1.1重测序（re-sequencing）GWAS发现的易感位点通常来自常见变异，全基因组完整的SNP图谱仍然是未知的。目前最新版本的人类基因组单体型图谱计划（HapMap）的数据（HapMap genome browser release#28）也仅仅提供了30%左右的基因组常见SNP数据［6］。因此，要获得疾病易感区域完整的SNP信息，需要对一定数量的正常人群疾病易感基因候选区域进行重测序。重测序也有助于发现一些人群中的低频变异以及新出现的变异，而二代测序技术的发展也使得对易感区域进行重测序变得简单可行［7-8］。日本一项胃癌GWAS研究发现了1q22上的2个SNP位点rs2075570和rs2070803与弥漫性胃癌易感相关［9］。有研究通过对该区域的单体型分析以及相关基因的表达分析，选择该区域上的MUC1基因进行重测序，新发现了7个SNP，其中包含真正有功能的rs4072037位点，它通过调控MUC1的剪切从而影响弥漫性胃癌易感性［10］。此外，重测序还能够提供结构变异位点、插入缺失位点等其他遗传变异形式的信息，这有助于对其开展后续的功能研究［11］。

1.2基因型填补（lmputation）基因型填补是一种基于已检测位点基因型信息，根据HapMap、千人基因组计划（1 000 genomes project）等项目提供的密度更高的参照数据，推断未检测位点基因型的计算机手段，其有助于对更多未检测位点与疾病的关联进行分析［12］。目前在后GWAS研究中，较为常用的基因型填补软件通常分为2类：一类是计算密集型工具，例如IMPUTE和MACH，这一类在推测未知基因型时考虑到所有的已知基因型位点基因型数据；另一种是计算效率型工具，如PLINK和BEAGLE，这种分析一般只考虑位点周围的一些已知基因型数据。前者需要更复杂的计算，但是对于缺失位点的推断更准确，尤其是低频的变异。基因型填补能够增加GWAS研究的SNP密度，有助于在已经发现的关联性位点周围寻找疾病位点，弥补由于实验设计或技术平台分型失败所缺失的一些位点信息，节省人力和物力，可作为资源有限情况下的一种有效辅助手段。

通过这2种手段，研究者就可以得到感兴趣区域的一个基因轮廓，得到这个正常人群易感区域的遗传变异目录后，就可以选择一定数量的病例及对照，对易感区域内的常见SNP（例如MAF＞5%）进行病例-对照研究。该阶段最重要的因素是检验效能，一般多中心的合作有助于找到与疾病关联程度最强的SNP，进而缩小易感区域甚至确定易感基因。之后运用各类公共数据库以及软件工具对这个区域的易感位点进行功能注释，从而协助研究者选取合适位点和适当的位点数量，以指导实验方向。

2 SNP功能注释

2.1编码区SNP（coding SNP）位于基因编码区的SNP根据其变异效应可以分为错义突变、同义突变、无义突变和移码突变，其中无义突变和移码突变会对蛋白的结构和功能造成较大的影响，一般都会在自然选择过程中被淘汰［13］。同义突变的功能不影响氨基酸序列，但可以通过参与转录、翻译及翻译后修饰等环节来影响蛋白质的表达或功能，从而导致疾病的发生，其功能与非编码SNP相似。错义变异对于基因的影响可以从遗传密码中推断出来，而其危害一般基于序列保守性和蛋白结构来预测。首先进行序列比对，从序列保守性来评估氨基酸替换的影响，比对算法是一个关键因素［14］，这方面，PolyPhen-2网站提供了一个相对简单友好的操作界面［15］，蛋白质结构的评估也可提供重要信息，如果SNP位于重要的结构域（例如催化部位，DNA或蛋白结合部位等），可以通过计算机分析来预测这个氨基酸改变是否影响蛋白的功能或稳定性。目前已经有很多综合性预测的网站对错义SNP进行功能注释，如PolyDoms能够利用dbSNP的各种资源预测蛋白质结构和功能的变异，同时还可通过各种数据库获得生物信号通路，交互作用和等位变异等信息［16］。

2.2非编码SNP（non-coding SNP）目前GWAS发现的疾病/性状相关位点SNP约90%存在于一些基因的非编码区域，这些位点可能通过参与基因的转录，转录后加工，翻译及翻译后修饰等各种途径影响基因的表达［17］。

非编码SNP可以是近距离的顺式作用元件或者远距离的反式作用因子［18］，这类SNP的靶基因不明确。数量性状基因座（expression Quantitative Trait Loci，eQTL）分析成为识别靶基因的重要手段，eQTL是指能够影响基因表达的遗传变异位点，检测SNP与基因表达关系的统计分析称为eQTL分析［19］，在资源有限的情况下可以运用公共数据库来进行分析。Li等［20］运用TCGA（The Cancer Genome Atlas）和EN⁃CODE（Encyclopedia of DNA Elements）数据库对15个乳腺癌相关的易感位点进行eQTL分析，发现了3个易感位点附近的靶基因以及3个远距离作用的靶基因。需要注意的是基因表达具有组织特异性［21］，目前公共的eQTL数据还很不健全，主要局限于单核细胞、淋巴细胞等［22］，随着Genotype Tis⁃sue Expression项目的进行，将会得到来自900多个个体超过60种组织的eQTL信息［23］。

非编码SNP可以参与到基因表达的各环节，SNP可能位于不同的调控区，例如剪切位点、转录因子结合位点、miRNA靶序列种子区结合位点等这些都有各自专业预测工具，如BDGP、TRANSFAC和Targetscan。还有一些综合性预测网站，如GWAS3D（http://jjwanglab.org/gwas3d）和UCSC（http://ge⁃nome.ucsc.edu/），它们集合了ENCODE、Roadmap等众多功能数据集的综合型网站，能够提供变异位点对剪切、转录、翻译等各环节的调控信息。此外，对于候选SNP较多时，可以一次性分析大量候选SNP及其高连锁位点的功能，如SNPinfo。功能预示强的位点可以运用上文提到的各领域专业网站或工具再进行单独预测验证。

经过计算机功能分析后可以得到候选SNP的功能注释。但那些分析工具依赖的是一些有限的数据库，且这些数据库的数据比如ENCODE里面纳入的转录因子以及细胞种类也是有限的，这样就容易使研究者丢失了部分可能具有功能的位点。同时，因为没有考虑到组织特异性，有些功能注释也可能出现假阳性。但是总的来说这些生物信息学工具和公共数据库能为研究者提供很大的帮助，从而缩小实验目标范围，使其进一步的体内外功能研究成为可能。

3 功能学研究

计算机预测手段只能辅助研究者找到相关的突变位点和靶基因，提供易感位点可能调控基因表达的间接证据。研究者还需要通过体内和体外实验来证实目标SNP在调控基因表达及参与疾病发生发展的分子机制，其主要是基于各种遗传背景比较明确的细胞系，其具有均一化、可操控性强、重复性好的特点。SNP能够评估不同遗传背景的细胞系的基因表达情况或观察人为改变靶基因的表达后细胞形态和行为的变化。常用的实验方法包括报告基因转染技术，ChIP-chip或ChIP-seq方法，染色体构象俘获技术（3C）等。但后GWAS功能研究最大的挑战在于体内功能学实验的证实，小鼠基因与人类基因组相似，能模拟人类疾病表型，实验手段比较成熟，因此成为运用最广泛的模式动物。GWAS研究发现，位于NR5A2附近的SNP与胰腺癌易感相关［24］。von Figu⁃ra等［25］敲除小鼠胰腺NR5A2基因发现，NR5A2是胰腺腺泡可塑性的关键调节器，同时也通过抑制Kras原癌基因抑制胰腺癌。目前主要的体内实验集中于在一些模式动物中进行靶基因功能的研究，但仍然缺乏SNP在体内调控靶基因的直接证据。同时，大量研究表明SNP对于疾病的易感只有中等的效应：平均OR（odds ratio）值约为1.3［26］，这使得研究者在模式动物体内实验中很难观察到明显的表型变化。

综上所述，疾病相关的GWAS研究进展迅速，但由于真正SNP调控机制的后GWAS研究成果的缺乏，其临床应用受到了很大的限制。临床上，对于健康人群可通过遗传检查确定高危人群并预测疾病的发病风险，督促其开展早期筛查，预防疾病的发生；对于疾病患者，可根据个体遗传信息制定合理的诊治方案，预测患者的预后，为实现个体化医学提供依据。同时，疾病病理分子机制的阐明有助于寻找新的药物靶点，为疾病的治疗开拓新途径。

［1］Visscher PM，Brown MA，McCarthy MI，et al.Five years of GWAS discovery［J］.Am J Hum Genet，2012，90（1）:7-24.doi:10.1016/j. ajhg.2011.11.029.

［2］Welter D，MacArthur J，Morales J，et al.The NHGRI GWAS Catalog，a curated resource of SNP-trait associations［J］.Nucleic Acids Res，2014，42（Database issue）:D1001-1006.doi:10.1093/nar/gkt1229.

［3］Cao CC，Sun X.Accurate estimation of haplotype frequency from pooled sequencing data and cost-effective identification of rare hap⁃lotype carriers by overlapping pool sequencing［J］.Bioinformatics，2015，31（4）:515-522.doi:10.1093/bioinformatics/btu670.

［4］Reich DE，Cargill M，Bolk S，et al.Linkage disequilibrium in the human genome［J］.Nature，2001，411（6834）:199-204.

［5］Kemppainen P，Knight CG，Sarma DK，et al.Linkage disequilibri⁃ um network analysis（LDna）gives a global view of chromosomal in⁃versions，local adaptation and geographic structure［J］.Mol Ecol Re⁃sour，2015.doi:10.1111/1755-0998.12369.［Epubahead of print］

［6］International HapMap C，Altshuler DM，Gibbs RA，et al.Integrat⁃ing common and rare genetic variation in diverse human populations［J］.Nature，2010，467（7311）:52-58.doi:10.1038/nature09298.

［7］Sharma M，Kruger R，Gasser T.From genome-wide association studies to next-generation sequencing:lessons from the past and planning for the future［J］.JAMA Neurol，2014，71（1）:5-6.doi: 10.1001/jamaneurol.2013.3682.

［8］Romanel A，Lago S，Prandi D，et al.ASEQ:fast allele-specific studies from next-generation sequencing data［J］.BMC Med Genomics，2015，8:84.doi:10.1186/s12920-015-0084-2.

［9］Study Group of Millennium Genome Project for Cancer，Sakamoto H，Yoshimura K，et al.Genetic variation in PSCA is associated with susceptibility to diffuse-type gastric cancer［J］.Nat Genet，2008，40（6）:730-740.doi:10.1038/ng.152.

［10］Saeki N，Saito A，Choi IJ，et al.A functional single nucleotide poly⁃morphism in mucin 1，at chromosome 1q22，determines susceptibili⁃ty to diffuse-type gastric cancer［J］.Gastroenterology，2011，140（3）: 892-902.doi:10.1053/j.gastro.2010.10.058.

［11］Korte A，Farlow A.The advantages and limitations of trait analysis with GWAS:a review［J］.Plant Methods，2013，9:29.doi:10.1186/ 1746-4811-9-29.eCollection 2013.

［12］Wood AR.，Perry JR，Tanaka T，et al.Imputation of variants from the 1000 Genomes Project modestly improves known associations and can identify low-frequency variant-phenotype associations un⁃detected by HapMap based imputation［J］.PLoS One，2013，8（5）: e64343.doi:10.1371/journal.pone.0064343.

［13］Rice DP，Good BH，Desai MM.The Evolutionarily Stable Distribu⁃tion of Fitness Effects［J］.Genetics，2015，200（1）:321-329.

［14］Wei Q，Xu Q，Dunbrack RL Jr.Prediction of phenotypes of mis⁃sense mutations in human proteins from biological assemblies［J］. Proteins，2013，81（2）:199-213.doi:10.1002/prot.24176.

［15］Adzhubei I，Jordan DM，Sunyaev SR.Predicting functional effect of human missense mutations using PolyPhen-2［J］.Curr Protoc Hum Genet，2013，Chapter 7:Unit7.20.doi:10.1002/0471142905. hg0720s76.

［16］Jegga AG，Gowrisankar S，Chen J，et al.PolyDoms:a whole genome database for the identification of non-synonymous coding SNPs with the potential to impact disease［J］.Nucleic Acids Res，2007，35（Database issue）:D700-6.

［17］Hindorff LA，Sethupathy P，Junkins HA，et al.Potential etiologic and functional implications of genome-wide association loci for hu⁃man diseases and traits［J］.Proc Natl Acad Sci USA，2009，106（23）: 9362-9367.doi:10.1073/pnas.0903103106.

［18］Monteiro AN，Freedman ML.Lessons from postgenome-wide associ⁃ation studies:functional analysis of cancer predisposition loci［J］.J Intern Med，2013，274（5）:414-424.doi:10.1111/joim.12085.

［19］Schielzeth H，Husby A.Challenges and prospects in genome-wide quantitative trait loci mapping of standing genetic variation in natu⁃ral populations［J］.Ann N Y Acad Sci，2014，1320：35-57.doi: 10.1111/nyas.12397.

［20］Li Q，Seo JH，Stranger B，et al.Integrative eQTL-based analyses re⁃veal the biology of breast cancer risk loci［J］.Cell，2013，152（3）: 633-641.doi:10.1016/j.cell.2012.12.034.

［21］Fu J，Wolfs MG，Deelen P，et al.Unraveling the regulatory mecha⁃nisms underlying tissue-dependent genetic variation of gene expres⁃sion［J］.PLoS Genet，2012，8（1）:e1002431.

［22］Stranger BE，Nica AC，Forrest MS，et al.Population genomics of hu⁃man gene expression［J］.Nat Genet，2007，39（10）:1217-1224.

［23］Consortium GT.The Genotype-Tissue Expression（GTEx）project［J］.Nat Genet，2013，45（6）:580-585.doi:10.1038/ng.2653.

［24］Petersen GM，Amundadottir L，Fuchs CS，et al.A genome-wide as⁃sociation study identifies pancreatic cancer susceptibility loci on chromosomes 13q22.1，1q32.1 and 5p15.33［J］.Nat Genet，2010，42（3）:224-228.doi:10.1038/ng.522.

［25］von Figura G，Morris JP 4th，Wright CV，et al.Nr5a2 maintains aci⁃nar cell differentiation and constrains oncogenic Kras-mediated pancreatic neoplastic initiation［J］.Gut，2014，63（4）:656-664.doi: 10.1136/gutjnl-2012-304287.

［26］Varghese JS，Easton DF.Genome-wide association studies in com⁃mon cancers--what have we learnt［J］？Curr Opin Genet Dev，2010，20（3）:201-209.doi:10.1016/j.gde.2010.03.012.

（2015-02-09收稿 2015-03-27修回）

（本文编辑陆荣展）

Research strategy of the case-control post-genome-wide association study

LIU Jiayu1，2，ZHANG Li′na3，ZHENG Hong1△
1 Department of Epidemiology and Biostatistics，Tianjin Medical University Cancer Institute and Hospital，Tianjin 300060，China；2 Graduate School，Tianjin Medical University；3 Department of Breast Cancer，National Clinical Research Center for Cancer，The Key Laboratory of Breast Cancer Prevention and Therapy，Ministry of Education，Tianjin Key Laboratory of Cancer Prevention and Therapy△

Since the first paper reported the finding of genetic variation contributing to human age-related macular de⁃generation by genome-wide association study（GWAS）in 2005，large number of human complex diseases associated genetic variants have been identified through GWAS method.However，the biological function of these genetic variants is not very clear.The present paper reviewed the methods of fine-mapping and the progress of the functional studies for these suscepti⁃bility variants.In the post GWAS Era，the study of genetic mechanisms can help us to understand the disease pathogenesis.

genome；case-control studies；polymorphism，single nucleotide；genome-wide association study；fine map⁃ping；functional study；susceptibility gene；review

R596

10.11958/j.issn.0253-9896.2015.07.030

国家自然科学基金资助项目（81470153）

1天津医科大学肿瘤医院，肿瘤研究所肿瘤分子流行病与生物统计研究室，国家肿瘤临床研究中心，天津市肿瘤防治重点实验室（邮编300060）；2天津医科大学研究生院；3天津医科大学肿瘤医院乳腺外科

刘佳宇（1989），女，硕士在读，主要从事肿瘤分子流行病学研究

△通讯作者E-mail：zhengh64@aliyun.com