周楠,杨康
全外显子组测序在遗传性乳腺癌易感基因发掘中的应用
周楠1,杨康2△
遗传易感因素是诱发乳腺癌的重要原因之一。乳腺癌易感变异根据个体发病率可分为低外显率、中外显率和高外显率3种。传统方法限制了中外显率和高外显率乳腺癌易感基因的发掘,而全外显子测序技术为乳腺癌易感基因的发掘提供了快速高效的方法。目前,利用全外显子组测序发现了一些此前未发现的乳腺癌易感基因,这些易感基因对遗传性乳腺癌发病的危险评估和发病机制的研究提供了有益指导。本文对遗传性乳腺癌的全外显子组测序研究进行综述,对试验设计、数据过滤策略、统计意义和关联分析进行讨论。
乳腺肿瘤;疾病遗传易感性;序列分析;全外显子组测序
遗传易感因素是诱发乳腺癌的重要原因之一[1],遗传变异相对风险值常被作为评估遗传因素的重要参数,高外显率易感基因变异相对风险值大于4[2],中外显率易感基因变异相对风险值在2~4之间[3],低外显率易感基因变异相对风险值小于2[4]。近年来,全外显子组测序技术得到了飞快发展,并在遗传性乳腺癌的研究中得到广泛应用。本文就全外显子组测序技术在遗传性乳腺癌中的研究进行综述,对试验设计、数据过滤策略和关联分析进行讨论。
分析乳腺癌易感基因的传统方法主要有遗传连锁分析法和候选基因分析法。乳腺癌易感基因BRCA1和BRCA2是利用遗传连锁分析法发现的[5],但是之后利用该方法没有发现其他乳腺癌易感基因。利用连锁分析在染色体上的定位经常是厘摩(centimorgan,cM)级别,其中可能包含成百上千个基因,因此对于复杂疾病,连锁分析只能提供部分参考性意见。利用候选基因分析法发现了很多BRCA通路中的基因,这些基因被认为是乳腺癌易感基因的候选基因[2]。这种方法的局限性在于对基因的选择太依赖于已知的乳腺癌信号通路。
随着二代测序技术的发展,全外显子组测序已被广泛应用于遗传病和癌症研究中[6]。全外显子组测序是指利用高效的序列捕获技术,将全基因组范围内的外显子区域DNA捕获、富集后进行高通量测序的基因组分析方法[7]。相比全基因组测序,该方法能够迅速获得所有外显子区域的遗传信息,在大幅提升效率的同时也降低了成本,同时可在减少数据分析量的基础上有针对性地得到大部分全基因组测序所能得到的信息[8]。在过去几年里,全外显子组测序技术得到飞快发展,并在遗传性乳腺癌的研究中得到广泛应用[9]。目前为止,至少有45个关于遗传性乳腺癌的研究应用了全外显子组测序的方法。
2.1 试验设计 为检测增加遗传性乳腺癌风险的罕见变异,研究者通常选用两种不同的策略。第一种方法是对患者家族进行全外显子组测序[10],通过不同个体间比较,得到遗传变异位点,一些变异位点可能位于遗传性乳腺癌易感基因中,随后对候选变异位点进行关联分析。第二种方法是对一些不具血缘关系的患者进行全外显子组测序,这种方法能发现高度异质性的位点,进而为遗传性乳腺癌的研究提供线索,当在不具有血缘关系的患者个体中发现遗传重叠时,需通过相关性分析检测遗传重叠的显著性。
研究表明:在特定基因中有一个或一组变异位点,该位点的变异与遗传性乳腺癌的发生密切相关[11-12]。有学者对患者家族进行全外显子组测序,6%(6/107)的患者家族检测出新的遗传变异位点,94%(101/107)的患者家族没有发现与乳腺癌危险变异存在关联的变异位点[13]。极少有研究利用二代测序进行已知乳腺癌易感基因的遗传变异筛选,全外显子组测序技术出现之前,多数研究仅在患者家族中进行乳腺癌易感基因BRCA1和BRCA2的遗传变异筛选,而筛选结果证明是拟表型[11-12]。因此,多数借助全外显子组测序技术在患者家族中进行的研究均未提及已知乳腺癌易感基因的突变[13]。Cybulski等[14]对没有血缘关系的患者个体进行全外显子组测序研究,发现只有5例患者具有RECQL的截断突变。Snape等[15]的研究发现只有4例患者存在已知的乳腺癌易感基因变异。因此,完善全外显子组测序的试验设计具有十分重要的意义。
2.2 数据过滤策略 利用全外显子组测序技术,每个个体一共能得到20 000~30 000个单核苷酸多态性(SNP)和插入/缺失(insertion/deletion,Indel)变异位点[16-17],因此如何筛选有效变异位点成为难题[18]。遗传性乳腺癌的全外显子组测序研究强调候选变异是具有潜在致病性且与癌症相关的变异位点[19-25]。数据过滤策略主要目的是对不同变异位点进行优先级排序,主要有分离滤波消除变异和分层过滤两种方法。
分离滤波消除变异基于“被过滤掉的变异是不致病的”这样一种假设[18]。基于罕见变异增加患癌风险的假设,利用最小等位基因频率进行分析是常用的方法。高外显率乳腺癌易感基因BRCA1和BRCA2在人群中的等位基因频率为0.125%~0.25%[26],最小等位基因频率小于1%;中外显率乳腺癌易感基因TP53和CHEK2的最小等位基因频率也均低于1%[27]。因此,最小等位基因频率小于1%、具有潜在致病性且与癌症相关的基因可作为遗传性乳腺癌易感基因。目前,至少有4项乳腺癌全外显子组研究采取这种分析方法[19-22]。遗传性乳腺癌易感基因在普通人群中以较低的等位基因频率存在,在全外显子组研究中设置较低的最小等位基因频率阈值(<1%)对于高效、快速地发掘遗传性乳腺癌易感基因更有利[21]。
在个体20 000~30 000个遗传变异中,如何有效地从非风险等位变异中发现风险等位变异仍困难重重。为了进行有效筛选,基于基因功能进行分层过滤是常用的方法。大多数已知的遗传性乳腺癌风险等位基因参与基因组的完整性或者DNA修复,因此,可重点关注参与DNA修复过程相关基因的有害突变,同时删除无义突变,以减少测试压力[22]。分层过滤策略虽然可以快速识别有效变异位点,但它基于已有的基因功能研究,有时会导致疏漏。
2.3 统计意义和关联分析 在全基因组关联分析中,显著性阈值为5×10-8;但在全外显子组测序分析中,罕见变异的研究仍处于起步阶段,显著性阈值尚不统一[24]。在全外显子组测序分析中1个基因是1个基本单位,显著性阈值可设置为1.7×10-6,该值非常保守,是利用多重检验Bonferroni校正30 000个独立测试得到的,目前多个全外显子组研究均使用这一显著性阈值[24-27]。
目前,全外显子组研究虽然存在一些不足,但是利用这种手段仍可发现一些罕见的变异位点,然后通过关联分析对结果进行初步验证。Cybulski等[14]在波兰和魁北克人群中发现了乳腺癌易感基因变异位点,最终确定2个RECQL基因中的截断突变与遗传性乳腺癌之间存在显著关联。样本量大能提高权重(power)、降低P值,利于发现更多遗传性乳腺癌易感基因。Gracia-Aznarez等[12]发现FANCM基因发生无义突变时和遗传性乳腺癌之间不存在关联,但Peterlongo等[25]对8 635例遗传性乳腺癌患者和6 625例正常人进行基因分型分析,提供了足够的权重,P值为0.017,证明两者之间存在关联。
许多危险因素可诱导乳腺癌的发生,平均每8名妇女中就有1名患乳腺癌[1]。发现新的乳腺癌易感基因对于风险评估、遗传咨询和疾病机制研究有十分重要的意义。对于那些不是因为乳腺癌易感基因BRCA1和BRCA2变异而引发乳腺癌的患者,其发病原因可能与SNP有关[16]。因此,挖掘与乳腺癌发病相关的SNP位点的全外显子组测序方法被广泛应用。目前为止,至少70个SNP位点与乳腺癌的发病有关[20-27],发现更多遗传性乳腺癌易感基因及其变异位点对于乳腺癌的治疗和预防具有十分重要的意义。在遗传性乳腺癌的研究中,利用全外显子组测序已获得大量数据,为遗传性乳腺癌的研究提供了丰富的资源。
[1]Valencia OM,Samuel SE,Viscusi RK,et al.The role of genetic testing in patients with breast cancer:a review[J].JAMA Surg,2017 Apr 19.doi:10.1001/jamasurg.2017.0552.[Epub ahead of print].
[2]Apostolou P,Fostira F.Hereditary breast cancer:the era of new susceptibility genes[J].Biomed Res Int,2013,2013:747318.doi:10.1155/2013/747318.
[3]Melin BS,Barnholtz-Sloan JS,Wrensch MR,et al.Genome-wide association study of glioma subtypes identifies specific differences in genetic susceptibility to glioblastoma and non-glioblastoma tumors[J].Nat Genet,2017 Mar 27.doi:10.1038/ng.3823.[Epub ahead of print].
[4]Shiovitz S,Korde LA.Genetics of breast cancer:a topic in evolution[J].Ann Oncol,2015,26(7):1291-1299.doi:10.1093/annonc/mdv022.
[5]Nolan E,Vaillant F,Visvader JE,et al.Re:bilateral oophorectomy and breast cancer risk in BRCA1 and BRCA2 mutation carriers[J].J Natl Cancer Inst,2017 Apr 4.doi:10.1093/jnci/djx038.[Epub ahead of print].
[6]Permuth JB,Pirie A,Ann Chen Y,et al.Exome genotyping arrays to identify rare and low frequency variants associated with epithelial ovarian cancer risk[J].Hum Mol Genet,2016,25(16):3600-3612.doi:10.1093/hmg/ddw196.
[7]Errichiello E,Vetro A,Mina T,et al.Whole exome sequencing in the differential diagnosis of Diamond-Blackfan anemia:Clinical and molecular study of three patients with novel RPL5 and mosaic RPS19 mutations[J].Blood Cells Mol Dis,2017,64:38-44.doi:10.1016/j.bcmd.2017.03.002.
[8]Hehir-Kwa JY,Pfundt R,Veltman JA.Exome sequencing and whole genome sequencing for the detection of copy number variation[J].Expert Rev Mol Diagn,2015,15(8):1023-1032.doi:10.1586/14737159.2015.1053467.
[9]Haddad SA,Ruiz-Narváez EA,Haiman CA,et al.An exome-wide analysis of low frequency and rare variants in relation to risk of breastcancerin African American Women:theAMBER Consortium[J].Carcinogenesis,2016,37(9):870-877.doi:10.1093/carcin/bgw067.
[10]Määttä K,Rantapero T,Lindström A,et al.Whole-exome sequencing of Finnish hereditary breast cancer families[J].Eur J Hum Genet,2016,25(1):85-93.doi:10.1038/ejhg.2016.141.
[11]Easton DF,Pharoah PD,Antoniou AC,et al.Gene panel sequencing and the prediction of breast-cancer risk[J].N Engl J Med,2015,372(23):2243-2257.doi:10.1056/NEJMsr1501341.
[12]Gracia-Aznarez FJ,Fernandez V,Pita G,et al.Whole exome sequencing suggests much of non-BRCA1/BRCA2 familial breast cancerisduetomoderateandlowpenetrancesusceptibilityalleles[J].PLoSOne,2013,8(2):e55681.doi:10.1371/journal.pone.0055681.
[13]Noh JM,Kim J,Cho DY,et al.Exome sequencing in a breast cancer family without BRCA mutation[J].Radiat Oncol J,2015,33(2):149-154.doi:10.3857/roj.2015.33.2.149.
[14]Cybulski C,Carrot-Zhang J,Kluźniak W,et al.Germline RECQL mutations are associated with breast cancer susceptibility[J].Nat Genet,2015,47(6):643-646.doi:10.1038/ng.3284.
[15]Snape K,Ruark E,Tarpey P,etal.Predisposition gene identification in common cancers by exome sequencing:insights from familial breast cancer[J].Breast Cancer Res Treat,2012,134(1):429-433.doi:10.1007/s10549-012-2057-x.
[16]Dieci MV,Smutná V,Scott V,et al.Whole exome sequencing of rare aggressive breast cancer histologies[J].Breast Cancer Res Treat,2016,156(1):21-32.doi:10.1007/s10549-016-3718-y.
[17]Michailidou K,Beesley J,Lindstrom S,et al.Genome-wide association analysis of more than 120,000 individuals identifies 15 new susceptibility loci for breast cancer[J].Nat Genet,2015,47(4):373-380.doi:10.1038/ng.3242.
[18]Li MX,Gui HS,Kwan JS,et al.A comprehensive framework for prioritizing variants in exome sequencing studies of Mendelian diseases[J].Nucleic Acids Res,2012,40(7):e53.doi:10.1093/nar/gkr1257.
[19]Kiiski JI,Pelttari LM,Khan S,et al.Exome sequencing identifies FANCM as a susceptibility gene for triple-negative breast cancer[J].Proc Natl Acad Sci USA,2014,111(42):15172-15177.doi:10.1073/pnas.1407909111.
[20]Park DJ,Tao K,LeCalvez-Kelm F,et al.Rare mutations in RINT1 predispose carriers to breast and Lynch syndrome-spectrum cancers[J].Cancer Discov,2014,4(7):804-815.doi:10.1158/2159-8290.CD-14-0212.
[21]Silvestri V,Zelli V,Valentini V,et al.Whole-exome sequencing and targeted gene sequencing provide insights into the role of PALB2 as a male breast cancer susceptibility gene[J].Cancer,2017,123(2):210-218.doi:10.1002/cncr.30337.
[22]Sham PC,Purcell SM.Statistical power and significance testing in large-scale genetic studies[J].Nat Rev Genet,2014,15(5):335-346.doi:10.1038/nrg3706.
[23]Hoggart CJ,Clark TG,DeIorio M,et al.Genome-wide significance for dense SNP and resequencing data[J].Genet Epidemiol,2008,32(2):179-185.doi:10.1002/gepi.20292.
[24]Zuk O,Schaffner SF,Samocha K,et al.Searching for missing heritability:designing rare variant association studies[J].Proc Natl Acad Sci USA,2014,111(4):E455-464.doi:10.1073/pnas.1322563111.
[25]Peterlongo P,Catucci I,Colombo M,et al.FANCM c.5791C>T nonsense mutation(rs144567652)induces exon skipping,affects DNA repair activity,and is a familial breast cancer risk factor[J].Hum Mol Genet,2015,24(18):5345-5355.doi:10.1093/hmg/ddv251.
[26]Schmidt MK,van den Broek AJ,Tollenaar RA,et al.Breast cancer survival of BRCA1/BRCA2 mutation carriers in a hospital-based cohort of young women[J].J Natl Cancer Inst,2017,109(8):222-233.doi:10.1093/jnci/djw329.
[27]Edenir IP,Bárbara A,Lavínia SF,et al.Screening for germline BRCA1,BRCA2,TP53 and CHEK2 mutations in families at-risk for hereditary breast cancer identified in a population-based study from Southern Brazil[J].Genet Mol Biol,2017 Mar 16.doi:10.1590/1678-4685-GMB-2014-0363er.[Epub ahead of print].
(2016-12-26收稿 2017-04-21修回)
(本文编辑 李国琪)
Whole exome sequencing in the application of hereditary breast cancer susceptibility gene discovery
ZHOU Nan1,YANG Kang2△
1 Department of Radiotherapy,the Affiliated Hospital of Inner Mongolia Medical University,Huhehaote 010050,China;2 School of Life Science,Tianjin University△
E-mail:Sunny20160826@163.com
Genetic susceptibility factor is one of the important reasons to induce breast cancer.Breast cancer risk variants are divided into three categories including high,moderate and low penetrances.Traditional BC susceptibility gene discovery approaches limit the search for breast cancer susceptibility genes with high and moderate risk variants.Whole exome sequencing technology provides a quick and efficient method to discover breast cancer susceptibility genes.At present,a number of breast cancer susceptibility genes have been identified by whole exome sequencing method,which provides useful guidance for the risk assessment and pathogenesis of hereditary breast cancer.In this paper,we reviewed the whole exome sequencing technology and discussed the experimental design,data filtering strategy,statistical significance and correlation analysis.
breast neoplasms;genetic predisposition to disease;sequence analysis;whole exome sequencing
R737.9
:A
10.11958/20161587
内蒙古青年创新科技计划项目(2015FB051);天津市自然科学基金青年项目(16JCQMJC09800)
1内蒙古医科大学附属医院放疗科(邮编010050);2天津大学生命科学学院
周楠(1986),女,本科,护师,主要从事肿瘤方向研究
△通讯作者 E-mail:Sunny20160826@163.com