刘凤姣,郭丽文
(知识产权出版社有限责任公司,北京 100081)
精准医疗是以个体化医疗为基础并伴随基因组测序技术以及生物信息与大数据科学的交叉应用而发展起来的一种新型医疗模式。基因测序是精准医疗的基础,它为遗传性疾病的诊断和治疗带来了新的机遇,为保障全民健康,降低出生缺陷和遗传咨询提供了良好依据,同时也能产生一定的经济和社会效益。
从冗杂的测序数据中建立基因变异、疾病与临床表型的联系,是当今的研究热点。围绕美国医学遗传学与基因组学学会制定的《遗传变异分类标准与指南》(ACMG指南)[1]、遗传相关数据库、生物信息学软件和具体案例探讨判断一个基因变异位点致病风险的方法,为疾病尤其是遗传疾病的诊疗提供参考依据。
ACMG指南将基因变异利用28条证据进行5级分类,即致病的、可能致病的、意义不明确的、可能良性的和良性的。其中可能致病的和可能良性的是具有大于90%可能致病或者良性的变异,尽管90%是人为界定的,但是它给实验室提供了一种共同的定义。致病性变异证据分为非常强(PVS1)、强(PS1~PS4)、中等(PM1~PM6)和辅助证据(PP1~PP5);良性变异证据分为独立(BA1)、强(BS1~BS4)和辅助证据(BP1~BP7)。其中数字只作为分类标注,不具有任何意义。根据5级分类规则可判断基因变异导致疾病发生的可能性。例如,一个变异基因存在(1个PVS1+≥1个PS)证据,或(1个PVS1+≥2个PM)证据,则该变异属于致病性变异,具体的规则可参照ACMG指南。
目前,人类基因组中发现了大量的变异和新的基因,并且被收录到各大数据库中,为基因测序与疾病分析提供了重要参考信息。常用的人群数据库有 ExAC、dbSNP、1000 Genomes、ESP6500、dbVar和COSMIC等;疾病数据库有OMIM、HGMD、ClinVar和DECIPHER等;序列数据库有NCBI、RefSeqGene、LRG等[2-4]。人群数据库可以用于分析某个变异在大规模人群中发生的频率,如果某一等位基因频率>5%,则其存在良性变异的独立证据(BA1)。疾病数据库主要包括人类疾病相关基因的突变信息,其中可能包括一些分类错误的变异,在用于临床时,需要谨慎并追溯突变来源,确认数据中的基因变异是否为患病原因。序列数据库用于生物信息注释,如基因位置、核苷酸、参考序列,使用参考序列时,应该参照同一基因组版本,目前较常使用的基因组版本为GRCh37/hg19。
生物信息学以基因组DNA序列为分析源头,利用信息学、应用数学、统计学和计算机科学等从大量的数据中提取有用的生物学信息,进行序列比对、基因识别与表达、蛋白质结构预测和表达以及建立进化模型等。基于生物信息学开发的各类预测软件从核苷酸或氨基酸水平判断一个变异可能产生的有害或无害影响,其主要预测错义突变对蛋白功能或结构产生的影响,剪接突变对内含子和外显子剪接产生的影响。常用的错义突变预测软件有 SIFT、PolyPhen-2、REVEL和 MutationTaster;剪接突变预测软件有HSF、MaxEntScan、NetGene2和GeneSplicer[2,4-5]。各类预测软件采用的算法不一样,所以在基因变异数据分析过程中,应该采用多种软件组合分析,并且慎重应用到临床上。
结合具体基因变异位点分析如何得到一个有参考价值的基因检测结果。以SCN1A基因错义突变为例,chr2_166903480、NM_001165963、exon12、c.1177C>T(编码区第1 177位核酸的胞嘧啶变异为胸腺嘧啶,会导致第393号氨基酸由精氨酸变异为半胱氨酸),父母均没有检测到此变异,属于自发突变。
运用数据库资源和生物信息预测软件结合ACMG指南分析该SCN1A变异的致病性。根据表1得到PS1、PM2、PP3和PP5证据,且该SCN1A变异属于自发突变,存在PS2证据,所以PS1+PS2+PM2+PP3+PP5≥2个PS证据,此SCN1A变异为致病性变异,会产生癫痫相关的病症。如果该变异位点没有进行家系验证或者不是自发突变,即不存在PS2证据,则该SCN1A变异为可能致病的变异。
临床基因测序一般是为了确认疾病原因,进行肿瘤和遗传性疾病的风险评估、指导科学用药以及辅助制定个性化治疗方案等。鉴于一些遗传疾病的复杂性,如果根据ACMG指南得到的结论是致病性的,但是当基因变异产生的表型与患者的真实临床表型不相符,此时就需重新分析,是否遗漏患者临床信息或者患者对自身病症有错误描述、测序数据是否可信、是否存在其他基因的共同作用等,不能只根据ACMG指南的致病性判断而产生基因变异与疾病/临床表型不匹配的结果。
基因检测报告可以辅助临床诊断,但其不能作为一个诊断报告,仅仅是一个参考数据。基因检测报告中一般涵盖主要的基因变异信息,繁多的变异位点容易给患者带来恐慌,建议将临床意义未明的变异进行备注,清楚写明这些变异可能造成的影响,那些与临床不相关的重要基因,可以不放入被检者报告中而作为原始数据发送给医生或患者作为参考。对于健康体检人群则要提前告知被检者,检测可能会发现与疾病相关的一些变异,但不代表一定会患病,其只仅仅反映了罹患某疾病的风险,以便于早采取干预措施,预防疾病的发生。
表1 SCN1A基因变异分析结果
现阶段基因检测行业普遍采用的是第二代测序技术,靶点多、通量高、数据量大、质控参数多,所以送检样本的测序深度和数据质量是把控重点。质量合格的样本、熟练的技术操作人员和每个操作流程规范化显得尤为重要。随着检测样本的增多,可以建立行业内的我国人口的基因变异与疾病共享数据库,积累基因变异信息,为后续的数据分析和疾病预防、诊断、用药指导、康复等提供便利。