拷贝数变异及其在法医学中的研究进展

2020-11-29 09:27徐倩南张佳怡李成涛刘希玲
法医学杂志 2020年2期
关键词:拷贝数法医学变异

徐倩南 ,张佳怡 ,李成涛 ,刘希玲

(1.四川大学华西基础医学与法医学院,四川 成都 610041;2.司法鉴定科学研究院 上海市法医学重点实验室 司法部司法鉴定重点实验室 上海市司法鉴定专业技术服务平台,上海 200063;3.内蒙古医科大学法医学教研室,内蒙古 呼和浩特 010030)

在司法鉴定实践中,已有多种生物学遗传标记应用于个体识别及亲权鉴定,如短串联重复(short tandem repeat,STR)序列、单核苷酸多态性(single nucleotide polymorphism,SNP)和插入/缺失(insertion/deletion,InDel)等,上述遗传标记已经拥有相对成熟的检测系统和计算方法。随着法医学研究的逐步深入,出现了一些新型的有潜在应用价值的遗传学标记,如拷贝数变异(copy number variation,CNV)、DNA甲基化(DNA methylation)等。其中,CNV因其基因组覆盖范围广泛,在人群中普遍存在,具有相对稳定性等特点,已被越来越多的科学家关注。本文对CNV概念和近年来的研究发展及其在法医学中的应用进行阐述,为今后CNV的实际应用提供新的思路与方向。

1 CNV的概念与发展

1.1 CNV的概念与形成机制

1936年,美国科学家BRIDGES[1]在一项关于果蝇眼睛大小的研究中发现,X染色体上Bar基因加倍的果蝇会发育出小眼相对较少的棒眼(也称为Bar eye)突变型,从而提出了基因拷贝数变异的概念,并推测其导致的基因不同剂量效应对果蝇眼睛大小发育的影响。进入80年代后,发现人类基因组上存在多种类型的结构变异,这些结构变异对疾病发生发展的影响也相继被报道[2-5]。例如,1980年HIGGS等[2]研究发现,α-globin基因拷贝数异常增加将导致β-地中海贫血(β-thalassemia)。随后十几年,在红绿色盲(redgreen color blindness)[3]、糖皮质激素可治性醛固酮增多症(glucocorticoid-remediable aldosteronism)[4]以及阿尔茨海默病(Alzheimer disease)[5]等多种疾病的研究中也发现了基因拷贝数变异对疾病发生的影响。

早在十几年前,随着人类基因组图谱的公布以及基因组测序技术的发展,科学家开始认识到在人类基因组水平上广泛存在着这一类拷贝数的变异。2004年,IAFRATE等[6]和SEBAT等[7]几乎同期的两项研究在人类基因组中描述了这一结构变异并将其定义为CNV。CNV是一种长度从50bp到数Mb的DNA片段拷贝数的变异。CNV属于结构变异的一种,其组成形式呈现多样化,主要包括DNA片段的扩增、缺失、插入以及倒置等[8]。CNV还常涉及增加或减少DNA含量的不平衡重排[9-10]。

CNV的形成被认为主要来源于同源突变和非同源突变[11]。研究[12]发现,由同源突变机制形成的CNV常存在于重复序列区域附近且片段较大,而非同源突变机制形成的CNV则呈现相反的情况,即片段小且距离重复序列区域远。由于CNV计算预测算法以及测序的局限,存在于重复序列区域附近的CNV片段边界的界定和确认显得更为困难[13]。

1.2 CNV图谱

2006年,REDON等[9]基于HapMap的人群数据公布了人类基因组第一代CNV图谱,其中包含1 447个CNV区域,覆盖了人类基因组的12%。随后几年的研究集中在对人类CNV图谱的优化以及对其潜在功能的推测。2007年,MCCARROLL等[14]利用更高密度SNP芯片(affymetrix genome-wide human SNP array 6.0)对HapMap中270名健康个体的重新分析表明,CNV在人类基因组上覆盖的物理长度可能小于REDON等[9]的前期报道,其中大片段的CNV(大于50kb)影响了约5%的基因组序列。研究同时还指出,CNV在形成过程中,扩增比缺失更为常见,这种现象的发生可能与大片段缺失对后代的生存造成更严重的影响相关。此外,他们在染色体上的分布被发现主要集中在近着丝粒和亚端粒等区域。这项研究还揭示了大部分CNV遵循孟德尔遗传定律,在人群之间的传递也符合Hardy-Weinberg平衡定律。该项研究参照SNP的定义,将群体中频率高于1%的CNV定义为拷贝数多态性(copy number polymorphism,CNP),90%以上的CNV归为此类;群体中频率小于1%的CNV定义为罕见CNV。与SNP相似的是,一些CNV的频率在不同人群中具有显著差异[9,14]。同年,SCHERER 等[15]从少于1 000个健康个体的基因组数据中发现CNV约占538 Mb,覆盖了约18.8%的常染色体基因组。de SMITH等[16]通过高分辨率芯片技术在50个来自法国的健康白人男性中鉴定出2 208个CNV,这些CNV分布在1469个区域,被定义为拷贝数变异区域(copy number variation region,CNVR),其中包含721个新的CNVR。这些CNV大多数为小片段,并且大多数拥有共同的边界范围。该项研究还发现了2570个具有重要生物学意义的基因与这些CNV中接近一半的区域密切相关,从而提示CNV可能与个体表型的改变以及复杂疾病的发生相关。2010年,CONRAD等[17]联合多国研究团队利用芯片技术和HapMap计划中的样本在人类基因组中鉴定出了11700个CNV并识别了30个与疾病易感性密切相关的CNV区域。2011年,借助千人基因组计划中的185个个体的基因组数据,MILLS等[18]在人类基因组中鉴定出了超过2万个CNV,其中包括6000个新的CNV。这项研究还揭示了来自不同形成机制的CNV在片段上存在明显差异。

CNV覆盖范围的差异可能与不同检测方法、研究对象数量差异以及研究对象本身个体存在的差异密切相关。尽管在人类基因组上被报道的CNV个数远远小于SNP的个数,但上述研究显示他们在染色体上覆盖的长度至少达到上百Mb,这远远大于SNP所占染色体的长度,提示CNV在遗传多样性和进化中的重要作用。总体来说,CNV具有组成形式多样化、基因组覆盖范围广、相对稳定性、高度异质性以及可遗传性等特征。所有这些关于CNV图谱的研究使人们对CNV的认识越来越深刻,也为今后研究CNV对个体表型和疾病发生发展以及在其他领域的作用提供了重要基础。

1.3 作用机制

自20世纪80年代开始,大量研究发现CNV可通过调节不同剂量基因含量从而导致不同程度的基因表达差异,进一步对疾病发生发展产生影响[2-5]。进入21世纪以来,基于高通量芯片技术的全基因组关联分析也显示,CNV与多种疾病的发生发展密切相关[19],包括自闭症[20-21]、精神分裂症[22-24]、骨质疏松症[25]等。这类CNV全基因组关联分析尽管可以提示CNV与相关疾病的潜在联系,但并不能区分CNV是通过基因的剂量效应还是通过改变染色体结构影响疾病发生发展的。2007年,STRANGER等[26]通过分析HapMap计划中的DNA变异与基因表达的关系时发现,在所检测出的SNP中83.6%与基因表达密切相关。同样,在所检测出的CNV中17.7%与基因表达密切相关,从而提示这些序列变异和结构变异位点对个体表型的潜在影响。近年来,随着染色体三维结构检测技术的发展,人们逐渐发现CNV在染色体位置上不仅造成了单纯的线性改变,还影响了染色体的空间结构,进而导致复杂的表型或基因型改变。由美国国立卫生研究院(National Institutes of Health,NIH)资助的Roadmap Epigenomics计划在研究基因组内活跃区、静止区和抑制区以及他们在基因调控中的作用过程中可以更加精准地判断CNV的存在对于个体的影响[27]。CNV可通过影响顺式作用元件而调节距其远达几百kb的基因,也可以通过改变染色质上的拓扑关联区从而改变基因调控区,并进一步影响基因的转录和翻译,使得其相应的功能增加或丧失。这类研究中有一个值得注意的问题是CNV常与SNP相关联,因此后续研究需要进一步区分到底是CNV还是SNP,或者是他们的共同作用影响了基因表达的调控[28-30]。

1.4 常见的CNV检测技术与方法

自首次发现CNV以来,关于CNV的检测方法已日趋成熟,其中常用的检测技术有SNP芯片技术和比较基因组杂交(comparative genomic hybridization,CGH)技术。王艳等[31]使用SNP芯片技术检测了自闭症儿童的CNV情况,对45例核型未见异常的患儿检测后共发现了7个致病性CNV,包括4个微缺失和3个微重复。陈晓丽等[32]使用基于微阵列的比较基因组杂交(array-based comparative genomic hybridization,aCGH)方法检测了智力低下或发育迟缓患儿中的CNV。以111例患儿基因组DNA为样本,结果在28例中发现了36个罕见CNV,其中66.1%(22/36)为已报道过的CNV,由此指出aCGH在提高此类疾病的诊断水平上具有较大的帮助。2011年,PARK等[33]在高分辨率aCGH数据的基础上发展出了一种可以同时检测来自正常人群基因组多个样本中CNV的方法,即基于多样本的基因组变异探测器(multi-sample-based genomic variations detector,MGVD),与现有的检测方法相比,MGVD表现出高敏感性和低假阳性率。除上述研究外,这两项技术也在其他研究中被报道[34-36]。有报道[37]指出两种方法的分辨率还有待提高,如美国Affymetrix公司和美国Illumina公司的高通量SNP芯片,其分辨率为10~40 kb,通过加入非多态性探针以检测未被SNP覆盖的存在CNV区域的方法可提高SNP芯片分辨率。而aCGH的分辨率为5~10 Mb,这使其检测平衡的染色体重排和嵌入型个体时显得无能为力,但是在使用公共领域的人类基因组计划(Human Genome Project,HGP)中的数据资源分析aCGH数据后,其分辨率可以得到很大的提高。此外,随着二代测序(next generation sequence,NGS)技术的发展,应用NGS检测CNV已具备相对完善的条件。2009年,XIE等[38]使用高通量测序的方法-拷贝数变异测序(copy number variation sequencing,CNV-seq)对CNV进行检测,CNV-seq是一种基于鸟枪法测序的技术,以统计学模型为理论支撑计算所检测的CNV的可信度。相对aCGH来说,CNV-seq具有测序时间短、费用低的优点,检测得到的数据可根据目的不同反复利用,而基于芯片技术所得到的数据则只能针对某一特殊用途。但基于短阅读框的NGS对于含有重复序列的CNV片段检测能力不足,而基于长阅读框的NGS虽然可以解决此种问题,但价格昂贵[15]。

检测技术的多样化使得不同平台之间的检测结果可能产生差异。有报道[15]指出,即便是同一样本,在不同平台检测时,也可能出现不同的结果,这与平台的敏感性、特异性以及探针的密度和类型等相关。分辨率较低的平台将导致大片段的CNV比小片段CNV更易被检测到,从而丢失部分小片段CNV信息。因此,在使用这些技术进行CNV检测时,应注意根据实验需求选取合适的检测方法。

2 CNV的法医学应用与思考

2.1 同卵双生子前期研究

同卵双生子是由一个受精卵分裂发育而成的双胞胎,两者理论上具有完全相同的基因组。因此,使用法医学经典的STR和SNP等遗传标记均不能对其进行有效甄别,这使得寻找新的遗传标记用于甄别同卵双生子显得十分必要和迫切[39]。2000年,LIN等[40]发现CNV不仅在患病个体中存在,在健康个体中也同样可能存在,其涉及的区域包括控制嗅觉感受器、主要组织相容性复合体Ⅲ、β防御素抗菌基因簇等基因家族或基因簇。2008年,BRUDER等[41]以19对同卵双生子(包括10对健康同卵双生子)作为研究对象,使用DÍAZ de STÅHL等[42]确立的Human 32K BACBased Array Platform和HumanHap 300 Duo Genotyping Beadchip(美国Illumina公司)两大芯片系统对外周静脉血中DNA的CNV进行检测时,发现无论同卵双生子表型是否一致,CNV均存在。这些研究表明,在健康的同卵双生子个体中CNV依然存在,为基于CNV甄别同卵双生子提供了理论基础。近年来,以同卵双生子作为研究对象进行有关CNV的研究也越来越多。例如,2012年,VEENMA等[43]以同卵双生子为研究对象研究CNV与先天性膈疝(congenital diaphragmatic hernia,CDH)和食管闭锁(esophageal atresia,EA)两种疾病的关系时,发现EA发病情况不同的同卵双生子所携带的CNV也存在差异,数据还显示,在EA组发现10个生殖细胞系CNV以及少量SNP位点。2015年,ABDELLAOUI等[34]从1 097对年龄分布在0~79岁的同卵双生子的血液或口腔拭子所提取的DNA中共检测到556个CNV,且发现来源不同的DNA中CNV的一致性存在显著的差异。

这些研究揭示了同卵双生子之间存在明显的CNV差异。对于CNV是否可以作为甄别同卵双生子的一个有效手段,还有待进一步研究,比如比较不同人群中CNV的分布,CNV在不同组织以及不同环境下的稳定性等。随着高通量测序技术的发展以及相应检测工具的优化,CNV的检测方法也将日趋成熟,高精度扫描同卵双生子全基因组序列并绘制同卵双生子间的精细CNV图谱将为评估CNV用于法医学同卵双生子甄别提供坚实的技术保障。

2.2 组织特异性相关研究

近十年来,法医学组织来源推断多以RNA和DNA甲基化方面的研究居多[44-51]。但最近CNV也呈现出推断组织来源的可能性,2015年,ABDELLAOUI等[34]在研究同卵双生子之间CNV的同时也揭示了CNV在组织间的明显差异。2018年,ZUBAKOV等[52]的一项研究提示了CNV存在识别不同组织来源的可能性。此项研究通过结合全基因组CNV检测技术以及实时荧光定量聚合酶链反应(real-time quantitative polymerase chain reaction,qPCR)验证技术筛选出一些血液和精液特异性CNV标记。初步验证实验表明,对于低至pg级的DNA,成熟的qPCR实验依然能获得阳性结果,这说明此项技术具有相当高的灵敏度。后续研究将CNV qPCR产物用于常规STR分型时也得到了完整分型结果,这使得使用同一DNA样本同时进行组织来源判断和个体识别成为可能。此外,这种CNV标记对于陈旧检材、冷冻检材的组织鉴别也同样适用,通常在这些情况下,由于DNA总量和质量的限制,获得的DNA提取物不适合使用RNA或DNA甲基化分析来判别组织来源。这项突破性研究为法医学检材组织溯源指明了新方向。

2.3 CNV对STR遗传标记的影响

STR作为法医学目前最为常用的生物学遗传标记,被认为是进行个体识别及亲权鉴定的金标准。然而由于CNV普遍存在于人类基因组中,因此若存在缺失或插入的CNV序列包含有STR基因座,那么将直接对STR检测结果产生影响,如在亲权鉴定中,父方STR基因座由于包含在CNV序列中而形成缺失,那么子代相应的STR基因座将呈现出完全来源于母方的纯合现象[53]。因此研究CNV与STR之间具体的联系是十分必要的。到目前为止,仅有2013年的1篇报道[54]研究了CNV与STR之间的联系,他们分析了32 850个用于做诊断性aCGH的样本,除采用aCGH外还使用了荧光原位杂交技术,以此检测CNV序列是否包含13个DNA联合索引系统(combined DNA index system,CODIS)STR基因座和性别遗传标记(Amelogenin X,AMELX和Amelogenin Y,AMELY),结果发现32个样本中含有常染色体STR的CNV序列,这些位于CNV序列中的常染色体STR分别是TPOX(2p25.3)、FGA(4q32.1)、D7S820(7q21.11)、TH01(11p15.5)、vWA(12p13.31)、D13S317(13q31.1)、D16S539(16q24.1)和D21S11(21q21.1),12个样本含有AMELX或AMELY的CNV序列。此研究证实了在一些个体中部分STR基因座确实存在于CNV序列中,这将严重干扰其STR的成功分型,因此进一步深入剖析STR基因座与CNV的关联显得尤为重要,这将为法医学STR分型提供更有价值的参考信息。

3 展望

CNV在法医学中的研究多集中在同卵双生子甄别方面的应用上,近期的研究也提示了其作为新的DNA分子标记应用于法医学生物检材组织溯源以及人体表型特征识别[55]的优势和可能性。作为一种在不同个体、同一个体不同组织之间具有特异性并且可遗传的DNA分子标记,随着高通量测序技术和计算分析技术的进步,我们有理由相信会有更高精度的CNV在不同个体以及同一个体不同时空中被检测到。今后,CNV在法医学其他领域,如复杂亲缘关系识别中的应用,也有望通过更多后续研究被评估。

猜你喜欢
拷贝数法医学变异
线粒体DNA基因组不稳定性在肝细胞癌中的研究进展
线粒体DNA拷贝数在儿童脑性瘫痪患者中的表达及临床意义
变异
OsRhoGDI2过表达转基因水稻的筛选鉴定及外源基因拷贝数的初步分析
留学教育与近代法医学的建立
法医学:解密那些“不可告人”的细节
关于我国法医学人员培养制度的困境与改革
变异的蚊子
病毒的变异
揭露真相的“医生”