孟航 ,马开军 ,董利民 ,李成涛 ,肖碧 ,许路易 ,黄平 ,谢建辉
(1.上海市现场物证重点实验室,上海 200083;2.上海市公安局物证鉴定中心,上海 200083;3.复旦大学法医学系,上海 200032;4.上海市公安局闵行分局,上海 201108;5.司法鉴定科学研究院 上海市法医学重点实验室 上海市司法鉴定专业技术服务平台,上海 200063)
年龄推断属法医人类学领域的范畴,是对个体年龄的刻画,常用于辅助刑事案件的侦查、刑事责任能力的认定、灾难事故中未知受害者年龄的判定等司法鉴定实务。此外,年龄推断在人民生活的其他方面也有广泛的应用,如社会福利的确认、体育运动员的选拔、体育比赛资格的核查、青少年入学和入伍等[1]。
随着现代分子生物学技术的迅速发展,法医学年龄推断的范畴已经不仅限于刑事案件、灾难事故中的受害者,更拓展至犯罪嫌疑人在现场所留下的生物检材,如血液、唾液、精液以及其他人体体液等,都可以为法医学者们所利用,以进行全面的“表观遗传学刻画”,如年龄推断、面貌刻画(脸型[2-3]、头发颜色[4-5]、虹膜颜色[5-6]、秃头[7])、皮肤颜色[8]、身高推断[9]等。
目前运用分子生物学技术进行年龄推断的方法主要包括DNA甲基化、端粒长度[10-14]、天冬氨酸外消旋[15-18]、线粒体中4977bp缺失[19-21]、T细胞受体删除环(T-cell receptor excision circle,TREC)[22-26]、糖基化终产物(advanced glycation end products,AGES)[27-29]、mRNA[30]等。目前,基于DNA甲基化推断年龄的研究被广泛开展[31-32]。
DNA甲基化是表观遗传的一种变化形式,个体发育和衰老都受到表观遗传变化的影响[33-34],而DNA甲基化是其中最重要的表现之一。DNA甲基化是哺乳动物细胞核苷酸的胞嘧啶中添加1个甲基(-CH3)至其5′碳(C5)上,主要发生在CpG位点,尤其是在CpG岛。在人类基因组中基因的甲基化率占70%~80%[35]。
目前,DNA甲基化在法医学中的应用主要体现在体液来源鉴定、年龄推断和同卵双胞胎鉴别等方面,其中对年龄推断的研究较为深入。研究结果[36]表明,DNA甲基化与年龄变化密切相关,人类基因组甲基化水平随着人年龄增高而不断降低。
1967年,BERDYSHEV等[37]最早研究DNA甲基化与衰老的关系。2013年,HORVATH等[38]提出了能体现人类衰老的“老化时钟”(aging clock)概念,并建立353个年龄相关的CpG位点组成的多组织年龄预测模型,从而奠定了使用DNA甲基化进行年龄推断的基础。在此之后,关于研究DNA甲基化与衰老机制,以及筛选年龄相关的甲基化位点、年龄相关性DNA甲基化位点在不同组织间的差异等研究逐步开展起来。DNA甲基化随年龄变化受多种因素影响,如生活方式[39]、吸烟[40]、酒精摄入量[41]、药物滥用[42]、饮食[43]、性别[44-46]、体育锻炼[47-48],甚至生育史[49]等。此外,DNA甲基化随年龄的改变还存在组织特异性差异,即不同类型的细胞中,甲基化模式各异。因此,基于DNA甲基化的年龄推断研究具有相对独立性,往往针对特定组织类型的生物检材,如血液、唾液、精液或其他类型的体液。
血液及其形成的血痕,是犯罪现场最为常见的生物物证。血液也是基于DNA甲基化年龄推断研究开展最早、研究最多、最为充分的生物检材[44,49-59]。美国学者HANNUM等[44]于2013年在Cell杂志上发表了全基因组甲基化谱与人类衰老率的相关研究,他们利用全基因组甲基化测试芯片,从全血的450 000个CpG中筛选出年龄相关的甲基化位点71个并建立模型,模型相关性为96.3%,预测年龄误差为3.88年。
近年来,有关DNA甲基化年龄推断的研究不断深入,目前研究方向已经由全基因组甲基化水平测定,逐步发展到针对特定随龄性甲基化CpG位点的甲基化程度的测定,后者更为简便,DNA甲基化检测成本更低,更利于在法医学实践中推广和运用。
德国WEIDNER等[49]于2014年通过亚硫酸氢盐焦磷酸测序技术分析了151个血液样品的DNA甲基化程度,筛选出3个包含随龄性甲基化CpG位点的基因(ITGA2B、ASPA和PDE4C),并且预测年龄与实际年龄平均绝对偏差(mean absolute deviation,MAD)小于5年。波兰学者ZBIEC-PIEKARSKA等[50]于2015年收集303份血样(2~75岁)的DNA甲基化数据(焦磷酸测序技术检测),并对ELOVL2基因的7个CpG位点数据进行分析建模,MAD为5.03年。在随后的另一项研究[51]中,研究人员分析了420例血液样本,从41个CpG位点中选取5个与年龄最显著相关的CpG位点(ELOVL2、C1orf132、TRIM59、KLF14、FHL2);模型的标准误(standard error,SE)为4.5年,而测试组的MAD仅3.9年。中国学者HUANG等[52]于2015年用焦磷酸测序方法筛选出ITGA2B_1、NPTX2_3和NPTX2_4共3个新的CpG位点,随后建立多元线性年龄预测回归模型,MAD为7.87年。中国学者XU等[53]于2015年选取11个年龄相关CpG建立了4种不同的模型(这些CpG分别位于ADAR、AQP11、ITGA2B、PDE4C基因),分别为多元线性回归、多元非线性回归、人工神经网络(artificial neural network,ANN)和支持向量回归(support vector regression,SVR)模型,结果发现SVR最为稳健。韩国学者PARK等[54]于2016年选取3个与年龄相关的CpG位点(位于ELOVL2、ZNF423和CCDC102B基因),后经焦磷酸测序平台对535例韩国人血液样本进行甲基化测定并建模,结果显示MAD为3.16年。西班牙学者FREIRE-ARADAS等[55]于2016年利用EpiTYPER技术,分析了ELOVL2、ASPA、PDE4C、FHL2、CCDC102B、C1orf132和chr16:85395429共7个与年龄相关的CpG位点,建立年龄推断模型,MAD为3.07年。日本学者HAMANO等[56]于2016年运用甲基化敏感的高分辨率熔解(methylation sensitive-high resolution melting,MS-HRM)技术,对22份活体血样和52份尸体血样的甲基化状态和实际年龄的非线性分布进行研究并建模预测年龄,结果显示,74份样本的训练集MAD为7.44年,30份样本的独立测试集MAD为7.71年。英国学者MAWLOOD等[57]于2016年运用EpiTect Methyl II PCR系统(德国Qiagen公司)比较年龄相关基因的启动子区域中CpG岛的甲基化水平,确定了4个年龄相关基因(NPTX2、KCNQ1DN、GRIA2和TRIM58),并检测了80例(18~91岁)女性血液DNA样本的甲基化程度,结果显示预测年龄与实际年龄之间绝对平均差异为7.2年。英国学者ALIFERI等[58]于2018年使用大规模平行测序(Illumina MiSeq)技术,对110例(11~93岁)全血样品中的12个甲基化CpG位点进行定量分析并建模,结果发现52%的样品预测误差小于4年,86%不到7年。韩国学者JUNG等[59]于2018年研究了150例韩国人血液样品中ELOVL2、FHL2、KLF14、C1orf132、MIR29B2C和TRIM59基因上5个CpG位点的DNA甲基化水平,并开发了多重甲基化SNaPshot测定法,该方法可以同时测量5个CpG位点DNA甲基化,所建模的MAD为3.48年。中国学者FENG等[60]于2018年收集390名中国北方汉族男性(15~75岁)的外周血样品,使用EpiTYPER系统对这些CpG位点的甲基化水平进行了测定,建立的最优模型MAD为2.89岁,经比较分析表明,支持向量回归、人工神经网络等模型的性能并不明显优于线性模型。
在犯罪现场,除了最常见的血液检材外,唾液和精斑等体液也经常遇到,尤其是在涉及性犯罪的案件现场中。因此,如果对这些检材进行年龄推断,就可以引导侦查工作指向性犯罪的实施者,故具有非常重要的价值。
韩国学者HONG等[61]于2017年收集226例韩国人(18~65岁)的唾液样本,并选取6个年龄相关的CpG(位于基因CNGA3、KLF14、TSSK6上)和1个唾液特异性CpG标记(来自PTPN7基因的cg18384097),应用多重甲基化SNaPshot技术进行测定,线性回归模型的MAD为3.13年。日本学者HAMANO等[62]于2017年收集197例日本人的唾液样本,选取ELOVL2为年龄预测标志物,使用MS-HRM技术进行甲基化测定,结果显示197例建模样本的MAD为5.96年。英国学者ALIFERI等[58]于2018年选取12个年龄相关甲基化CpG位点,使用大规模平行测序(Illumina MiSeq)的DNA甲基化定量测定技术分析了34个唾液样本,建模后测试发现,50%的样本误差小于4年、70%的误差小于7年。韩国学者JUNG等[59]于2018年研究了来自唾液和口腔拭子样品中的5个CpG的DNA甲基化水平(这些CpG来自ELOVL2、FHL2、KLF14、C1orf132、MIR29B2C和TRIM59基因),建模测试后发现,MAD分别为3.55年(唾液)和4.29年(颊部棉签涂取物)。韩国学者LEE等[63]于2018年选择3个CpG(TTC7B基因中的cg06304190、NOX4基因中的cg12837410和cg06979108),开发了基于韩国人群精液中DNA甲基化模式的年龄预测模型,其MAD为4.8年。
DNA甲基化年龄推断的研究随着检测手段、检测平台的发展而发展,从2013年开始,甲基化检测从全基因组检测到特定基因的CpG位点检测,目前主要的研究平台有焦磷酸测序[51]、EpiTyper[55,64]、HRM[65]、SNaPshot[59]、大规模平行测序(massively parallel sequencing,MPS)[67]等。
选择用于DNA甲基化检测技术平台时要考虑分析所需的DNA的量和质,方法的准确性、可靠性、简便性以及检测流程所需时间和费用等关键因素[68]。不同的平台都有其优缺点,如常用的EpiTYPER®质谱技术,是一种定量方法,可以实现对单CpG的检测,并且通量高[69],使用专用软件工具,通过比较甲基化和非甲基化之间的质量信号强度来计算DNA甲基化水平。但是,该技术不能分开相同大小的分子,并且不太适合设备检测质量窗口(相对分子质量1 000~7000)以外的那些分子[55]。
SNaPshot检测法原本是为SNP分析而开发的一种方法,也可以用于对DNA甲基化的检测,其原理是初始DNA样本经亚硫酸氢盐转化后,通过单核苷酸引物延伸来分析CpG位点的甲基化程度[70]。优点是能利用现有生物物证实验室的设备,而且该方法具有多通路、高灵敏的特点。缺点是对DNA甲基化测量的准确性不高,只能做到半定量,检测周期长(2~3d),这些限制了该技术在实际案件中的应用。
MS-HRM可以得到该基因整体甲基化程度的近似平均值[71-72]。这种方法仅需实时定量PCR(quantitative real-time PCR,qPCR)仪,且具有简便、快速、成本低、有效防止污染的特点。日本学者HAMANO[56]使用此技术对血液样本进行了研究,构建了年龄推断模型。ANTUNES等[73]描述了MS-HRM在法医学领域内的应用潜力。但是,这种方法也有很多缺点,如会产生PCR偏倚、结果不太精确、不能针对于特定的CpG位点进行检测。这些缺点限制了这项技术在法医学领域中的应用[56]。
自从2018年开始,应用MPS进行DNA甲基化的研究开始出现[66-67]。MPS具有高检测通量的特点,但到目前为止,这种检测手段尚未大规模应用,可能与成本高昂有关。另一方面,MPS的数据分析程序需要专业人员,检测时间也较长。
焦磷酸测序技术可以对单个表观遗传基因座相关的CpG位点的甲基化程度进行定性和定量分析,并且对每个CpG位点甲基化程度测量精度都相对较高[73]。TOST等[74]报道了定量焦磷酸测序法,此法重复性好。在亚硫酸氢盐处理和(或)PCR反应相同的情况下,甲基化结果的不同仅为5%。
与大多数DNA甲基化检测技术需要大量DNA样本相比较,焦磷酸测序可以用少至10 ng(前修饰)和2.5ng(修饰后)的DNA样本量来进行检测[50,75]。已有研究[76-77]表明,焦磷酸测序敏感性高(低至50~100 pg的DNA,大小取决于基因座),更为重要的是此方法适用于那些存在降解、受污染等有“瑕疵”的DNA样本。因此,这种技术是目前评估DNA甲基化水平最可靠的方法,简单、易用、成本相对较低、具有时间效率(焦磷酸测序只需要2~4h[66]),并且相对容易,适用于法医学实验室[54]。值得注意的是,焦磷酸测序将来有可能实现复合扩增检测分型,以进一步简化操作流程并降低技术分析的成本[78]。
在构建DNA甲基化年龄推断的模型方面,近年来法医学研究者们尝试了多元线性回归、支持矢量的模型、基于最小二乘算法的模型、非线性回归模型、基于ANN算法的模型等,并比较了不同模型的年龄推断准确度[79-80]。应用最广泛的是线性回归建模,包括多元线性回归模型[54]、单变量线性回归模型[56,61]。此外,还有许多非线性建模的方法,如多元非线性回归模型[53]、多元分位数回归模型[55,64,79]、加权最小二乘回归模型[79]、普通最小二乘回归模型[79]、支持矢量回归模型[53]、基于ANN算法模型[80]和基于随机森林回归算法模型[81]等。目前主要的模型种类及建模方法见表1。
表1 近年来DNA甲基化年龄推断研究的建模方法
由表1可知,研究人员考虑了研究样本统计建模方法。例如,在处理非常数、非正态分布的统计学数据时,SVR模型的年龄推断准确性似乎表现得更好[79],支持矢量模型的误差相对于线性回归较小[53]。最近,有学者[81]报道,基于ANN算法的模型在年龄推断方面优于“标准”的多元线性回归模型,其中的原因迄今为止尚不清楚。但是,近期对中国样本的研究结果[60]显示,基于SVR、ANN等模型的性能并不明显优于线性回归模型。此外,基于焦磷酸测序平台的研究大多数是采用线性回归模型,而且推断精度也较高[50-52,54],原因可能是线性回归模型可以最大程度地保留原始数据包含的统计学信息,尤其在对低样本量数据进行统计建模的情况下。
在法医学实践中,现场提取的生物物证有时属于微量物证,因此甲基化检验需要考虑各种检测方法的灵敏性。
按照目前主要的DNA甲基化检测方法,在进行DNA甲基化检测之前,所提取的原始DNA都需要进行亚硫酸氢盐转化,其原理是用亚硫酸氢钠(NaHSO3)对样品DNA中的胞嘧啶残基进行化学变性,使其中未甲基化胞嘧啶通过水解脱氨作用转化为尿嘧啶(U),而甲基化的胞嘧啶却保持不变。随后,在PCR扩增期间,由于DNA聚合酶不能识别那些尿嘧啶,尿嘧啶被替换为胸腺嘧啶(T),这个过程相当于为每个非甲基化CpG位点创建一个C/T变异[82]。
虽然这个过程在90年代早期彻底改变了整个表观遗传学的研究,但直到今天在亚硫酸氢盐转化的过程中,DNA片段化和DNA丢失的问题仍没有很好地解决[83]。因此,大多数试剂盒需要高水平的DNA量才能实现最佳转化(通常200~500ng)[84],而在法医学实践中并非总能满足要求。近年来,虽然研究人员已经努力改进这种方法,如提升经亚硫酸氢盐处理后的DNA质量[85]、提升亚硫酸氢盐转化效率[86]等,但仍不理想。
表2 近年来DNA甲基化年龄推断的研究
随着技术的不断优化,甲基化分析所需要的DNA初始量在不断减少,表2列出了近年DNA甲基化年龄推断研究的DNA初始需要量。据报道,在PCR阶段使用低至10 ng的DNA已经取得了很高的预测准确度[50,81]。有研究[56,87]报道,在相同的预测准确度下,有希望在结果阶段使用20ng DNA。2018年,ALIFERI等[58]利用MPS研究DNA需要量(亚硫酸氢盐转化之前50、25、10和1ng),结果显示,50ng的DNA效果最佳,定量误差和高预测精度的DNA模板量在1~10ng。随着技术发展,尤其大规模平行测序应用推广后,DNA甲基化的检测灵敏度将会进一步提升。
虽然目前主流的DNA甲基化分析技术仍局限于亚硫酸氢盐转换的方法,但最近有报道[67],使用纳米孔测序技术,可以不需要亚硫酸氢盐转化过程,直接检测DNA甲基化。
此外,还有第三代PCR技术——液滴数字PCR(droplet digital PCR,ddPCR)[89-90],最近在中国青少年人群中得到了成功应用[1]。这项技术的主要优点是可以实现甲基化检测的数字化,灵敏度和准确度均很高,对检测低甲基化程度非常有效(<5%),但目前也需要进行亚硫酸盐转化。
随着DNA甲基化年龄推断的研究,年龄推断的精确度、灵敏度、可靠性越来越高,而所用时间、检验成本越来越低。在未来,这一技术将在法医学实践中得到广泛应用。