(河北医科大学法医学院,河北 石家庄 050017)
尽管各国法庭科学DNA数据库已极大发展,但现场生物检材与库中数据比对为零的情况仍时有发生。如果能够通过科学方法从生物检材中获取年龄等个体信息,可以为案件侦破提供重要线索。自从HORVATH[1]提出“表观遗传时钟”,即353个CpG位点的年龄推断模型,利用DNA甲基化准确推断年龄成为现实。DNA甲基化由属于DNA甲基转移酶(DNA methyltransferase,DNMT)家族的酶调节,其将甲基从S-腺苷-1-甲硫氨酸(S-adenosylmethionine,SAM)转移至胞嘧啶嘧啶环的5-位[2]。一般而言,随着个体逐渐变老,DNA低甲基化在整个基因组中的分布增加(影响启动子、外显子、内含子和基因间区域),而年龄相关高甲基化位点更具体地定位于某些启动子中的CpG岛[3]。笔者总结了近年来对DNA甲基化推断人类年龄的研究成果,为进一步研究提供参考。
通常认为,DNA甲基化(DNA methylation,DNAm)具有组织特异性,但是这种特异性的表现形式还不明确。SEHL等[4]使用“表观遗传时钟”推断健康女性乳腺组织和外周血的DNAm年龄,发现乳腺组织的DNAm年龄显著高于外周血,并且二者的绝对差异随年龄增长逐渐减小。在血液中,位于CpG岛上的CpG位点的甲基化水平随年龄增长而升高,而在乳腺组织中,位于CpG岛外的CpG位点的甲基化水平与年龄正相关。这些结果表明,血液和乳腺组织的DNAm年龄和甲基化模式存在差异。SLIEKER等[5]认为大多数年龄相关差异甲基化位点(age-related differentially methylated position,aDMP)仅出现在一种组织中,甚至aDMP所位于的功能基因组区域和距离CpG最近的基因表达都具有组织特异性,且不同组织中aDMP的数量差异很大,随年龄的变化率(甲基化变化值与时间的比值,多以变化值/10年为单位)也不相同,然而并没有发现年龄相关DNA甲基化位点所在的基因表达发生改变,说明这种甲基化变化对基因功能影响不大。
而ZHU等[6]认为SLIEKER等[5]的研究存在一些问题,如仅使用甲基化变化率筛选位点容易受到β值方差不齐、选择偏倚等混杂因素的影响(如不易选出β值比较接近0或1的位点),筛选共享aDMP使用的Bonferroni阈值过于严格,会产生较高的假阴性率,并且在一些复杂组织中没有分离不同类型的细胞,仅使用甲基化变化速度阈值会少识别很多aDMP,导致DNA甲基化位点具有很强的组织特异性。因此,ZHU等[6]使用了两种显著性阈值[FDR(false discovery rate)阈值和Bonferroni校正],并且评估了aDMP之间t统计量的一致性,发现大多数aDMP同时存在于几种血细胞中,并且在血液、口腔黏膜、子宫颈细胞之间有许多相同的aDMP。估计至少有70%的aDMP是两种或以上的细胞或组织共有的,aDMP的组织特异性在于其甲基化值在不同组织中变化的方向和速率不同。同时证明了筛选3种不同组织中共有的aDMP,至少需要数百个样本。EIPEL等[7]使用在血液中已开发的3个CpG位点模型计算口腔拭子样本的DNA甲基化年龄,与实际年龄相比平均高估了14.6岁;使用这3个位点重新训练模型,训练组平均绝对误差为4.3岁,验证组平均绝对误差为7.03岁。NAUE等[8]发现ELOVL2、DDO1、KLF14、TRIM59、ZYG11A、RPA2和NKIRAS2基因在所研究的5种样本(全血、大脑、骨骼、肌肉和口腔拭子)中都表现出年龄相关性,只是这些位点在不同组织中甲基化水平随时间改变的回归直线存在差异。这些研究也都说明了aDMP的组织特异性在不同组织中变化的方向和速率不同。NAUE等[8]还提出一种假设:“白细胞污染”的量决定了其他组织与血液在年龄推断方面的相似程度。LI等[9]将从血液中筛选出的6个CpG位点应用于唾液甲基化检测中,两种样本之间的甲基化年龄与实际年龄的平均绝对误差相似。ALIFERI等[10]使用唾液样本和精液样本,将精液样本中精子和上皮细胞分离,将唾液的DNA甲基化值应用于全血样本推断模型(平均绝对误差为4.7岁)中,得到的平均绝对误差为7.3岁,与血液样本相比,误差增加较小,表明有可能开发血液和唾液通用的模型。但是这些位点在所有精子样本的甲基化程度均为0,无法使用精子DNAm推断年龄。然而,JENKINS等[11]在先前的研究中成功分离了精子和体细胞,并得到了精子的甲基化数据,使用这些数据建立了精子DNA甲基化年龄推断模型,平均绝对误差为2.04岁,并且在另外10个独立样本中进行了技术验证和重复性测试,平均绝对误差为2.37岁,同一样本的几次重复之间标准差为0.877岁,结果具有较强的重复性。
JUNG等[12]验证了血液、唾液和口腔拭子共448个样本中ELOVL2、FHL2、KLF14、C1orf132/MIR29B2C和TRIM59基因的5个CpG位点。ELOVL2、KLF14和TRIM59基因的CpG位点在3种样本中都显示出了DNA甲基化与年龄的高度相关性。FHL2和C1orf132/MIR29B2C基因中的CpG位点在血液和唾液中DNA甲基化与年龄高度相关,而在口腔拭子中表现为中等相关性。对3种样本分别建模,在血液模型中,训练组平均绝对误差为3.174岁,均方根误差为3.876岁,验证组平均绝对误差为3.478岁;在唾液模型中,训练组平均绝对误差为3.291岁,均方根误差为4.106岁,验证组平均绝对误差3.552岁;在口腔拭子模型中,训练组平均绝对误差3.822岁,均方根误差4.551岁,验证组平均绝对误差4.293岁。然后又将3种样本一起建模,训练组平均绝对误差3.553岁,均方根误差4.430岁,验证组平均绝对误差3.844岁。最后分别计算了模型中3种样本的平均绝对误差,与各自模型中的平均绝对误差相似。
总 的 来 说,ELOVL2、KLF14、ASPA、TRIM59、NHLRC1、SCGN、CSNK1D表现出了较好的跨组织推断年龄的能力,在更多的组织中验证这些基因中的CpG位点并继续筛选可用于多种组织以推断年龄的基因位点是今后的研究重点。
法医学鉴定实践中经常要面临降解检材和微量物证,这就需要验证DNA甲基化检测能否应用于这些检材。LEE等[13]使用甲基化SNaPshot对亚硫酸氢盐转化后的10、5、2.5、1.25、0.625、0.312 5 ng的DNA进行灵敏度检验,结果显示,使用>5ng的转化后DNA可以得到可靠一致的结果;使用鉴定案件中的样本(保存时间3个月~7年)进行法医学应用研究,亚硫酸氢盐转化后的DNA量为1.97~12.8ng,推断年龄与实际年龄的平均绝对偏差5.2岁,均方根误差6.1岁。有研究[10]使用大规模平行测序发现,10 ng的起始DNA量(约2ng的转化后DNA量)可以保持较高的准确性,某些位点如cg07158339、cg0693994和cg20692569在1 ng的起始DNA量时仍可保证测定准确性。HONG等[14]评估了其开发的多重甲基化SNaPshot方法的灵敏度,使用10ng基因组DNA或4ng亚硫酸氢盐转化后DNA获得的结果与较高模板DNA量得到的推断年龄结果一致,使用2 ng或更少的亚硫酸氢盐转化后DNA出现等位基因丢失。
HAMANO等[15]比较了活体血液和尸体血液的甲基化年龄推断,发现二者并没有显著差异。
在白骨化的尸体中,只能获得骨骼和牙齿作为生物检材,从其中获得生物信息尤为重要。NAUE等[8]首次使用骨骼(来源于尸体检验,无腐败迹象)DNA的甲基化进行年龄推断,很多标记都显示了很强的年龄相关性,RPA2、DDO、KLF14甚至超过了血液。GIULIANI等[16]根据牙齿(取自活体)的组织结构分别建立了牙髓模型(13个CpG位点)、牙本质模型(5个CpG位点)、牙骨质模型(8个CpG位点)以及包含牙骨质和牙髓两种组织的模型(8个CpG位点),推断年龄与实际年龄误差中位数分别为2.25、7.07、2.45、1.20岁,但是当从整颗牙中提取DNA时发现只有1个CpG位点的甲基化水平与年龄相关。
综上,不同甲基化检测技术的灵敏度存在差异,使用5ng以上的亚硫酸氢盐转化后DNA可以得到较为可靠的结果。降解检材的DNA片段变短,某些位点在设计扩增引物时只能得到较长的扩增片段,应该尽量避免这类位点。对扩增引物进行优化,尽量缩短扩增片段也可以提高DNA甲基化检测的灵敏度。
目前,检测DNA甲基化的方法有多种,如焦磷酸测序[12]、甲基化 SNaPshot[12]、Illumina 27/450k 阵列[17]、MPS[18]、EpiTYPER[19]等。但是由于每种平台之间的技术差异,导致测定的甲基化水平也有所不同,如甲基化SNaPshot测得的甲基化水平高于焦磷酸测序[12,18],因此基于某种平台开发的DNA甲基化年龄推断模型并不适用于另一种平台。在基于450k阵列数据建立的广义回归神经网络模型使用二代测序获得的甲基化数据,平均绝对误差增加了3岁以上[10,20]。将甲基化SNaPshot数据应用到基于焦磷酸测序数据建立的模型中,平均绝对误差由3.384岁增加到4.368岁[12]。将焦磷酸测序数据应用到基于EpiTYPER数据开发的模型中,平均绝对误差约增加2岁,±5岁的准确率和±6岁的准确率都下降了约20%[19]。将二代测序数据应用到基于甲基化SNaPshot开发的模型中,平均绝对误差和均方根误差甚至增加了20岁以上[18]。
有研究[8,19]使用z-score转换来减小不同平台之间的差异,也有研究[20]在机器学习中加入额外的变异层,但是效果都不太理想,并且应用z-score转换有诸多条件。HONG等[18]在模型中引入“平台变量”,新模型在包括两种数据的验证组中的平均绝对误差为3.19岁,均方根误差为4.03岁,平均绝对百分比误差为8.89%;并且如果平台增多,只需要增加平台变量就可以建立新的模型;使用MPS、SNaPshot和450k阵列3种平台的DNA甲基化数据建立的新模型的平均绝对误差为3.62岁,平均绝对百分比误差为9.36%,成功消除了不同平台间的差异。
通常使用的普通最小二乘法回归模型基于几个假设,其中包括方差齐性和线性。然而由于表观遗传衰老速度的个体差异,推断误差随着年龄的增长而增加,表现为方差不齐。已有研究[21]发现年龄相关CpG位点甲基化水平随年龄变化的非线性模式。
SMEERS等[22]比较了普通最小二乘法、加权最小二乘法和分位数回归三种线性回归模型,在模型中增加了相应变量的二次项。三个模型的平均绝对误差都接近3.20岁(相差小于0.06),均方根误差都在4.60岁左右,主要差异是在加权最小二乘法和分位数回归模型中,推断区间随年龄增加而变大,在普通最小二乘法回归中所有年龄段的推断区间保持不变。其他关于线性方法的研究,如FREIRE-ARADAS等[23]建立的分位数回归模型和FENG等[19]建立的逐步向后回归法也获得了较高的准确性。自从VIDAKI等[20]首次将机器学习方法应用于法医学年龄推断,许多研究开始使用这一方法。在大样本量的研究中,机器学习方法与线性回归相比展示出极强的推断准确性[9,20]。然而在几十到数百个样本的研究中,机器学习方法的准确性没有明显的改善[10,18-19,24-25]。在不同的研究中表现最好的机器学习方法也不相同[9-10,19,22]。同时,在模型中应用插补算法,在缺少某些位点信息的情况下也能得出相对准确的结果[19]。
整体来说,机器学习方法在海量数据中定量描述年龄与DNA甲基化水平数量上的依存关系的能力是传统回归方法不可比拟的。在将来的研究中继续比较不同机器学习方法之间的差别,以期找到最适合DNA甲基化年龄推断的模型。
有些CpG位点随年龄的变化曲线类似二次函数[21];有些CPG位点在幼年到成年前呈指数变化[26],在成年后变化比较稳定;使用成年人中确定的110个CpG位点[1]推断儿童的年龄,产生了很大的误差,中位数绝对误差为11.4岁,推断年龄与实际年龄的相关性为0.66;样本年龄范围较大(11.0~92.9岁)也可能导致较大的推断误差[10]。这些结果都表明未成年人与成年人的DNA甲基化模式不同。
FREIRE-ARADAS等[26]使用6个CpG位点建立了未成年人的分位数回归模型。训练组的中位数绝对误差为0.94岁,正确推断率为77.78%;测试组的中位数绝对误差为1.25岁,正确推断率为62.07%。LI等[27]使用83个新发现的CpG位点为6~17岁的儿童和青少年建立了线性混合效应回归模型(44对同卵双胞胎和46对异卵双胞胎),训练组的中位数绝对误差为0.23岁,验证组的中位数绝对误差为0.62岁;然而将双胞胎中的一个分到训练组、另一个分到验证组,导致训练组和验证组的DNA甲基化年龄很相近[20],所以在验证组中才会产生如此低的误差。SHI等[28]将DNA甲基化与骨骼、牙齿结合起来对儿童进行年龄推断,使用多元线性逐步回归方法对男女孩分别建立模型,男孩的平均绝对误差为0.50岁,女孩的平均绝对误差为0.37岁,该研究首次发现PRPH2和DHX8基因相关的CpG位点与年龄显著相关。
虽然涉及未成年人的案件与日俱增,但是对于儿童和青少年的DNA甲基化年龄推断的研究还不够深入,鉴于未成年人的甲基化年龄误差似乎不超过1岁,有望开发出推断准确性很高的未成年人年龄推断模型。
有研究[29]表明,很多年龄相关甲基化位点位于常见疾病的相关基因座中,那么在某些疾病的影响下,DNA甲基化推断年龄的准确性也可能受到影响。
VIDAKI等[20]使用一组包括多种疾病的甲基化数据验证基于血液甲基化数据开发的广义回归神经网络模型,平均绝对误差为7.18岁,明显高于健康人[(3.8±3.3)岁]。只分析血液相关疾病的患者,平均绝对误差明显更高(12.47岁)。1型糖尿病患者平均绝对误差为8.63岁,贫血患者平均绝对误差为14.38岁,骨髓疾病(包括白血病)患者平均绝对误差为11.09岁,卵巢癌患者平均绝对误差为7.45岁,乳腺癌患者平均绝对误差为6.77岁,精神分裂症患者平均绝对误差为5.03岁。LI等[9]分析了健康人的血液甲基化数据和多种患者的血液甲基化数据。在健康人中,训练组平均绝对误差2.72岁,均方根误差4.55岁,验证组平均绝对误差4.06岁。在患者中,训练组平均绝对误差5.91岁,均方根误差7.81岁,验证组平均绝对误差6.99岁。患者的年龄误差明显高于健康人,且头颈鳞癌、卵巢癌、乳腺癌、结直肠癌和其他原发性肿瘤患者的误差要高于1型糖尿病、克罗恩病、溃疡性结肠炎、精神分裂症、类风湿性关节炎患者。
SPÓLNICKA等[24]分析了ELOVL2、C1orf132、KLF14、FHL2和TRIM59基因中的甲基化标志物在晚发性阿尔茨海默病、早发性阿尔茨海默病、毒性弥漫性甲状腺肿患者中的年龄推断能力。在晚发性阿尔茨海默病患者中,5个位点的甲基化水平都没有改变;在早发性阿尔茨海默病患者中,TRIM59和KLF14标志物发生异常的高甲基化水平,并且这种改变在年轻组中更明显;在毒性弥漫性甲状腺肿患者中TRIM59发生异常的高甲基化水平,FHL2发生异常的低甲基化水平,同样这些改变在年轻组中更明显。使用5个位点建立模型,在晚发性阿尔茨海默病患者中没有发现准确性下降,在早发性阿尔茨海默病患者中推断准确性降低只在年轻组中出现,在毒性弥漫性甲状腺肿患者中准确性没有下降,表明TRIM59和FHL2改变的效应相互平衡。其先前的研究[30]还发现,在造血干细胞移植后的患者中C1orf132发生高甲基化,由于造血干细胞移植和早发性阿尔茨海默病的病例很少,因此对法医学年龄推断的影响也较小。WOLF等[31]研究了创伤后应激障碍(post-traumatic stress disorder,PTSD)患者的外周血DNA甲基化年龄,使用“表观遗传时钟”和Hannum模型[32],DNA甲基化年龄与实际年龄的相关系数分别为0.88和0.87,仅发现PTSD严重程度与Hannum模型的DNA甲基化年龄残差呈正相关。SORIANO-TARRAGA等[33]同样使用了这两种模型研究了缺血性卒中患者与健康人的DNA甲基化年龄的差异。使用Hannum模型,缺血性卒中患者的平均误差比健康人大2.5岁,仅在年轻组(≤57岁)中差异有统计学意义;使用“表观遗传时钟”,缺血性卒中患者的平均误差与健康人相似。JENKINS等[11]发现吸烟人群比不吸烟人群的精子DNA甲基化年龄趋向增加,并且在年轻个体(<35岁)中更明显。
许多疾病都会影响年龄推断的准确性,尤其在癌症或年龄相关疾病的早发人群中更为明显。“表观遗传时钟”受疾病的影响要小于Hannum模型,可能有“表观遗传时钟”包含的CpG位点远远多于Hannum模型,或者前者受疾病影响的CpG位点要少于Hannum模型。在今后的研究中,要尽量避免选择疾病相关的CpG位点,或者使用的CpG位点能够评估受试者患某种疾病的可能性。
CHO等[34]使用决定系数最高的5个CpG位点,平均绝对误差为3.34岁;使用逐步回归建立了6个CpG位点的模型,平均绝对误差为3.29岁。EIPEL等[7]使用3个年龄相关CpG位点和口腔拭子中2个细胞类型特异性相关的CpG位点建立的模型提高了验证组中的推断准确性,以35岁为界限对年龄进行分层,发现细胞类型CpG主要在年龄较高的人群中起作用。HONG等[14]选择了6个年龄相关CpG位点和1个细胞类型特异性CpG位点建立的模型具有较高的推断准确性,训练组平均绝对误差为3.13岁,均方根误差为4.16岁;测试组平均绝对误差为3.15岁,均方根误差为4.43岁;在不包括细胞类型特异性CpG位点的模型中,平均绝对误差为4.1岁。PARK等[35]从1 415人的450k阵列数据中筛选出25个年龄相关CpG位点,检查了1~25个位点所有可能组合的模型的平均绝对误差;使用1个位点时,平均绝对误差最高,为4.14岁,使用2或3个位点时,平均绝对误差急剧减少,使用3个以上的位点时,平均绝对误差逐渐减少。由于某些位点不易进行焦磷酸测序,在1~5个位点组合的前十位中,最终选择了3个CpG位点(cg16867657、cg04208403、cg19283806)的组合,使用另一组独立的样本,建立多元线性回归模型,训练组平均绝对误差3.156岁,估计标准误差为6.320岁,验证组中平均绝对误差为3.346岁,估计标准误差为6.853岁。EIPEL等[7]使用模型中贡献最高的1个CpG位点建立的模型的训练组平均绝对误差为5.2岁,验证组平均绝对误差为7.6岁。ALGHANIM等[36]建立了唾液的单基因座(KLF14的CpG1和CpG2)和双基因座(KLF14的CpG1和SCGN的CpG3)模型,二者训练组的平均绝对误差分别为5.8岁和6.2岁,验证组的平均绝对误差分别为8.0岁和7.1岁;又建立了血液的双基因座模型(KLF14的CpG2和CpG3、SCGN的CpG1),训练组的平均绝对误差为6.6岁,验证组的平均绝对误差为10.3岁。HAMANO等[15]建立了2个CpG位点的年龄推断模型,训练组的平均绝对误差为7.44岁,验证组的平均绝对误差为7.71岁。
显然,越多的位点可以产生相对较低的推断误差,但是对成本和检材的要求也就越高。法医应用要兼顾准确性和检材的情况,进一步验证合适的位点数量可以更好地解决年龄推断在法医学实际应用中存在的问题。
随着对DNA甲基化进行年龄推断的研究不断深入,目前已经发现了一些可以用于多种组织的aDMP,但还需要在更多的组织中验证这些位点并筛选更多此类位点,机器学习方法的应用为建立更精确的推断模型提供了良好的基础。未成年人的推断准确性似乎远高于成年人,但是这方面的研究还比较有限。许多疾病都会影响年龄推断的准确性,尤其是癌症和年龄相关疾病的早发型,因此在今后的研究中,要尽量避免选择疾病相关的CpG位点。增加检测位点可以产生相对较低的推断误差,但是对成本和检材的要求也就越高,这就需要进一步验证合适的位点数量以平衡二者之间的矛盾。由于DNA甲基化位点在不同种群中存在差异,故有必要进一步研究不同群体中的年龄特异性甲基化位点,并尽可能筛选出在群体间差异小的位点,作为核心位点。