赵怡鹤,张 涛,李 彬,贾二惠,贾亮亮
(公安部第一研究所,北京 100044)
法医DNA 检测平台数据预处理技术,是将自主研发的法医DNA 检测平台硬件系统采集的荧光光谱数据,处理后生成DNA 分型软件可用的数据。包括空间校正、光谱校正、STR 数据处理技术。
光谱校正的目的是解决四(五)色荧光串扰问题。由于目前用于碱基识别的染料受激光激发后光谱范围都比较宽,染料空间到光谱空间不是一一映射关系,不能直接用光谱空间来分辨四(五)种染料。为实现对DNA 样品检测信号的特异性分析,在使用法医DNA 检测平台进行STR 检测之前首先要进行光谱校正处理[1],建立染料空间到光谱空间的映射关系,即荧光染料光谱分布矩阵,达到染料分开与碱基识别的目的[2]。
处理器光谱校正中的数据处理技术涉及了滤噪、基线调整、峰值识别和归一化。其中噪声的滤除是极其重要的一环。当前最常用的滤波方法有中值滤波、高斯滤波、FRI 滤波、小波(WAVELET)滤波等方法[3]。本文首先对比了小波阈值去噪法和FRI 滤波去噪法对DNA 荧光信号的去噪效果,证明了小波去噪效果优于一般FRI去噪方法。随后介绍了参数优化后的DNA 荧光信号小波阈值去噪方法。最后,通过与法医鉴定实验室常用的国外法医DNA 遗传分析仪光谱校正结果的对比,验证了算法的有效性,可满足法医鉴定实验室的要求。
小波去噪的主要方法有小波变换模极大去噪,基于各尺度下小波系数相关性去噪,小波阈值去噪等[4]。本文采用小波阀值去噪法研究DNA 荧光光谱信号的去噪方法。
采用一维信号的小波阈值去噪法去除DNA 荧光信号噪声。该算法基于小波的多尺度分辨性以及信号强度与小波系数之间的对应关系,即将荧光信号进行多尺度分解,利用碱基信号能量大于噪声能量,其高频尺度上对应的小波系数值也较大的特点,合理的设定小波系数阈值,并对低于阈值的系数置零,实现了噪声去除并保留了有用的DNA 碱基信号峰。
(1)利用选定的小波函数wname 对原信号进行小波多尺度分解(N 层分解)。根据小波多分辨分析理论,定义j-1 尺度空间为:
其中φ(t)为尺度函数,对信号f(t)∈Vj-1在空间可展开成:将f(t)在下一级尺度空间Vj和小波空间Wj分解一次,则有其中ψ(t)为小波函数,cj,k和dj,k为j 尺度上尺度系数和小波系数,经推导:
其中j=1,2,…,N。h0、h1为滤波器系数,由尺度函数φ(t)和小波函数ψ(t)决定,与具体的尺度无关。实际中的滤波器系数是有限长或近似有限长序列。依次递推,可将尺度空间Vj-1逐级分解,得到任意尺度的尺度空间Vj和小波空间Wj,实现f(t)信号在任意尺度上的分解。
(2)对原信号的小波分解高频系数做阈值量化处理。根据所选的阈值方法SORH、阈值选择规则TPTR 及阈值调整方式SCAL 获取小波去噪的阈值,再根据阈值对原信号的小波分解高频系数进行阈值量化处理。
(3)做正交小波快速反变换,重构经过阈值量化去噪信号。使用小波分解的低频系数以及阈值量化处理后的高频系数进行小波重构,即对处理完的小波系数进行快速反变换,于是得到消噪后的信号。例如: f(t)信号的重构是多尺度分解的逆过程,其系数的重建公式为: cj-1,m=综上所述,对DNA 荧光光谱信号进行多尺度分解,在小波空间Wj,小波系数dj,k的大小主要由对应时间点上的噪声和该尺度上DNA碱基信号峰的大小决定。强度较大部分主要与有用的DNA 碱基信号峰对应,强度较小且个数众多的部分主要与噪声对应。基于此性质,选择一个合适的阈值,将强度低于此阈值的小波系数置零,而高于此阈值的强度系数得以保留,即可实现去噪并保留有用的DNA 碱基信号的目的。将DNA 荧光光谱信号进行N 层分解,N 一般取4 至8 比较合适,计算第N 层小波系数的标准方差,作为小波系数强度的阈值,小波系数强度小于该阈值的被置零,大于该阈值的得以保留,对第N-1, N-2,…层的小波系数也采用此阈值进行相同处理。
小波函数取样条小波bior5.5 进行3 层小波分解,FIR 低通滤噪器窗口选择hamming 窗,n=9 阶,截止频率为0.125,该截止频率与小波三层分解的低频逼近信号对应。图1 显示了小波去噪与FIR 低通滤噪的效果。可见传统的FIR 滤噪和小波去噪都可以实现信号平滑,去掉信号中的毛刺成分(高频噪声)。
图1 小波去噪和FIR 滤噪的滤噪效果Fig.1 The result of wavelet de-noising and FRI de-noising for DNA fluorescence spectrum
FIR 滤噪后对DNA 碱基信号峰产生了较大的消弱,而采用小波去噪,通过合理的小波系数阈值处理,小波去噪后DNA 碱基信号峰基本保持了原来的幅度和形状,可见基于阈值处理的小波去噪效果要优于传统的FIR 滤噪效果,见图2。
图2 小波去噪和FIR 滤噪对信号峰型影响的对比Fig.2 Wavelet de-noising and FRI de-noising Impact on signal peak
法医DNA 检测平台使用高250 像素,宽512 像素的面阵CCD 进行荧光光谱数据采集。
每个毛细管上激发的荧光展开到CCD 上都是一个长条型的光谱空间,图3 左图中,毛细管编号为①②……。空间大小按bin 计算为1×20bin,图3 右图所示。这样对毛细管上激发的荧光进行数据采集时,每个bin产生一个数据,则每个毛细管将对应一个1×20 的数据(16 根毛细管则对应16×20 的数据)。对每根毛细管,染料空间(五色)定义为X(向量大小5×1),代表五种染料;光谱空间为B(向量大小20×1),代表20 个bin;映射矩阵为Q(矩阵大小为20×5),我们采集到的光谱空间B 实际上是由以下映射得到的:
矩阵Q 的每一列代表一种染料激发的荧光在20 个bin(光谱空间)上的值,称为光谱分布矩阵。然而,我们关心的不是光谱空间B,而是染料空间X,因为只有染料空间X 与DNA 片段才是对应的,即:
据此可得到光谱校正模式下染料光谱分布矩阵Q,从而实现光谱空间到染料空间的映射,为后续DNA 数据采集、分析做准备。
图3 法医DNA 检测平台毛细管阵列光谱在面阵CCD 上的成像Fig.3 The capillary array image of forensic DNA detection platform on the surface of CCD
小波阈值去噪法共有五个参数选项,即小波函数、小波分解层数、阈值方法SORH、阈值选择规则TPTR及阈值调整方式SCAL[3]。在实际应用时应选择合适的小波函数、小波分解层数及阈值获取方式,如果选择不当将会影响去噪及数据后处理的效果。因篇幅有限,小波阈值去噪法参数的选择原则(略),表1 为小波阈值去噪法参数的主要参数。
一般情况下,一组荧光染料通过一根毛细管时,其光谱分布阵列需同时满足: ①光谱校正矩阵Q 的条件数c 要适中(STR:5~10),否则说明荧光串绕(或重叠)问题严重[9];②四(五)色荧光染料受激光激发后光谱分布的谱峰分开一致性,即质量数q0.95。则认为该根毛细管光谱校正通过。
实验采用五色荧光试剂盒,自主设计的法医DNA检测平台采集的数据作为原始数据。利用参数优化后的小波阈值去噪算法进行去噪处理。去噪后的数据再经基线调整和峰识别等步骤,得到了五色染料光谱分布矩阵Q,实现了光谱校正。
表1 小波阈值去噪算法和主要参数设置Tab.1 Wavelet threshold de- noising algorithm and main parameter settings
图4 为法医DNA 检测平台光谱校正结果。实验采用IdentifilerTM 试剂盒(五色荧光,LIZ、NED、PET、VIC、6-FAM)。
图4 法医DNA 检测平台光谱校正结果Fig.4 Spectrum correction results of forensic DNA detection platform
小波阈值去噪法的效果强烈地依赖于所选的小波,采用和DNA 荧光信号波形相似的小波去噪,会得到较好的去噪效果。通过多组数值实验反复验证,在对DNA荧光信号进行小波去噪时,选择正交小波函数wname='db5' 及小波分解层数lev=5 时的去噪效果比较理想。接下来选择软阈值函数、基于Stein 无偏似然估计的自适应阈值选择及对各层噪声进行估计和调整,会保持峰边缘的光滑过度带。
图5 为AB3100 遗传分析仪光谱校正处理后的效果和自主设计的法医DNA 检测平台,DNA 光谱校正数据处理后的效果对比图(16 根毛细管其中1 根,其余15 根略)。两组光谱校正结果相比较,效果一致。
图5 毛细管光谱校正对比效果图Fig.5 Spectrum correction contrast figure
本文提出的小波阈值去噪算法信号保真度高、相位保真度高,兼顾信号细节。采用本文设计的算法去噪,再经过去基线和峰识别等光谱数据处理步骤,得到的光谱校正效果可媲美于法医鉴定实验室常用的国外法医DNA 遗传分析仪。实验证明,此小波阈值去噪算法在对法医DNA 检测平台光谱校正荧光信号噪声滤除方面表现优秀。目前,自主设计的法医DNA 检测平台已应用于一线法医鉴定实验室中,一系列光谱校正数据处理方法也已经集成于平台配套的数据采集软件中,实现了DNA 荧光光谱实时光谱校正处理,已成功的建立了IdentifilerTM、DNATyperTM15、AGCU17+1 等试剂盒[10]的染料光谱分布矩阵和对应的光谱校正文件。
[1] John M.Butler.侯一平,李成涛(译).法医DNA 分型专论:方法学(原书第三版)[M].北京:科学出版社,2013.
[2] John M.Butler. Fundamentals of Forensic DNA Typing [M]. U.S.A: ACADEMIC PRESS,2010.
[3] 林云跃.DNA 图谱分析算法与软件研究[D].浙江大学,2006.
[4] 潘泉,等.小波滤波方法及应用[J].电子与信息学报,2007,1.
[5] 周伟,桂林,等.Matlab 小波分析高级技术[M].机械工业西安电子科技大学出版社,2006.
[6] 唐向宏,李齐良.时频分析与小波变换[M].科学出版社,2008.
[7] 彭玉华.小波变换与工程应用[M].科学出版社,2003.
[8] 裴黎. 现代DNA 分析技术理论与方法[M].中国人民公安大学出版社,2002.
[9] 李彬,赵怡鹤,张涛,等. 荧光光谱解析中矩阵病态对检测结果的影响[J]. 分析测试技术与仪器,2014,3.
[10] 邹广发.AGCU 免提取STR 荧光检测试剂盒的验证[J].刑事技术,2010,3.