张根伟,彭思龙,曹树亚*,赵 将,杨 柳, 杨 杰,杨俊超,黄启斌*
1. 军事科学院防化研究院,北京 102205 2. 国民核生化灾害防护国家重点实验室,北京 102205 3. 中国科学院自动化研究所,北京 100190 4. 中国科学院大学,北京 100190
离子迁移谱(ion mobility spectrometry, IMS)技术是目前最为广泛使用的痕量化学物质检测技术之一。离子迁移谱检测仪具有常压下检测、分析灵敏度高、响应时间短、成本低等优点,广泛应用于化学战剂、爆炸物和毒品等检测领域[1-5]。
IMS检测仪产生的原始信号具有如下的特点: 信号小; 干扰信号多,其中主要有来自漂移管的高压电场(约300 V·cm-1)、多路气泵的PWM控制脉冲信号及其工作时的振动,此外还有来自控制电路等的电磁干扰。因此,采集到的原始离子迁移谱谱图信号噪声较大,微弱信号容易淹没在噪声中而无法检测。此外,由于仪器自身及外部环境干扰,采集到的谱图基线基本都不在零基线上,不可避免的存在基线漂移现象。Jiang等[6-7]研究了滑动时间数据平均、多项式数据平滑、傅里叶变换降噪滤波、小波分析降噪方法对实际采集到的离子迁移谱信号数据进行处理的降噪效果。基线一般被看作是缓变的背景,经过谱图的下方但是不能越过波峰,它无任何明确的数学定义。通过对基线赋予不同的先验知识,能够建立不同的基线校正模型。目前主要有以下几类基线校正方法: 导数与光滑性方法、曲线拟合方法,非对称最小二乘方法、背景估计方法及稀疏性约束方法等[7-9]。
稀疏表示是过去近十年来信号处理界一个非常引人关注的研究领域,稀疏表示的目的就是在给定的超完备字典中用尽可能少的原子来表示信号,可以获得信号更为简洁的表示方式,从而使我们更容易地获取信号中所蕴含的信息,更方便进一步对信号进行处理。传统的离子迁移谱谱图信号去噪和基线校正预处理分别采用不同的算法实现,没有将两者结合起来考虑,导致需单独评价各自预处理效果。本文通过增加基线光滑度约束以及基于Gaussian字典,提出一种基于稀疏表示的可同时实现离子迁移谱谱图去噪和基线校正的快速算法。
离子迁移谱信号x一般认为由三部分构成: 纯谱s、基线b和噪声n组成,x可以写成
x=s+b+n
(1)
基于稀疏表示,本文提出了一种可同时实现离子迁移谱谱图去噪及基线校正模型如式(2)所示
(2)
纯谱s由超完备字典Φ组成,α为相应的表达系数,即s=Φα。这是一个标准的优化问题,为了得到稀疏解,采用l1范数作为线性惩罚项。λ为正则化参数用来调节惩罚项在优化过程中的比例,同时增加基线平滑度约束条件,D为差分矩阵。通过稀疏表示模型,用最少的字典原子重建离子迁移谱信号,将噪声项系数去除实现去噪平滑的效果。
离子迁移谱在弱电场下形成的反应离子峰一般认为是Gaussian分布,Gaussian分布函数表达式如式(3)
(3)
采用Gaussian分布函数拟合离子迁移谱反应离子峰,离子迁移谱谱图可以看成由不同的Gaussian分布函数拟合而成。超完备字典的构造方法为: 根据Gaussian分布函数表达式(3),将反应峰峰位参数μ,峰宽参数σ作为调节变量,在峰位及峰宽变化区间内构造超完备字典。
稀疏系数α的求解有几种常用的方法,如交替方向乘子算法(ADMM)[10]、最小角回归法(LARS)[11]、可分离替代函数法(SSF)[12],迭代重加权最小二乘算法(IRLS)[13]等。综合考虑算法运行速度及收敛性,本文采用迭代重加权最小二乘算法求解稀疏表示模型,同时实现去噪及基线校正功能,算法流程如下:
算法: 迭代重加权最小二乘法(IRLS)
步骤1 输入离子迁移谱谱图信号x, 字典Φ,正则化参数λ1,λ2,差分矩阵d;
步骤2 参数初始化权重因子W=I, 迭代次数k=0;
步骤3 求解迭代更新基线、稀疏表示系数和权重因子:
(1) 基线校正:b(k+1)=(I+λ1DTD)-1(x-Φα(k)+λ1DTDb(k))
(3) 权重因子:W=diag(α(k+1))
步骤4 检查迭代终止条件: 如果满足求解精度,则结束迭代; 否则,返回步骤3。
步骤5 输出基线和稀疏表示求解系数。
采用Ni63离子源便携式离子迁移谱检测仪。该检测仪工作模式分为检测模式和反吹清洁模式,检测模式下通过流速为470 mL·min-1气泵进行采样,气体通过隔水薄膜后进入迁移管电离区; 带电离子在通过采样周期为20 ms,开门时间为200 μs的离子门后进入电场迁移区,电场迁移区电场强度为300 V·cm-1。带电离子通过法拉第盘采集电流信号,经过电流-电压转换后通过串口上传至采集控制软件,形成横坐标为时间,纵坐标为电压幅值的二维离子迁移谱谱图。
实验数据由仿真数据和真实样本数据组成。为了验证算法,仿真数据由三个不同Gaussian分布函数字典原子、Gaussian白噪声和基线(分别为正弦波函数、指数函数和线性函数)组成。Gaussian白噪声标准差为0,幅值为谱图信号最大幅值的0.5%。真实样本为水杨酸甲酯(Methylis salicylas, 国药集团化学试剂有限公司,97%),水杨酸甲酯因其易于与电子结合且峰位稳定常被用作离子迁移谱检测仪校准物。本实验通过动态配气仪(CPR001, 北京康尔兴)将水杨酸甲酯与氮气在气袋中混合,样本浓度为1 mg·m-3。
计算机配置和编程语言如下:
CPU: i7-4790S, 3.20 GHz; 内存: 8 GB。
操作系统: 64bit-Windows 7 Home Edition。
编程语言: MATLAB R2014a (MathWorks, Inc.)。
仿真数据分别采用正弦波函数、指数函数和线性函数作为基线,采用迭代重加权最小二乘算法对稀疏表示模型求解,迭代求解后基线及基线校正后的谱图分别如图1—图3所示。从图中可以看出,IRLS算法得到的基线很好的拟合了仿真叠加的三种不同类型基线; Gaussian白噪声毛刺得到了有效去除,谱图变得平滑; 经过基线校正后的谱图信号,基线基本在零基线上。采用IRLS算法获得的仿真谱图稀疏表示系数如图4所示,实验结果表明,采用稀疏表示模型时通过将噪声表达系数舍弃,用最少的字典原子实现了谱图重建。
图1 仿真谱图采用正弦波函数基线后的结果
图2 仿真谱图采用指数函数基线后的结果
图3 仿真谱图采用线性函数基线后的结果
为了评估本文提出的可同时实现离子迁移谱谱图去噪及基线校正的稀疏表示模型及IRLS算法的性能,采用非对称
图4 仿真谱图采用IRLS算法获得的稀疏表示系数
最小二乘方法(AsLS)基线校正方法,外加Savitzky-Golay(SG)及小波变换(Wavelet)平滑去噪方法同IRLS算法进行了对比。对采用不同去噪及基线校正算法后的仿真谱图采用均方根误差(RMSE)和信噪比(SNR)两种指标来评估方法性能[计算公式分别为式(4)和式(5)],计算结果如表1所示。从表1中可以看出IRLS算法在RMSE和SNR指标上都优于其他两种算法,尤其当基线是正弦波基线时,性能有了显著的提升。
(4)
(5)
表1 采用不同算法后RMSE和SNR指标对比
水杨酸甲酯在9.84 ms处出现反应离子特征峰,约化迁移率K0为1.62。从采集到的原始水杨酸甲酯离子迁移谱谱图中可以看出,信号中噪声波动大、噪声幅值约为最大幅值的2%; 谱图基线并不是线性基线。经过稀疏表示模型求解后,得到的谱图基线在零基线上且噪声得的了很好的去除,实验结果如图5所示,不同算法RMSE和SNR指标结果如表2所示。从表2可以看出IRLS算法在RMSE和SNR指标上都显著优于其他两种算法。
图5 水杨酸甲酯谱图稀疏表示模型求解结果
表2 采用不同算法后RMSE和SNR指标对比
应用稀疏表示对离子迁移谱谱图去噪及基线校正算法进行了研究,提出了一种可同时实现离子迁移谱谱图去噪和基线校正的稀疏表示模型。仿真和真实样本实验表明,采用稀疏表示模型及求解算法得到的实验结果有了显著性能提升。离子迁移谱谱图经过去噪和基线校正预处理后,可为下一步化学物质种类的准确识别和定量研究提供参考。