贾二惠 郝凤龙 李 彬 张庆胜 张 涛
(1.北京中盾安民分析技术有限公司,北京 102200;2 .公安部第一研究所,北京 102200)
拉曼光谱分析技术基于印度科学家C.V.拉曼(Raman)所发现的拉曼散射效应,从分子水平实现被测物质化学成分的判定。随着激光器、微型光谱仪、高光密度滤波片等现代科学技术的进步,拉曼光谱仪器成本降低、更加便携易用,尤其具有无需制样、无损检测、能快速准确给出被测物质化学成分的信息等优点,非常适用于毒品、易制毒化学品、爆炸危险化学品、新精神活性物质等危险品违禁品的现场快速鉴定[1-6]。
鉴于当前安全检查、禁毒、刑侦、消防、治安、海关稽私及反恐等迫切需求,世界各国纷纷出台法规,提高对机场、火车站、地铁站、海关等公共交通枢纽和重大公共场所的安全检查标准。针对当前国内反恐态势严峻,公共安全领域安全检查要求日益增强,行政执法部门对用于拉曼光谱检测技术的需求越来越高。尤其近年来,在海洛因、大麻等第一代传统毒品和以冰毒、摇头丸等第二代传统合成毒品仍旧泛滥的情况下,第三代毒品即新精神活性物质已凸显且日益活跃,这种新型毒品伪装性极强,常常以“邮票”、‘浴盐’、“奶茶”、“开心水”、“跳跳糖”、“阿拉伯茶”、“蘑菇”等多样形式隐藏在生活中,对社会及青少年等造成重大的伤害。为此,在现有拉曼分析仪器技术基础上发展高性能的谱图数据处理方法,将充分提高仪器对目标物的快速检测识别能力[7-15]。
针对新精神活性物质拉曼谱图原始信号其普遍存在的强荧光背景以及不同程度的重叠簇峰等问题,由于荧光背景的干扰峰起点峰终点往往均处于同一上升或下降爬坡状态、甚至有的峰顶点与其均处于同一上升或下降爬坡状态,如何有效解析提取峰起点峰终点之间的峰谷基线点是本文要解决的主题。本文紧密结合分析仪器研制与信号系统数据处理实际工程背景,在大量观察新精神活性物质拉曼谱图数据特征的基础上,通过归纳、逻辑分层与统计分析,巧妙借助几何辅助线、切线斜滑及多层搜索判断等技巧,设计了一种基于机器学习的谱图基线校正方法。相比传统的极小值峰谷点切线斜滑及其它较复杂校正方式[14-20],本算法的设计思想更加直接快捷,经验证该方法在仿真及实际应用中快速准确、实用有效。
鉴于新精神活性物质样品材料的本征性质,其在激光辐照下所发出的强荧光背景是无法避免的结果,通常情况下这些荧光远比物质本身拉曼特征峰的真实信号更强,同时其谱峰较为丰富并呈现不同程度的重叠簇峰现象,请参见典型示例图1。
图1 6-氯-3,4-亚甲二氧基甲基苯丙胺拉曼谱图信号
对于一张化学谱图而言,通常情况下可通过峰识别并适当连接峰谷点建立基线[16,17]。而对于一张新精神活性物质拉曼谱图而言,其谱峰以独立谱峰的形式出现相对较少,多以重叠谱峰的形式呈现,且因荧光背景的干扰其峰起点峰终点往往混叠在一起,甚至有的峰顶点始终处于上升或下降爬坡过程中,谱峰似波浪此起彼伏错综交叉,峰谷点、真实基线点均被混杂淹没。请参见典型示例图2。
图2 N-(2-甲氧基苄基)-2-(2,5-二甲氧基-4-甲基苯基)乙胺拉曼谱图信号
由此可见,其特有的强荧光背景将尤其影响待测物质拉曼谱图信号的后续定量分析与最终的物质识别,基线校正是新精神活性物质拉曼谱图数据处理的关键环节[7-10]。无疑,小波方法、分段多项式拟合及其改进的基线校正技术在一定场合下不失有效性发挥了重要作用[7-14]。但试想假如不要求速度,人工判读提取真实基线点更加直观简捷有效。为此,面对连续出现、或断断续续出现的此起彼伏的若干簇拉曼特征峰,将这一人工判读决策过程智能化、有效分离各种不同程度的重叠簇峰、自动提取真实基线点是我们要实现的目标。本文在大量观察新精神活性物质拉曼谱图数据特征的基础上,巧妙借助几何辅助线与切线斜滑技巧,先后通过“快速峰识别”、对峰谷点特征分类并建立分层假设空间、分层搜索及峰阈值判断等主要技术环节,从而准确获取基线点并最终实现基线校正。主要计算步骤如下:
步骤一:通过拉曼信号一阶微分值符号变化进行快速峰识别,提取并记录极小值 “峰谷点”、极大值“峰顶点”与峰高,如例图3 所示。
图3 步骤一例图(峰识别)
再默认端点或适当确定第一个峰谷点与最后一个峰谷点,并记录全部峰谷点、峰顶点信息。
步骤二:通过计算峰顶点原始信号最大值,提取基线单调变化转折点并记录该点信息TurnPoint;如例图4所示。
图4 步骤二例图(峰识别)
步骤三:对基线单调变化转折局部区域分别提取左、右基线点:
(1)以步骤二所得的原始信号最大值对应的基线单调变化转折点为起点向左追溯,主要排除其相邻的左肩峰及明显重叠峰非基线峰谷点,直至提取基线峰谷点并记录该点信息MidLeftBasep;
(2)以步骤二所得的原始信号最大值对应的基线单调变化转折点为起点向右追溯,主要排除其相邻的右肩峰及明显重叠峰非基线峰谷点,直至提取峰谷基线点并记录该点信息MidRighttBasep。
步骤四:借助几何辅助线与切线斜滑技巧,对步骤三(1)所提取的基线单调变化转折局部区域的左基线点的左侧信号段采取从左到右的顺序进行多层搜索判断并解析提取基线点:
(1)左侧信号段基线点个数开始计数,令NumLeftBaselp=0;
(2)将左侧第一个信号点默认为第一个基线点,令NumLeftBaselp=NumLeftBaselp+1,记录该基线点X1信息(位置波数、信号强度);
(3)将第一个基线点与第一个峰顶点直线连接作辅助线,通过辅助线是、否穿透信号判断、计算当前基线点与各穿透信号点之间直线斜率、最小斜率切线斜滑法提取第二个基线点,如果第二个基线点与第一个峰顶点之间的位置距离超过峰宽阈值,令NumLeftBaselp= NumLeftBaselp+1,采用相同方法继续获取第三个基线点,令NumLeftBaselp= NumLeftBaselp+1,记录基线点信息X2、X2与X3;
本步也可根据实际信号处理经验采用其它方法确定1到3个初始基线点;
(4)令j=1,以当前基线点XNumLeftBaselp为起点与其右侧峰谷点ValleyPointj(j=2,3,……, NumLeftValleyp)依次连接辅助线AuxiLine、并作如下判断:
a如果该辅助线穿透原始拉曼信号
a1如果峰谷点ValleyPointj-1与峰顶点PeakPointj之间的位置距离与信号强度差超过峰阈值,则判断可能出现两个基线点:
首先,计算当前基线点PeakPointj与辅助线之下各拉曼信号点连线(直线连接)的斜率,通过最小斜率切线斜滑法搜索提取新的基线点,令NumLeftBaselp= NumLeftBaselp+1,记录基线点信息XNumLeftBaselp;
继续,如果该基线点XNumLeftBaselp与峰顶点PeakPointj之间的位置距离超过峰宽阈值,则判断出现第二个新的基线点,根据峰宽阈值确定基线点XNumLeftBaselp右侧、峰顶点PeakPointj左侧之间的新的基线点,令NumLeftBaselp= NumLeftBaselp+1,记录基线点信息XNumLeftBaselp;
a2否则(即a1不成立),计算当前基线点PeakPointj与辅助线之下各拉曼信号点连线(直线连接)的斜率,通过最小斜率切线斜滑法搜索提取新的基线点,令NumLeftBaselp= NumLeftBaselp+1,记录基线点信息XNumLeftBaselp;
b否则(即a不成立),对峰谷点ValleyPointj其右侧峰信息PeakNewsj+1做进一步判断,如果峰谷点ValleyPointj与峰顶点PeakNewsj+1之间的位置距离与信号强度差超过峰阈值,则判断可能出现两个基线点:按照a1计算确定新的基线点,令NumLeftBaselp= NumLeftBaselp+1或 NumLeftBaselp= NumLeftBaselp+2,记录相应的基线点信息 XNumLeftBaselp;
c否则(即a、b均不成立),对ValleyPointj-1与ValleyPointj之间的峰信息PeakNewsj-1进行判断,如果满足平稳基线随机噪声信号阈值条件,则ValleyPointj-1为新的基线点,令NumLeftBaselp= NumLeftBaselp+1,记录基线点信息XNumLeftBaselp;
d否则(即a、b、c均不成立),令j=j+1,将当前基线点XNumLeftBaselp与该峰谷点ValleyPointj直线连接作辅助线AuxiLine,继续循环判断本段的a~d,直至本信号段数据处理结束;
步骤五:对步骤三所提取的基线单调变化转折局部区域右基线点的右侧信号段搜索提取基线点:不同于正向数据处理,而是以该信号段终点为起点向左进行回溯,其余全部参考步骤四;
步骤六:对步骤三~步骤五所提取的全部基线点按照从左到右的顺序排序;对相邻基线点直线连接得到基线BaseLine;再对原始信号进行基线扣除即可。
综上所述,仅对体现算法思想和流程的主要计算步骤进行了阐述,在实际应用中应紧密结合分析仪器研制与信号系统数据处理实际工程背景,因此在编程实现该算法时还需更加细腻完善的数据处理,比如①在程序中需对极端信号情况(如“快速峰识别”极大值峰顶点个数特少甚至仅有1个峰顶点)做特别数据处理;②在步骤一快速峰识别过程中应对可能出现的奇异信号进行排除或特别处理;③两端初始基线点的确定与优化;④步骤四第4)步的a1及b出现两个基线点时可对这两个基线点从两端向中间方向做进一步的微调等。
笔者采用Matlab编程实现了本研究所提出的基线校正算法,并分别对所采集的6-氯-3,4-亚甲二氧基甲基苯丙胺、3,4-亚甲二氧基丙卡西酮、N-(2-甲氧基苄基)-2-(2,5-二甲氧基-4-甲基苯基)乙胺拉曼谱图原始信号进行了系列数据处理,基线校正仿真结果如图5~图7所示。
图5 6-氯-3,4-亚甲二氧基甲基苯丙胺拉曼谱图信号基线校正示例图
图6 3,4-亚甲二氧基丙卡西酮拉曼谱图信号基线校正示例图
图7 N-(2-甲氧基苄基)-2-(2,5-二甲氧基-4-甲基苯基)乙胺拉曼谱图信号基线校正示例图
通过以上及多组仿真实验与结果分析可得:采用本研究设计的算法对新精神活性物质拉曼谱图信号进行基线校正,可解析分离各种不同程度的重叠簇峰,取得了良好的基线校正效果;相比传统的以及其它方法,该方法更加直接快捷,具有较强的抗干扰性;该方法亦可拓展到其它谱图信号数据处理中,尤其对其后续的定量分析及物质识别鉴定至关重要。
本研究紧密结合分析仪器信号系统数据处理实际工程背景,在大量观察新精神活性物质拉曼谱图数据特征的基础上,提供了一种基于机器学习的基线校正方法。该方法巧妙借助几何辅助线与切线斜滑技巧,先后通过“快速峰识别”、对峰谷点特征分类并建立分层假设空间、分层搜索及峰阈值判断等主要技术环节,从而获取有效基线点并最终实现基线校正。经理论分析和众多实际信号处理仿真验证,该算法可解析分离各种不同程度的重叠簇峰,是一种快速准确、抗干扰性较强的有效算法。