王磊+郭淑霞+戴吟臻+杨良保+刘国坤
摘 要 通过将自适应平滑滤波器和结合小波变换的支持向量机(Support vector machine, SVM)分类器有机组合,建立了低信噪比拉曼光谱的模式识别方法。首先,通过自适应平滑滤波器进行光谱去噪,滤波窗口宽度根据信噪比估计值进行调整,从而在保证特征峰信号强度的同时达到更好的噪声滤波效果;其次,由小波变换实现光谱数据降维,通过小波分解层数优化可以获得训练集的最佳分类准确率;最后,由SVM进行分类,通过交叉验证(Cross validation, CV)实现SVM参数寻优,并根据交叉验证与分类器之间的准确率关系,得出分类器可用参数需满足的条件。基于表面增强拉曼光谱技术,本方法实现了人体尿液中甲基苯丙胺(Methamphetamine,MAMP)和亚甲基二氧基甲基苯丙胺(3,4-Methylenedio-xymethamphetamine, MDMA)的定性微量分析。实验使用中国科学院合肥智能机械研究所研发的金纳米棒拉曼光谱增强基底,由DeltaNu公司的Inspector型便携拉曼光谱仪采集光谱,激发光波长785 nm,曝光时间为5 s, 整体检测准确率高于95.0%。
关键词 拉曼光谱; 滤波; 小波变换; 支持向量机
1 引 言
目前,体内常见毒品及其代谢物的主要分析方法有免疫分析法、光谱法、色谱法以及各种联用技术。高效液相色谱(High performance liquid chromatography, HPLC)与气相-色谱质谱联用(Gas chromatograph-mass spectrometer, GC/MS)技术均得到广泛应用[1~3],这些检测方法均需要处理样品, 检测费时, 设备昂贵, 对操作人员技术要求高。拉曼光谱检测技术无需对样品预处理, 成本低, 检测周期短, 可用于现场检测,已成为毒品快速检测的重要武器[4,5]。
以尿液进行毒品检测取样方便。甲基苯丙胺(Methamphetamine, MAMP)在人体内大约有45%仍以原体形式存在[2];在尿液中MDMA药物原体的检出时限达药后5天[1]。本研究在正常人体尿液中定量加入被检测毒品,模拟吸毒人体的尿液样本,并结合表面增强拉曼光谱技术,实现尿液中MAMP和MDMA的微量定性分析。
由于尿液成分复杂,待检样品含量低,获取的拉曼光谱信噪比低,被检物质的特征峰容易被背景信号淹没,为光谱分类带来困难。结合化学计量学方法,构建适合的最优分类器,有望实现类间差异微小的光谱有效分类,例如,文献[6~8]均通过化学计量学方法完成了类间差异很小的光谱的分类任务,分类准确率高于88.4%。为此,本研究提出了自适应滤波法,以及结合小波变换的支持向量机分类器,从而实现尿液中MAMP和MDMA检测的表面增强拉曼光谱分析。
2 光谱获取
MAMP和MDMA样本由中华人民共和国公安部物证鉴定中心提供。随机选择12名志愿者, 采集尿液,配制空白尿液(Ⅰ类)、含有50 mg/L MAMP的尿液(Ⅱ类)、含有50 mg/L MDMA的尿液(Ⅲ类)、同时含有30 mg/L MAMP和30 mg/L MDMA的尿液(Ⅳ类)4类样本,取一小滴滴在金纳米棒拉曼光谱(中国科学院合肥智能机械研究所研发)增强基底上,在空气中自然挥干10~20 s,由Inspector便携型拉曼光谱仪(DeltaNu公司)采集光谱,激发光波长785 nm,曝光时间为5 s,光谱采集过程均在尿液样本获得后的30 min内完成。
对所有拉曼光谱数据进行如下分组:随机选择10个尿液样本对应的1475条光谱作为训练集,其中包含Ⅰ类光谱350条,Ⅱ类光谱450条,Ⅲ类光谱450条,Ⅳ类光谱225条;剩余2个尿液样本的450条光谱作为检验集,包含Ⅰ类光谱150条,Ⅱ类光谱100条,Ⅲ类光谱100条,Ⅳ类光谱100条。
另外,作为对方法扩展性的验证,本研究还包含孔雀石绿样本溶液的表面增强拉曼光谱:将被测样本、粒度55 nm的球形Au纳米增强粒子、1 mol/L KI团聚剂溶液以1∶1∶0.1的容积比例搅拌、摇匀,置于ReporteR型拉曼光谱仪(DeltaNu公司)检测样品槽内,曝光时间为3 s,采集光谱。共采集光谱798条,其中,以去离子水配制的孔雀石绿溶液对应的光谱636条(空白90条,非空白546条),作为训练样本集;以3个采样点所得海水所配置的孔雀石绿溶液对应的光谱分别为93, 35, 34条,作为检验样本集。
3 光谱分析原理
3.1 光谱预处理
在滤波过程中,希望对光谱中的噪声和特征峰两类区域,区别对待:特征峰区域要求更好的信号保真度;而其它区域要求更好的提高信噪比[14]。为此,本研究采用自适应滤波器,滤波过程如图2a所示。通过公式(1)估计光谱噪声水平,其中,λ表示调节噪声概率分布水平的阈值;选定滤波窗口宽度初始值ω,在窗口移动过程中根据信噪比大小调整滤波器窗口宽度,如式(2),ω′为调整后的滤波窗口宽度。
3.2 特征分类
支持向量机基于统计学习理论,若应用中事先不明确训练样本是否线性可分,可引入惩罚因子C,允许一定的分类错误[15,16]。然而支持向量机未给出最优结构参数选择的理论依据[17],需要经过参数寻优过程,本研究选用寻优算法中常用的交叉验证实现这一过程。
小波变换(Wavelet transform, WT)根据信号频率的不同,将信号按多尺度分解,依据尺度信息调整取样步长,聚焦于信号中的特定频率分量[18]。将预处理后的光谱做N层小波变换,其近似分量长度为原始数据长度的1/2N,且可以代表光谱的大部分能量[19]。在不影响分类结果准确性的前提下,将光谱近似分量进行分类,可以减少分类器的运算量。endprint
4 结果与讨论
4.1 光谱预处理
采用文献[12]所述方法对原始光谱进行基线校正[20],基线校正参数为: σ=7.5, t1=0.9, t2=0.005; 对校正后的光谱进行自适应滤波处理,滤波参数为: t=30, λ=2.5; ω=31。结果如图2b所示,此滤波方法可对噪声区域较大平滑,并完整地保留了特征峰信息。
4.2 数据降维
选择”db4”小波函数,对预处理后的光谱做小波变换。为了实现最优分类效果,选择不同的分解层数,分别对训练集进行光谱处理,并将分解结果输入支持向量机进行分类,如图3所示流程,选择Thresh=90。小波分解层数与分类准确率的关系见图4a,当分解层数从1开始逐渐增大,分类准确率逐渐提高;当分解层数为3时,分类效果最佳;此后,分类效果变差。因此,选择3层小波分解。
4.3 特征分类
选择Gauss核函数[21],如式(4),其中,λ为高斯参数;引入惩罚因子C。支持向量机算法选用LIBSVM[22],通过10-fold交叉验证对高斯参数γ与惩罚因子C寻优[22]。分类器初始参数为C=2 Symbolm@@ 2, γ=2 Symbolm@@ 10,参数调整方式为C=C×2, γ=γ×2[21],交叉验证准确率与参数的对应关系如图4b,随着高斯参数或惩罚因子C逐渐变大,分类器容错率逐渐降低,分类准确率逐渐提高;同时,惩罚因子C与高斯参数γ对分类准确率具有协同作用,当两者处于最佳匹配时,分类准确率可以为99.7%。
在保证训练结果有效的同时,为了保证分类器对未知样本的泛化能力,对分类器参数优化结果及对应分类器的泛化能力进行了相关性研究:选择交叉验证结果高于70%时对应的参数组合,对检验集进行分类,所得分类准确率与交叉验证准确率的关系图如图5所示。当交叉验证准确率低于89%时,分类器分类准确率较差;当交叉验证准确率高于94%时,分类器分类准确率存在振荡,即此时分类器训练过程的过拟合影响了分类器的泛化能力。因此,分类参数最佳组合应保证交叉验证准确率为89%~ 94%,即图4b所示曲面拐点范围内。
4.4 结果分析
根据上文所述对交叉验证准确率的允许范围,选择交叉验证准确率为最小边界(89.2%)时对应的参数组合C=25, γ=2 Symbolm@@ 10,整体分类准确率为95.1%,分类结果见表1;选择交叉验证准确率为最大边界(93.8%)时对应的参数组合C=26, γ=2 Symbolm@@ 8,整体分类准确率为95.3%,分类结果见表2;选择最佳交叉验证准确率(91.86 %)对应的参数组合C=23, γ=2 Symbolm@@ 6,整体分类准确率为96.2%,分类结果见表3。
由分类结果可知,在交叉验证准确率允许范围内,整体分类准确率高于95.0%,整体假阳性率不高于9.0%; 对于含有50 mg/L MAMP或MDMA的毒品尿液光谱,假阴性率不高于3.0%; 对于含有30 mg/L MAMP和MDMA的毒品尿液光谱,假阴性率低于1.0%。而当选择最佳分类参数组合时,所得假阳性率为7.3%,假阴性率为0。因此,通过参数优化,可以实现得到令人满意的结果。
5 结 论
建立了低信噪比拉曼光谱模式识别方法。提出了自适应滤波算法,减少了拉曼特征峰强度的损失,同时得到了更好的滤波效果;通过小波分析及其分解层数寻优,实现了满足分类最优条件的光谱数据降维;采用交叉验证方法,研究了支持向量机参数优化对分类器性能的影响,给出参数寻优条件。将本方法用于人尿液中MDMA和(MAMP)两种毒品的微量分析,实现了4种样本分类,参数达到最优组合时,整体分类准确率高于95.0%,假阳性率为7.3%,假阴性率为0。将本方法用于海水中孔雀石绿的表面增强拉曼光谱检测,实现了痕量定性分析。本方法分类能力强,识别度高,但是前期需以较多的光谱样本作为训练数据,因而适用于光谱样本易获得, 光谱重现性较好的应用体系。
References
1
SHEN Min, SHEN Bao-Hua, HUANG Zhong-Jie, XIANG Ping, LIU Wei, BU Jun. Journal of Chinese Mass Spectrometry Society, 1998, 19(2): 65-69
沈 敏, 沈宝华, 黄仲杰, 向 平, 刘 伟, 卜 俊. 质谱学报, 1998, 19(2): 65-69
2 SUN Hong-Feng, GU Xue-Xin, WANG Ji-Fen, NI Wei-Gui, LI Wen-Jun, LI-Ying. Chinese Journal of Chromatography, 2007, 25(4): 590-593
孙洪峰, 谷学新, 王继芬, 倪为贵, 李文君, 李 瑛. 色谱, 2007, 25(4): 590-593
3 CHEN Yue, ZHU Jun, YU Zhong-Shan, ZHANG Yun-Feng, LIU Yao. Chinese Journal of Chromatography, 2012, 30(11): 1148-1152
陈 跃, 朱 军, 于忠山, 张云峰, 刘 耀. 色谱, 2012, 30(11): 1148-1152endprint
4 FAN Yu-Xia, LAI Ke-Qiang, HUANG Yi-Qun. Spectroscopy and Spectral Analysis, 2014, 34(7): 1859-1864
樊玉霞, 赖克强, 黄轶群. 光谱学与光谱分析, 2014, 34(7): 1859-1864
5 ZHANG Jin-Ping, LU Xin-An, YANG Jie, YANG Gui-Mei, ZHU Wen-Jie. Chemical World, 2011, 8: 465-469
张金萍, 鲁心安, 杨 洁, 杨桂梅, 朱文杰. 化学世界, 2011, 8: 465-469
6 Hartmann K, Putsche M B, Bocklitz T, Pachmann K, Niendorf A, Rsch P, Popp J. Anal Bioanal Chem, 2012, 403(3): 745-753
7 Stckel S, Meisel S, Elschner M, Rsch P, Popp J. Spectroscopic Analysis, 2012, 51(22): 5339-5342
8 Stckel S, Meisel S, Elschner M,Rsch P, Popp J. Analytical Chemistry, 2012, 84(22): 9873-9880
9 Trachta G, Schwarze B, Sagmuller B, Brehm G, Schneider S. Journal of Molecular Structure, 2004, 693(1-3): 175-185
10 Sgmüller B, Schwarze B, Brehm G, Trachta G, Schneider S. Journal of Molecular Structure, 2003, 661-662: 279-290
11 Hargreaves M D, Page K, Munshi T, Tomsett R, Lynch G, Edwards H G M. Journal of Raman Spectroscopy, 2008, 39(7): 873-880
12 Stewart A, Bell S. E. Chem. Commun (Camb), 2011, 47(15): 4523-4525
13 Bell S E J, Thorburn B D, Dennis A C, Matchett L J, Speers J S. The Analyst, 2000, 125(10): 1811-1815
14 Gemperline P L. Translated by WU Hai-Long, KANG Chao. Practical Guide to Chemometrics (2nd Edition). Beijing: Science Press, 2012
保罗·戈培林 著. 吴海龙, 康 超 译. 化学计量学实用指南 (第二版), 北京: 科学出版社, 2012
15 GAO Jun. Artificial Neural Network Theory and Simulation (2nd Edition). Beijing: China Machine Press, 2003: 78-84
高 隽. 人工神经网络原理及仿真实例(第2版), 北京: 机械工业出版社, 2003: 78-84
16 Theodoridis S, Koutroumbas K. Translated by LI Jingjiao, WANG Aixia, WANG Jiao. Pattern Recognition (4th Edition). Beijing: Publishing House of Electronics Industry, 2010: 81-90
(希)Theodoridis S, Koutroumbas K 著. 李晶皎, 王爱侠, 王 骄 译. 模式识别 (第四版), 北京: 电子工业出版社, 2010: 81-90
17 LIN Ji-Peng, LIU Jun-Hua. Spectroscopy and Spectral Analysis, 2006, 12(29): 2232-2235
林继鹏, 刘君华. 光谱学与光谱分析, 2006, 12(29): 2232-2235
18 Jiang X Q, Blunt L, Stout K J. Proc. R. Soc. Lond. A, 2000, 456: 2283-2313
19 Bggess A, Francis J M. Translated by RUI Guo-Sheng, KANG Jian. A First Couse in Wavelets with Fourier Analysis (2nd Edition). Beijing: Publishing house of electronics industry, 2010: 173-195endprint
艾伯特·博格斯, 朗西斯 J. 马科维奇 著. 芮国胜, 康 健 译. 小波与傅里叶分析基础(第二版), 电子工业出版社, 2010: 173-195
20 GUO Shu-Xia, ZHANG Feng-Ling, GAO Pan, ZENG Yong-Ming, CHEN Hong-Ju, LIU Guo-Kun, WANG Lei. Spectroscopy and spectral analysis, 2014, 34(5): 1284-1288
郭淑霞, 张凤玲, 高 盼, 曾勇明, 陈宏炬, 刘国坤, 王 磊. 光谱学与光谱分析, 2014, 34(5): 1284-1288
21 Hsu C W, Chang C C, Lin C J. http://www.csie.ntu.edu.tw/~cjlin. Version: 2003. Last update: April 15, 2010
22 Chang C C, Lin C J. ACM Transactions on Intelligent Systems and Technology, 2011, doi: 10, 1145/1961189, 196 1199
Surface Enhanced Raman Scattering Spectrum Recognition
for Trace Detection of Common Drugs in Urine
WANG Lei*1, GUO Shu-Xia1, DAI Yin-Zhen1, YANG Liang-Bao2, LIU Guo-Kun3
1(College of Physics and Mechanical and Electrical Engineering, Xiamen University, Xiamen 361005, China)
2(Institute of Intelligent Machines, Chinese Academy of Sciences, Hefei 230031, China)
3(College of Chemistry and Chemical Engineering, Xiamen University, Xiamen 361005, China)
Abstract Assembling an adapted smoothing method and a classifier of wavelet transform combined support vector machine (SVM), a Raman spectrum recognition approach was built for low signal noise ratio situation. Firstly, spectra data were denoised by the adapted smoothing method. The smoothing window was adapted to the signal noise ratio, which would effectively remove noise with the intensity of the signal well remained. Secondly, the wavelet transform was used for dimension reduction of the data. The decomposition level of wavelet transform was optimized according to the best classification result of the training set. Lastly, SVM was used for classification. Cross Validation (CV) was applied to obtain the optimized parameters of SVM. Conditions for the effective parameters were searched considering the relation between the cross-validation result and the classification accuracy. Combined with the surface enhanced Raman scattering (SERS) technology, the developed spectrum recognition approach was used for qualitative analysis of methamphetamine (MAMP) and 3,4-methylenedioxymethamphetamine (MDMA) in people′s urine, where the detecting accuracy is above 95.0%. The uniform Au nanorods (NRs) SERS substrate synthetized by the Hefei Institute of Intelligent Machines of Chinese Academy of Sciences was used for the experiment. Raman spectra were acquired using an Inspector Raman (DeltaNu) spectrometer, with the excitation wavelength of 785 nm and the integrate time of 5 seconds.
Keywords Raman spectrum; Smoothing; Wavelet transform; Support vector machine
(Received 22 June 2014; accepted 22 September 2014)
This work was supported by the National Key Scientific Apparatus Development of Special Item (No. 2011YQ030124) and the National Natural Science Foundation of China (No.21373173)endprint