段凌风 徐璐 王李冬
摘要:表面增强拉曼散射技术(SERS)是一种可以提供分子指纹信息的表征技术,具有快速、灵敏度高及检出限低等优势,已被广泛应用于食品分析领域。结构相似的分析物的SERS光谱重叠度较高,不宜用常规手段进行区分。以同类型色素为代表分析物,利用主成分分析(PCA)和BP神经网络相结合的方法,对高度重叠的SERS图谱数据进行分析,实现了同类型色素的SERS光谱区分。将归一化后累计贡献率达到90%的主成分进行BP网络训练和预测,结果发现,该法对不同色素预测的准确度高达99.87%,并且所呈现的结果与预计基本相同。
关键词: SERS;主成分分析;BP神经网络;色素判别;数据挖掘
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)31-0196-03
SERS Discrimination for Synthetic Pigment Based on PCA and BP Network Model
DUAN Ling-feng, XU Lu,WANG Li-dong*
(Qianjiang College, Hangzhou Normal University, Hangzhou 310018, China )
Abstract:Surface enhanced Raman scattering (SERS) has been widely used in biochemistry disease diagnosis and environmental monitoring, with the advantages of fast, sensitive, less material consumption and low detection limit. In the early detection of the pigment, we found that the overlap of the SERS spectra of the same type of pigment is high. In this paper, we employ Principal Component Analysis (PCA) and Back Propagation (BP) network to analyze the characteristic of the data and identify different spectra. Then, the normalized main component whose cumulative contribution reaches 90 % is trained and is predicted by BP network. The experimental results show that the accuracy for different pigments can achieve 99.87%. The results are basically the same as expected.
Key words:SERS;PCA;BP network;discrimination of pigment;data mining
1 概述
近年来,食品安全威胁到人类健康的问题频繁发生,引起了社会各界的高度关注。食品行业中,滥用添加剂、人工色素都极易引发人们的担忧。其中人工合成色素添加的不透明、不规范现象极为严重。据报道2013年北京市工商局查出在对北京市流通领域食品抽检中发现7个不合格样本,其中有两种肉制品被查出不得含有的色素“诱惑红”。
表面增强拉曼散射(Surface Enhanced Raman Scattering,简称SERS)技术由于具有灵敏度高、选择性好、费用低、试样量少、分析结果快速等优点,在生物、化学传感器、环境检测及食品分析[1-7]等方面都得到了广泛应用。由于不同分析物结构的差异性,理论上不同种类物质应具有各异的SERS特征。然而,由于有些分析物结构相似,其“指纹”信息差异小,谱线重叠严重,难以通过SERS光谱的直观对比进行区分,因此需要开发一种方法对高度重叠的SERS图谱进行分析判别。
在进行SERS检测时,获取的研究对象的特征峰属于“指纹区”,特征峰相对于其他的检测方法更为明显可靠,所以只需要在各个拉曼光谱中做谱线的归属以及峰强的比较就可以很好的区分出各种物质。但是,拉曼散射的形成是由于分子的振动,而同类物质的分子结构有可能很相似,所以产生的拉曼光谱就会很相似,用常规手段很难区分,再加之实验不可能达到理论完美,更加大了区分同类物质的难度。常见光谱分析判别方法主要是基于模式识别的光谱判别法,如最小二乘法支持向量机[8]、神经网络[9]等。在实践过程中,由于SERS信号维数过高,必须对原始数据进行降维、降噪的預处理。为了将高维数据简化,并保留其本身具有的特征,可以应用一定的模式识别方法,将数据简化的同时最大化体现其特征,提取出各物质主要信息,从而实现物质的区分。主成分分析法(Principal component analysis,PCA)是一种特征预处理的分析技术,可以提取一些对于结果有帮助的特征,从而降低模式识别的计算量[10]。此外,相对于最小二乘法支持向量机,BP神经网络学习速度相对更快,技术更为成熟,在拉曼光谱的应用中范围最广[11]。
基于上述分析,为了提高光谱的判别效率,将图谱主要特征提取出来,我们提出一种主成分分析与神经网络的SERS图谱判别模型(PCA-BP)。首先采用主成分分析提取SERS信号中的重要特征,再使用神经网络进行预测判别(图1)。将输出的值和预定值进行对比,得到的相似度以准确率的形式输出。
2 原理
2.1 主成分分析法——PCA
主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,从而使用低维数的特征进行分类。
假设训练集为X=[x11…x1p???xn1…xnp]。
那么可以用如下方法进行标准化处理:
[x*ij=xij-xjVarxj i=1,2,…,n;j=1,2,…,p] (1)
其中,[xj=1ni=1nxij],
[Varxj=1n-1i=1n(xij-xj)2(j=1,2,…,p)]。
设原始数据初始化后的矩阵仍用X来表示,经处理后数据的相关系数矩阵R为
[R=r11…r1p???rp1…rpp] (2)
其中,
[rij=covxi,xj=k=1k=n(xi-xi)(xj-xj)n-1,n>1] (3)
[covxi,xj]为求[xi,xj]协方差。之后计算相关特征值和特征向量。假定特征值記为[λ1,λ2,…,λp],特征向量记为[ai=ai1,ai2,…,aip,i=1,2,…,p],那么主成分可以得到[p]个主成分,一般是根据各个主成分的贡献率大小取前k个主成分。
贡献率[=λii1pλi] (4)
在本文的具体实现上,根据标准化的SERS光谱数据,按照各个样品,分别输入主成分模型得到主成分。
2.2 BP神经网络
BP神经网络是一种采用比较多的前馈神经网络,一般使用三层的进行学习,即:输入层、隐含层、输出层。训练发现输入层的输入参数不宜过多,否则会导致训练时间过长,但同样也需要尽可能的包含全部的主成分信息。
本文采用神经网络的输入层的节点个数为18,隐含层节点个数为18,输出层节点为1(如图2所示),即输入18维特征量,输出1个预测值。激活函数采用[S]型函数。
[f(x)=11+exp(-x)] (5)
BP神经网络的阈值依据能量函数负梯度下降原理进行动态调整,该网络的具体流程如下图所示:
3 实验与模拟
3.1 材 料
无水乙醇(分析纯,国药集团化学试剂有限公司),氨水(分析纯,国药集团化学试剂有限公司);
苋菜红(国药集团化学试剂有限公司)诱惑红(国药集团化学试剂有限公司);
二次去离子水(先进激光材料与器件重点实验室,江苏师范大学)。
3.2 实验仪器
便携式拉曼光谱仪(BWS465,B&W TEK,美国),0.5-10 uL、10-200 uL、100-1000 uL移液枪(Eppendorf,德国),离心机(Centrifuge 5804,Eppendorf,德国)。
3.3 溶液配置
用电子天平称取5mg苋菜红色素,加入二次去离子水50ml,得到100ppm苋菜红溶液。用同样的方法获得100ppm诱惑红溶液。
将香肠放入烧杯中,加入5ml的100ppm苋菜红溶液,浸泡10分钟后取出香肠。将无水乙醇、氨水、二次去离子水按照7:2:1的比例配置成萃取液[12]。将香肠放入萃取液中,搅拌,取出香肠,将溶液放入离心管a中。取等量的去离子水置于等离心管b中,将离心管a和离心管b放入离心机中,在4000转下运行5分钟,从离心管a中提取上层清液获得苋菜红香肠溶液,放入烧杯中加热至86oC,加热1小时后取出溶液放入试管中待测。用同样的方法获得在香肠中的诱惑红溶液。
3.4 SERS检测
打开激光器电源,启动激光,运行Raman光谱测量软件。激发光波长785 nm,积分时间10s,扫描次数3次,扫描范围250-2500 cm-1,激光功率10 mW。
首先扫描背景信号,打开激光检测SERS基底的拉曼信号,选取9个点。然后,用0.5-10[μl] 的移液枪取2[μl]的苋菜红溶液轻轻滴在基底上,由于基底具有超疏水性,苋菜红分子会附着在银纳米棒上,自然风干30分钟左右,扫描苋菜红的拉曼信号,扫描9个点,输出并用Excel表格保存数据。再用同样的方法得到诱惑红的拉曼信号,均用Excel表格保存。
3.5 PCA处理
因为得到的苋菜红和诱惑红SERS光谱的维数较高,因此采取PCA进行降维和去噪处理。将用Excel表格存储的拉曼光谱数据导入MATLAB程序中,运行PCA程序。将18*2000多维的数据降低至18*1维作为特征值,即提取累计贡献率前90%的特征以便投入BP网络中进行训练。将得出的数据用Excel表格保存。
3.6 BP神经网络训练
将PCA提取出的苋菜红和诱惑红纯品拉曼信号的特征值导入BP神经网络进行训练,并对数据进行归一化处理。
归一化公式为:
[x*i=xi-xminxmax-xmin] (6)
由于投入训练的维数有18维,所以输入层的节点个数为18,隐含层节点个数为18,输出层节点个数为1。首先初始化网络学习,将训练网络的最大迭代次数设为10000次,噪声强度为0.01,学习速率为0.035,目标误差为[0.65*10-3]。训练完成后,从香肠中提取两种色素的拉曼信号的特征值投入BP网络进行测试,并将编号为3的数据替换为随机数。
4 结果与分析
在测试时,将获得的纯品色素数据(测试数据,共18组)投入PCA进行降维处理,将降维后的数据投入BP神经网络进行测试,得出的相似度以准确率的形式输出,结果见表1。其中,编号10到18的数据为了以准确率的形式表现出来,将1减去输出值作为准确率。
由表1可知,本文所选用的PCA-BP模型的平均准确率为99.87%。经过尝试不同的训练组,发现得出的结果大致相同。其预测的结果与预先设定好的类别基本吻合。需要注意的是,3号样品为随机数,所以训练产生的输出值偏差较大。SERS的信号相对于传统的检测手段更为具体,本身具有相对较少的杂峰,特征峰也相对明显,所以特征的提取和识别度较高。由表1可得本文所采用的模型识别率较高。由于实验获取的过程不能做到理论上的完美,所以原始数据肯定会有一定量的误差,同时在PCA中降维也可能会产生误差,以及在BP网络中为了防止过度拟合生成了一定量的噪声,这些都会造成准确率没法到达100%。在多组检测中无法存在100%的准确率,还存在以下原因:1)激光器材会产生噪声,影响原始SERS数据的检出;2)在用电子显微镜对焦时焦距不对,导致扫描出的数据模糊化;3)为了防止过度拟合,在BP神经网络中添加了一定量的噪声,对个别的实验数据会产生影响。除此之外,溶液在基底上存放时间过长,水分蒸干后,色素分子分布的不均匀也会导致检测的信号有所不同。
5 总结
本文采用了PCA-BP神经网络模型对常用人工合成色素莧菜红和诱惑红的SERS图谱进行区分,对处于不同环境下的色素进行了归类判别。建立了一个有关苋菜红和诱惑红的数据挖掘模型。
1) 分别使用了色素纯品溶液和从染色过的香肠中提取出的色素溶液,将香肠浸泡在高浓度色素溶液中,并利用萃取液进行萃取,通过加温的方式去除萃取液中残留的酒精和氨水的影响。
2) 使用PCA对获得的SERS数据进行降维,并使用BP神经网络进行训练,获得了一个准确率较高的PCA-BP模型。结果表明当输入节点为18,隐含层节点为18时训练效果最好。
PCA-BP神经网络应用于色素SERS信号的数据挖掘已经得到实现,为了进一步提高稳定性和普适率,除了改进算法之外,还可以进一步改善实验条件,从而减少仪器和人为带来的不必要误差。本文将两种色素放在一起进行区分,还可以将更多的物质添加进来,从而建立多类型样本检测模型,有可能实现光谱数据的快速区分识别。
参考文献:
[1] 李然. SERS活性底物的制备及在分析检测中的应用[D]. 中国科学技术大学, 2013, O657.37.
[2] 唐祥虎, 刘锦淮, 杨良保. 复杂结构SERS基底的设计与构筑及其用于环境检测和催化监测[D]. 中国科学技术大学, 2014.
[3] Han Caiqin, Chen Jing, Wu Xiaomeng,et all. Detection of metronidazole and ronidazole from environmental Samples by surface enhanced Raman spectroscopy[J]. Talanta, 2014, 128: 293-298.
[4] Wang X J, Abell J L, Zhao Y ,et al.Angle-resolved reflectance of obliquely aligned silver nanorods[J].APPLIED OPTICS, 2012, 51(10):1521-1531.
[5] Chen Y P, Chen G, Zheng C,et al. Discrimination of gastric cancer from normal by serum RNA Based on surface-enhanced Raman spectroscopy (SERS) and multivariate analysis[J]. Medical Physics, 2012, 39(9):56-5668.
[6] Zhang, D. C., Y. R. Yan, W. Cheng, W. Zhang, Y. H. Li, H. X. Ju and S. J. Ding. Streptavidin-enhanced surface plasmon resonance biosensor for highly sensitive and specific detection of microRNA[J]. Microchimica Acta, 2013, 180(5):397-403.
[7] Zhao Y P , Chaney S B , Shanmukh S , et al. Polarized surface enhanced raman and absorbance spectra of aligned silver nanorod arrays [J]. Journal of Physical Chemistry B, 2006, 110(7):3153-3157.
[8] 刘伟,刘长虹,郑磊.基于支持向量机的多光谱成像稻谷品种鉴别[J].农业工程学报,2014,30(10):145-151.
[9] 王雷,乔晓艳,张姝,等. 基于BP神经网络的荧光光谱法农药残留检测[J].应用光学,2010,31(3):442-446.
[10] 李建林. 一种基于PCA的组合特征提取文本分类方法[J]. 计算机应用研究,2013,30(08):2398-2401..
[11] 陈秀丽,王桂文,陶站华,等.基于PCA和BP网络的地中海贫血红细胞拉曼光谱判别[J].中国激光,2009,36(9):2448-2453.
[12] 邢晓慧,尹未华,韩春菊,等.高效液相色谱法鉴定蜜饯中食用合成色素[J].视频研究与开发,2007,28(10).