李 芳 陆安祥,3 王纪华,3
(1.北京农业质量标准与检测技术研究中心,北京市农林科学院,北京 100097;2.农产品产地环境监测北京市重点实验室,北京 100097;3.农业部农产品质量安全风险评估实验室(北京),北京 100097)
基于支持向量机的X射线荧光光谱重金属检测模型的建立
李芳1,2陆安祥1,2,3王纪华1,2,3
(1.北京农业质量标准与检测技术研究中心,北京市农林科学院,北京 100097;2.农产品产地环境监测北京市重点实验室,北京 100097;3.农业部农产品质量安全风险评估实验室(北京),北京 100097)
目的意义:建立土壤中As、Cr、Cu、Pb、Zn等5种重金属的定量检测模型,为土壤重金属的快速检测提供一种新思路。方法:利用X射线荧光光谱技术结合支持向量机对土壤中的5种重金属元素进行定量检测,在对检测数据进行(-1,1)归一化处理以及K折交叉验证寻优的基础上,讨论了基于网格寻优算法、粒子群算法以及遗传算法的支持向量机回归模型,通过比较均方根误差,得出采用遗传算法进行优化后建模效果最佳。结果:将遗传算法参数设为进化代数200次,种群数量20,交叉率0.4,变异率0.1,在此条件下建模并验证模型准确度和精密度,得到5种重金属检测模型预测值与检测值间决定系数r2分别为0.9821、0.958、0.9764、0.9673和0.9684,交叉验证均方根误差与模型训练集、测试集均方根误差数值较低。结论:模型预测精度高,相关性显著,能够很好的预测土壤中的5种重金属含量,对于提高仪器的快速、准确测定有着重要的意义。
X射线荧光光谱重金属支持向量机遗传算法
X射线荧光(X-ray Fluorescence,XRF)光谱是基于X射线激发元素并使其放射二次X射线原理的检测方法,根据不同元素的二次X射线对应特征能量及波长进行定性、定量分析。XRF方法可检测的元素范围宽泛,从Na(11号)到U(92号)共有82种;利用XRF分析具有非破坏性、检测效率高、样品处理简单等优点,因此目前已广泛用于元素测定领域[1-3]。XRF在土壤环境中重金属检测方面的应用日益增加,土壤重金属污染的诱因包括工农业发展迅猛、城市化进程扩张加速等,因此建立一种土壤重金属快速检测方法,能够从宏观上了解污染状况,为进一步的治理和修复等工作奠定基础。
支持向量机(Support Vector Machine,SVM)由Vapnik提出,是机器学习方法的一种,可被训练,其原理构造分类超平面,使正例、反例二者间的隔离边缘被最大化[4]。SVM方法是一种有效的、通用的、便于计算的具有鲁棒性的方法,适用于处理非线性、高维模式识别领域中的小样本问题,且可延伸至其它机器学习方法,如:函数拟合等[5]。遗传算法(Genetic Algorithm,GA)于1975年由美国 J.Holland教授最先提出,建立在达尔文进化论的基础上,模拟进化过程进行筛选确定最优结果,直接操作结构对象,没有函数连续性、求导的制约;寻优方法建立在概率化的基础上,自动得到并指导优化的搜索空间,自适应地调整搜索方向,无需明确的规则[6]。基于GA的这些性质,人们已将其应用在信号处理、机器学习、自适应控制、组合优化、人工生命等各个方面[7-11]。
本文提供一种基于SVM的XRF定量分析农田土壤中As、Cr、Cu、Pb、Zn含量的方法,并通过GA优化SVM的惩罚系数和核函数参数,实现对土壤中目标元素的定量分析。
SVM是一种针对有限样本情况的机器学习方法,能够实现结构风险最小化,解决凸二次规划问题,可避免陷入局部极值,获得全局最优解[12]。
已知一组训练集D={(x1,y1),…(xl,yl)},l为样本数量,xi∈Rn,yi∈R,i=1,2,…..l,n为xi向量维数,R为实数集。对于非线性问题可以通过非线性变换将输入向量映射到高维特征空间,转化为类似的线性回归问题加以解决。这种非线性变换通过适当的核函数实现[13]。公式如下:
(1)
式中,δ是核函数参数,xp、xq是训练样品集的有效特征向量,p,q∈[1,n],最优分类问题转化为求分类间隔函数φ(w,ε)的最小值:
(2)
式中,γ是误差惩罚参数,ε是惩罚系数。
约束条件为:
yk[(Ψ(xk)×w+b)]≥1-ε
(3)
式中,xk是输入层向量,yk是输出层向量中的元素,Ψ(xk)是特征向量xk在特征空间S的映射,b是SVM模型的截距。
最后通过拉格朗日算法得到SVM模型为:
(4)
式中,αk为拉格朗日算子。SVM算法中,惩罚参数r和核函数参数δ对拟合结果影响较大,只有选择合适的模型参数,才能发挥模型的预测能力。
3.1仪器与样品
仪器选用北京农业质量标准与检测技术研究中心自主研发的便携式 XRF光谱仪,仪器主要性能参数为:Ag靶高性能微型 X 光管、Al+Mo滤片、探测器为电子冷却Si-PIN,测试电压30kV、测试电流30μA。
实验中使用的标准物质购自国家标准物质研究中心,实际样品分别采自北京、黑龙江、云南、江苏和新疆的典型农耕土壤表层(0~20cm)。土样中重金属的分析测定均按照国家标准执行,其中As按照GB/T 22105.2-2008标准检测,所用仪器为AFS- 830原子荧光分析仪,其余4种重金属均使用美国Solaar- M原子吸收石墨炉进行检测,所执行的标准分别为Cr:GB/T 17137-1997,Cu、Zn:GB/T 17137-1997,Pb:GB/T 17141-1997,检测过程中加入国家标准土壤样品(GSS- 1)进行质量控制,每个样品检测3次,采用将样品填充进乙烯样品杯(直径×高:30mm×10mm)中进行XRF分析,样品杯配有固定麦拉膜(美国 PremierLab Supply公司,厚6μm,XRF分析专用)的卡圈。
3.2特征提取
土壤成分的复杂性导致检测光谱存在基质效应的干扰,影响检测精度,因此在进行数据分析处理前,对光谱进行降噪、基线校正、归一化处理和寻峰等前处理,提高信噪比,从而提高模型准确度。对光谱的前处理工作经Matlab软件编程实现,剔除冗余信息。临近的重金属峰会有相互干扰,为提高准确性,以Ag(Kα线:22.16keV)为内标峰,归一化处理特征峰强度及光谱积分强度,降低由于能量抖动造成的检测误差;最终检测光谱经寻峰、能量定位后提取4.95、5.41、5.90、6.40、6.93、7.48、8.05、8.64、10.54、11.22、11.73、12.61keV等12个荧光峰强度值,建立XRF输入矩阵。
实验所用土壤样品共109份,建立As、Cr、Cu、Pb、Zn的定量检测模型。建模时先采用浓度梯度法划分训练集、预测集,其中,训练集样本数据用来建立模型,预测集样本数据用来对模型进行评价,对应的样品个数分别为71、38。由于样品中重金属浓度差异大,因此对数据进行归一化处理,归一化至(-1,1)区间内,再进行建模分析,方法是建立在平均数方差法的基础上[14],即:设x=x(x1,x2,…,xn),建立映射f(xk)=(xk- xmean)/xvar,xmean=mean(x)=mean(x1,x2,…,xn),xvar=var(x)= var(x1,x2,…,xn),将原始输入谱矩阵和输出矩阵进行归一化处理至(-1,1)区间内,归一化完成后再建立定量模型。
4.1不同参数寻优方法用于建模
SVM算法建模,在得到训练集高正确率的同时无法确保测试集的高预测精度,针对这一问题,采用交叉验证(cross validation,CV)法进行优化,常用的方法是k折交叉验证 (k- fold cross validation,K-CV):将训练集合分成k个大小相同的子集,其中一个子集用于测试,其它 k-1 个子集用于对分类器进行训练[15,16](图1)。这样,整个训练集中的每一个子集被预测一次,交叉验证的正确率是 k 次正确分类数据百分比的平均值,可防止过拟合及欠拟合的问题的出现。
图1 交叉验证原理图
对于SVM算法,惩罚参数r和核函数参数δ对拟合结果影响较大,但目前尚未有公认的参数优化标准方法,常用的寻优方法包括:实验法、网格搜索算法(grid search,GS)[17]、遗传算法(genetic algorithm,GA)[18]、粒子群算法(particle swarm optimization,PSO)[19]等.实验法工作量大,耗时久,难以寻到最优值,因此实验中选用另外3种方法进行试验,并比较结果。试验建立在K-CV基础上,通过K-CV确定适应度函数后,再进一步寻优,分析流程见图2。
图2 基于GS/PSO/GA的定量分析流程图
4.2结果与讨论
4.2.1寻优方法的确定
均方根误差(RMSE)可以衡量预测值与真值间的偏差,即回归模型整体预测精度,计算公式为:
(5)
将K-CV方法运用于适应度函数的确定过程,计算均方根误差CVMSE,分别采用GS、GA和PSO算法寻优,以r2和RMSE为评价指标,以Cr为例,建模结果见表1。分析表1中参数可知GA算法r2高于GS、PSO,MSE则较低,表明经GA算法寻优后建模,预测值与实际值更接近,模型准确度更高。另外,GA算法γ值较高,缩短了建模运算时间,因此整体比较后,选用GA算法进行参数寻优。Cr的参数寻优和预测结果见图3。
表1 不同寻优算法建模结果
图3 基于GA的Cr元素寻优结果(a)适应度曲线;(b)训练集结果;(c)测试集结果
4.2.2模型精密度和准确度评价
选择相对标准偏差(RSD)和相对误差(RE)评价预测模型的精密度和准确度,二者可用于分析独立预测点,计算公式为:
(6)
(7)
在K-CV优化,GA参数寻优的基础上建立Cr、As、Cu、Pb、Zn五种重金属的检测模型。将遗传算法的进化代数设定为200次,种群数量设为20,交叉率设为0.4,变异率设为0.1。经初步建模实验后,将SVM模型惩罚参数γ的范围定为0~100,核函数参数δ的范围定为0~1,惩罚系数ε范围设定为0~1,进行实验。得到的数据结果见表2。由表2可知各重金属模型r2均大于0.96,训练结果与参考值大小相近,表明模型建立成功,该方法能够很好的改进XRF光谱仪的检测准确度。
图4 5种重金属的RSD、RE图(a)相对标准偏差;(b)相对误差比较图(虚线为RE均值)
重金属γδCVMSE训练集测试集r2RMSEr2RMSECr19.85020.4009569.1560.98625218.430.95492164.84As19.93990.4690499.8370.98462236.430.99041170.91Cu19.97530.1126166.1120.98049127.310.974365.734Pb15.28910.0741751.2240.97382152.490.9606108.58Zn13.90060.1790364.7380.97149229.360.98112183.59
4.2.3回归模型验证
对所有样品的检测值和预测值进行相关分析,结果见图5。从图5中可以看出As、Cr、Cu、Pb、Zn对应的决定系数分别为0.9821、0.958、0.9764、0.9673和0.9684,预测值与检测值系数接近1、说明模型预测进度较高。整体看来,该方法数据拟合效果较好,模型准确度高,进一步证实了GA算法寻优后建模的可行性。
图5 SVM模型检测值与预测值相关性
(1)在K-CV基础上,比较GS、GA、PSO 3种参数寻优算法,结果显示基于GA优化算法建立的模型准确性最高且耗时短,最终确定用该算法寻优建模;
(2)验证独立预测点重复预测的RSD、RE值,分别验证单点以及整体模型预测准确性和精确度,结果表明模型具有较强的泛化能力;
(3)在选定的优化方法基础上,设定GA算法参数:进化代数200次,种群数量20,交叉率0.4,变异率0.1,各重金属整体r2较高,模型预测值与参考值接近,建模成功;对于提高仪器的快速、准确测定有着重要的意义。
(文中建模所用到样品数量为109,涵盖了我国典型农耕土壤类型,样品具有代表性,参考其他现有文献,本实验所选用样品数量合理)
[1]Kodom K,Preko K,Boamah D.X-ray Fluorescence (XRF)Analysis of Soil Heavy Metal Pollution from an Industrial Area in Kumasi,Ghana[J].Soil and Sediment Contamination:An International Journal,2012,21(8):1006-1021.
[2]Hutton L A,O’Neil G D,Read T L,et al.Electrochemical x-ray fluorescence spectroscopy for trace heavy metal analysis:enhancing x-ray fluorescence detection capabilities by four orders of magnitude[J].Analytical chemistry,2014,86(9):4566-4572.
[3]冉景,王德建,王灿,等.便携式X射线荧光光谱法与原子吸收/原子荧光法测定土壤重金属的对比研究[J].光谱学与光谱分析,2014,34(11):3113-3118.
[4]Aryafar A,Gholami R,Rooki R,et al.Heavy metal pollution assessment using support vector machine in the Shur River,Sarcheshmeh copper mine,Iran[J].Environmental Earth Sciences,2012,67(4):1191-1199.
[5]李晓婷,刘勇,王平.基于支持向量机的城市土壤重金属污染评价[J].生态环境学报,2014,23(8):1359-1365.
[6]马永杰,云文霞.遗传算法研究进展[J].计算机应用研究,2012,29(4):1201-1206,1210.
[7]危涛.遗传算法在雷达信号处理中的应用[D].西安电子科技大学,2010:13-33.
[8]赵天闻.基于机器学习方法的人脸识别研究[D].上海交通大学,2008:21-25.
[9]钱灯云.基于遗传算法的高压最小流量阀PID自适应控制研究[D].上海交通大学,2012:33-73.
[10]崔红建.改进免疫遗传算法在组合优化问题中的应用研究[D].大连海事大学,2012:24-41.
[11]周剑利,马壮,陈贵清.基于遗传算法的人工生命演示系统的研究与实现[J].制造业自动化,2009,31(9):38-40.
[12]Lv J,Liu X,Huang Y.Estimation of heavy metal concentrations in rice using support vector machines and particle swarm optimization from reflectance spectroscopy[J].International Journal of Applied Mathematics and Statistics,2013,50(20):257-263.
[13]王春龙,刘建国,赵南京,等.基于支持向量机回归的水体重金属激光诱导击穿光谱定量分析研究[J].光学学报,2013,33(3):314-319.
[14]吴蕾.基于支持向量机的环境数据分析与处理[D].长沙:中南大学,2013:23-28.
[15]曹兆龙.基于支持向量机的多分类算法研究[D].上海:华东师范大学,2007:6-15.
[16]刘涛,贾进章.基于K-CV&SVM的工作面煤层瓦斯含量预测[J].世界科技研究与发展,2015,37(2):147-150.
[17]郭美丽,覃锡忠,贾振红,等.基于改进的网格搜索SVR的话务预测模型[J].计算机工程与科学,2014,36(4):707-712.
[18] Devos O,Downey G,Duponchel L.Simultaneous data pre-processing and SVM classification model selection based on a parallel genetic algorithm applied to spectroscopic data of olive oils[J].Food chemistry,2014,148:124-130.
[19] Liu Y,Wang G,Chen H,et al.An improved particle swarm optimization for feature selection[J].Journal of Bionic Engineering,2011,8(2):191-200.
[20]Ch S,Anand N,Panigrahi B K,et al.Streamflow forecasting by SVM with quantum behaved particle swarm optimization[J].Neurocomputing,2013,101:18-23.
Establishment of X-ray fluorescence heavy metal detection model based on support vector machine.
Li Fang1,2Lu Anxiang1,2,3,Wang Jihua1,2,3
(1.Beijing Research Center for Agricultural Standards and Testing,Beijing 100097,China;2.Beijing Municipal Key Laboratory of Agriculture Environment Monitoring,Beijing 100097,China;3.Risk Assessment Lab for Agro-products(Beijing),Ministry of Agriculture.P.R.China,Beijing 100097,China)
An X-ray fluorescence spectrum quantitative detection models for five heavy metals(Cr,Cu,Zn,Pb and As)in soil were established based on support vector machine.The experiment results showed that the model had a significant correlation;the predicted values were close to the reference values,which indicated a good modeling effect for predicting heavy metals in soil.
X-ray fluorescence;heavy metal;support vector machine;genetic algorithm
国家公益性行业(农业)科研专项项目农产品产地重金属污染安全评估技术与设备开发(201403014-04)资助。
李芳,女,1989年出生,2015年于吉林大学获硕士学位,研究领域:农产品安全,E-mail:viki2069@126.com。
10.3936/j.issn.1001-232x.2016.04.015
2016-02-29