基于连续投影算法和最小二乘支持向量机的污水中NH3-N近红外光谱建模*

2016-07-22 11:42喻其炳焦昭杰姚行艳倪茂飞
关键词:近红外光谱污水

喻其炳, 焦昭杰, 姚行艳, 倪茂飞

(重庆工商大学 制造装备机构设计与控制重庆市重点实验室,重庆 400067)



基于连续投影算法和最小二乘支持向量机的污水中NH3-N近红外光谱建模*

喻其炳, 焦昭杰, 姚行艳, 倪茂飞

(重庆工商大学 制造装备机构设计与控制重庆市重点实验室,重庆 400067)

摘要:通过扫描不同NH3-N含量污水的近红外光谱,建立了水样中NH3-N的定量分析模型。考虑到全谱高维数据建模较大的计算负担,采用连续投影算法(SPA)对水样光谱全谱进行特征波长筛选,将筛选后的特征变量采用最小二乘支持向量机(LS-SVM)进行建模;所建立的SPA和LS-SVM分析模型对污水中NH3-N分析的预测均方根误差为3.210 8,相关系数为0.984 4,相对分析误差5.681 2;与全谱LS-SVM模型和全谱部分最小二乘(PLS)模型相比,此处的建模方法将全谱模型的512维数据压缩为28维特征光谱数据(计算量占全谱的5.47%),但模型分析精度与全谱LS-SVM模型相近,且高于全谱PLS模型;该方法对实现水样NH3-N的快速检测以及低维度变量建模具有指导意义。

关键词:近红外光谱;NH3-N;连续投影算法;最小二乘支持向量机;污水

近红外光谱主要是X-H(C,O,N,S)基团振动的倍频和组合频的分子吸收光谱[1],它具有丰富的组成及结构性质,非常适合含氢有机物的组成、结构及性质的测量。近年来发展较快且能实现快速、高效地对样品进行定性和定量分析的NIRS技术已经成为环境检测领域[2-3]常用的工具之一。

传统国标法测定NH3-N不仅涉及各类繁琐操作,还用到了剧毒化学品如二氯化汞(HgCl2)、碘化汞(HgI2)、强化学腐蚀性硫酸等环境不友好化学药品。此外,传统国标法测完指标后的水样连同残留有害的化学药品一同被倒入下水道对水环境造成一定负担。

基于此现状,此处通过配制多个不同浓度的NH3-N污水结合近红外光谱分析技术,将光谱吸光度矩阵X和污水的NH3-N值向量Y关联起来建立回归模型,再利用建立好的回归模型,将预测水样的近红外光谱矩阵Xa放入回归模型模拟出一个NH3-N值向量Yp,将此模拟NH3-N值向量Yp对比标准溶液配制时对应的NH3-N值向量Ya来判断近红外光谱分析技术的准确性。考虑传统的全谱建模不仅变量多建模复杂,而且包含的大量冗余信息会降低分析精度,因此利用连续投影算法(SPA)从全谱光谱数据中筛选出特征波长,并且结合最小二乘支持向量机(LS-SVM)建立回归模型,对水样NH3-N进行预测分析,旨在提出一种水质指标近红外光谱快速定量检测方法,简化建模难度,提高分析模型的预测能力,实现水样中NH3-N的快速检测。

1实验过程与方法

1.1仪器

美国Ocean Optics公司生产的NIRQuest-512近红外光谱仪,波长范围900~1 722 nm,光学分辨率3.1 nm,采样间隔1.6 nm,LS-1溴钨灯光源,载样器光程10 mm,InGaAs检测器,512个波长点组成光谱数据。

1.2样品的配置与光谱数据采集

依据水质-氨氮的测定国标HJ/T 535-2009[4],分别向1 000 mL超纯水中加入称量好且在100~105 ℃干燥箱中干燥两个小时至恒重的不同含量的氯化铵(优级纯),人工配制浓度梯度在1~100 mg/L的120个不同氨氮含量的NH3-N标准溶液,设计浓度梯度符合正态分布。其中120个水样NH3-N值均根据国标HJ/T 535-2009算出,表1为NH3-N标准溶液换算关系式:

表1 NH3-N标准溶液换算式

根据表1,3.819 g氯化铵完全溶解在1 000 mL纯水中时NH3-N含量为1 000 mg/L,按此比例关系配制成的水样NH3-N含量在1~100 mg/L。将加入试剂的水样经超声波处理5 min,使试剂充分溶解于溶质中,作为实验样品采集光谱。

样本的NH3-N值范围详见表2。

表2 选择样本的NH3-N含量

采样时光谱积分时间选88 ms,平均次数10次,平滑度2,主板温度29.35 ℃,实验室室温29 ℃,湿度46%。120个不同样品的近红外光谱见图1。

图1 120个样品原始光谱Fig.1 Raw spectra of 120 samples

由图1可见,图谱中吸收谱带较宽,120个样品光谱图十分接近,虽然知道某些特定基团有吸收峰,但是光谱图吸收较弱而且严重重叠,因此,必须借助化学计量学相关知识来予以分析。

1.3校正样本的选择

1.4建模光谱变量压缩的连续投影算法

SPA在近红外光谱的多元定量和定性分析中应用广泛[6],它是一种向前循环变量筛选方法[7-8],能在严重重叠的近红外光谱信息中剔除冗余复杂的光谱信息,削弱各种非目标因素对近红外光谱的影响,减少建模变量,从而提高模型校正速度和建模效率。记XN×M为样品的吸光度矩阵,需要选择的波长个数为h,下面为SPA的算法步骤[9-10]:

第1步:在第1次迭代(p=1)开始前,在校正集光谱矩阵中任选一列xk,记做xf(0),f(0)=k(1≤k≤M);

第2步:把未被选中的其余波长点位置集合记为s,s={k, 1≤k≤M,k∈{f(0),…,f(p-1)} };

第3步:计算剩余列向量xk(k∈s)与当前所选向量xf(p-1)的投影:

第5步:令xk=Pxk,k∈s,将最大投影值作为下次迭代初始值;

第6步:p=p+1,若M

第7步:最后提取出波长位置:{f(p), 0≤p≤h-1} ;对应于每一个初始f(0),循环一次后进行多元定量回归分析,得到验证集的最小RMSEP值对应的f(p)就是提取的最优结果。

1.5建立回归模型的LS-SVM

LS-SVM是一种机器学习算法,其目标是基于训练数据产生出一个模型,以此模型来预测只给出属性的验证数据的目标值,它是标准支持向量机(SVM)在二次损失函数形式下的一种扩展[11-12]。Suykens[13]用等式约束替代不等式约束,因此只需求解一个等式方程组,避免了耗时的求解二次规划的问题,加快了求解速度。与传统的支持向量机(SVM)算法相比,LS-SVM降低了训练时间,提高了泛化能力,减少了计算复杂程度,常应用于光谱定性或定量分析中[14-15]。

LS-SVM的目标优化函数为

服从于

其中,ω为权重向量;c为正规化参数;ξi为误差;xi和yi分别为校正集的输入变量和输出变量;i=1,2,…,l;l为校正集样本数。定义如下 Lagrange函数:

(1)

式(1)中,αi为Lagrange系数。上述优化问题可等价于求解线性方程:

式中,L=[1,1,…,1]T;I为单位矩阵;Ω=<φ(xi),φ(xi)>=K(xi,xi);i,j=1,2,…,l;α=[α1,α2,…,αl]T;y=[y1,y2,…,yl]T。

对未知样本x,LS-SVM的预测值如下:

利用上述方法,可以建立污水中NH3-N含量的近红外光谱预测分析定量模型。

1.6建模精度评价指标

实验中分别采用RMSEP(Root Mean Square Error of Prediction),验证集的相关系数Rv,相对分析误差RPD作为精度评价指标,3个指标分别介绍如下。

(1)RMSEP定义为

(2)

式(2)中,yi,actual为第i样品参考方法的测定值,yi,predicted为验证集预测过程中第i样品的光谱方法预测值,m为验证集的样品数。RMSEP可以预测标准偏差,RMSEP越小代表所建模型的预测能力越强。

(2) 验证集的相关系数Rv定义为

(3)

(3) 相对分析误差RPD定义为

通常认为RPD<2表示预测结果不可接受;RPD>5表示预测结果可以接受。

2结果与讨论

2.1SPA数据压缩结果

图1中光谱波长的采样点数为512点,表明图1所示为512维数据。考虑到采用512维数据进行建模的计算量较大,采用SPA进行变量筛选(高维数据压缩)。对图1所示的512维数据进行SPA筛选,筛选结果如图2所示。

图2 SPA筛选结果Fig.2 Screening results of SPA

从图2中可以看出,SPA在512个光谱变量中筛选出了28个特征变量,这28个特征变量顺序按重要性排序如下:500,191,257,511,289,435,279,335,208,230,202,99,127,183,47,155,2,117,493,10,480,262,248,215,244,161,254,234,与之对应的波长分别为1 702.9 nm,1 210.4 nm,1 316.8 nm,1 720.2 nm,1 368.2 nm,1 600.4 nm,1 352.2 nm,1 441.7 nm,1 237.9 nm,1 273.4 nm,1 228.2 nm,1 060.7 nm,1 106.4 nm,1 197.4 nm,975.3 nm,1 152.0 nm,900.9 nm,1 090.1 nm,1 691.9 nm,914.1 nm,1 671.4 nm,1 324.9 nm,1 302.4 nm,1 249.2 nm,1 295.9 nm,1 161.7 nm,1 312.0 nm,1 279.8 nm。

这样,采用SPA可以将512维光谱数据压缩为28维的光谱数据,下面用这28维变量进行LS-SVM建模。

2.2对SPA压缩数据的LS-SVM建模结果

表3 30个验证集建模结果

根据表3,画出NH3-N模型预测值与实际值的相关系数图(图3)。

采用前述的3个精度评价指标对所建立的模型进行计算,其结果为Rv=0.984 4,RMSEP=3.210 8,

PRD=5.681 2。以上结果表明,所提出的方法具有较好的建模精度,可以采用NIRS对污水中NH3-N进行定量分析和检测。

图3 SPA+LS-SVM模型预测值与实际值对比Fig.3 Results of the joint SPA and LS-SVM model

2.3与其他建模方法的比较

为了分析所提出的SPA和LS-SVM联合模型的有效性,还与两种其他模型的建模效果进行了比较。为公平起见,建模数据都采用图1的水质光谱数据,评价指标也是RMSEP,Rv,RPD这3个指标。

首先比较的是全谱(原始光谱)LS-SVM建模方法,其模型预测值与实际值相的关系数如图4。

图4 原始光谱LS-SVM模型预测值与实际值相关系数图Fig. 4 LS-SVM modelling results using the raw spectrum

通过定量计算,原始光谱LS-SVM模型精度指标为Rv=0.989 4,RMSEP=2.646 9,PRD=6.891 5。

然后采用全谱(原始光谱)PLS方法进行建模预测。为了得到可靠稳定的PLS模型,建模时利用Full Cross-Validation验证模型[16]。模型中主因子数按照最优的因子数进行设置,主因子数选择4。全谱PLS模型预测值与实际值相关系数如图5所示。

图5 原始光谱PLS模型预测值与实际值相关系数图Fig. 5 PLS model prediction results

通过定量计算,原始光谱PLS模型精度指标为RMSEP=3.862 9,Rv=0.977 3,RPD=4.722 1。

将3种方法建立的模型预测精度进行比较,其结果如表4所示。

表4 不同建模方法比较

从表4可以看出,原始光谱(全谱)PLS模型的分析效果一般,其RPD小于5,因而其建模预测精度不够好。而原始光谱(全谱)LS-SVM建模的精度与SPA+LS-SVM建模的精度总体上差不多,略有提升。但是需要指出的是,当采用全谱数据进行LS-SVM建模时,建模变量的维数是512维,其复杂度是SPA和LS-SVM联合模型建模维数(28维)的18.3倍。因此,与全谱LS-SVM建模结果相比,所提出的SPA+LS-SVM模型与全谱LS-SVM建模精度基本差不多,但是计算复杂度大幅降低。可见,所提出的联合SPA和LS-SVM的污水中NH3-N的近红外光谱检测模型可以在大幅提高建模效率的同时获得满意的检测分析精度。

3结论

采用近红外光谱进行污水中NH3-N检测,并提出了联合SPA和LS-SVM的定量分析模型。将全谱PLS和全谱LS-SVM建模方法进行比较,结果表明,原始光谱数据直接建立PLS模型精度最差,说明氨氮水样的近红外光谱分析中,非线性校正模型具有比线性校正模型更好的效果。原始光谱直接LS-SVM的相关系数最高,验证集的均方根误差最小,RPD最大,但是建模的维度是512,计算量较大。SPA在原始光谱的512个变量中筛选出最具代表性的28个特征变量(占全谱的5.47%),利用这28个特征变量建立LS-SVM模型,其精度与512个变量建模效果相当。考虑到SPA可以大幅降低计算机的运算负担,表明SPA是一种有效的特征波长提取方法,能够在有效降维的同时保持分析模型的建模精度,从而提高建模效率。此处所提出的方法对利用近红外光谱分析技术对水质中NH3-N指标的快速检测具有指导意义。

参考文献(References):

[1] 褚小立.化学计量学方法与分子光谱分析技术[M].北京:化学工业出版社,2011

ZHU X L.Stoichiometry and Molecular Spectroscopy[M].Beijing:Chemical Industry Press,2011

[2] 苏迪,李川,焦昭杰.NIRS中联用EEMD与SPA建立变压器油中微水的LS-SVM回归模型[J].分析试验室,2013,32(8):77-81.

SU D,LI CH,JIAO ZH J.A Joint EEMD and SPA Approach for LS-SVM Modeling of Moisture Content in Transformer Oil Using NIRS[J].Chinese Journal of Analysis Laboratory,2013,32(8):77-81

[3] 焦昭杰,白云,张贤明,等.近红外光谱法快速测定油品水分[J].光谱分析,2011,28(6):3120-3123

JIAO ZH J,BAI Y,ZHANG X M,et al.Fast Determination of Water Content in Oil by Near Infrared Spectroscopy[J].Chinese Journal of Spectroscopy Laboratory,2011,28(6):3120-3123

[4] 环境保护部HJ 535-2009.水质-氨氮的测定,纳什试剂分光光度法[S].北京:中国环境科学出版社,2009

State Environmental Protection Administration HJ 535-2009.Determination of Water 1uality-ammonia Nitrogen,Nessler’s Reagents Spectrophotometer[S].Beijing:Envir-onmental Science Press of China,2009

[5] 展晓日,朱向荣,史新元,等.SPXY样本划分法及蒙特卡罗交叉验证结合近红外光谱用于橘叶中橙皮苷的含量测定[J] .光谱学与光谱分析,2009,29(4):964-968

ZHAN X R,ZHU X Y,SHI X Y,et al.Determination of Hesperidin in Tangerine Leaf by Near-Infrared Spectroscopy with SPXY Algorithm for Sample Subset Partitioning and Monte Carlo Cross Validation[J].Spectroscopy and Spectral Analysis,2009,29(4):964-968[6] KHANMOHAMMADIA M,GARMARUDIA A B,GHASE-MIA K,et al.Artificial Neural Network for Quantitative Determination of Total Protein in Yogurt by Infrared Spectrometry[J].Microchemical Journal,2009,91(1):47-52

[10] 陈斌,孟祥龙,王豪.连续投影算法在近红外光谱校正模型优化中的应用[J].分析测试学报,2007,26(1):66-69

CHEN B,MENG X L,WANG H.Application of Successive Projections Algorithm in Optimizing Near Infrared Spectroscopic Calibration Model[J].Journal of Instrumetal Analysis,2007,26(1):66-69

[11] 王宇红,黄德先,高东杰,等.基于LS-SVM的非线性预测控制技术[J].控制与决策,2004,19(4):383-387

WANG Y H,HUANG D X,GAO D J,et al.Nolinear Predictive Control Based on LS-SVM[J].Control and Decision,2004,19(4):383-387

[12] 安欣,徐硕,张录达,等.多因变量LS-SVM回归算法及其在近红外光谱定量分析中的应用[J].光谱学与光谱分析,2009,29(1):127-130

AN X,XU SH,ZHANG L D,et al.Multiple Dependent Variables LS-SVM Regression Algorithm and its Applica-tion in NIR Spectral Quantiative Analysis[J].Spectroscopy and Spectral Analysis,2009,29(1):127-130

[13] SUYKENS J A K,VANDEWALE J.Least Squares Support Vector Machine Classifiers[J].Neural Processing Letters,1999,9(3):293-300

[14] 周晶,孙素琴,李拥军,等.近红外光谱和聚类分析法无损快速鉴别不同辅料奶粉[J].光谱学与光谱分析,2009,29(1):110-113

ZHOU J,SUN S Q,LI Y J,et al.FITR and Classification Study on Powdered Milk with Different Assist Material[J].Spectroscopy and Spectral Analysis,2009,29(1):110-113

[15] 吴桂芳,何勇.应用可见/近红外光谱进行纺织纤维鉴别的研究[J].光谱学与光谱分析,2010,30(2):331-335

WU G F,HE Y.Identification if Varieties of Textile Fibers by Using Vis/NIR Infrared Spectroscopy Technique[J].Spectroscopy and Spectral Analysis,2010,30(2):331-335

[16] 侯明明,喻其炳,焦昭杰,等.基于近红外光谱的透平油微量水分检测[J].重庆工商大学学报(自然科学版),2012,29(3):94-98

HOU M M, YU Q B,JIAO ZH J,et al.Near Infrared Spectroscopy Measurement of Moisture Content in Turbine Oil Using Relevance Vector Machines[J].Journal of Chongqing Technology and Bussiness University(Natural Science Edition),2012,29(3):94-98

责任编辑:李翠薇

doi:10.16055/j.issn.1672-058X.2016.0004.002

收稿日期:2015-10-21; 修回日期:2015-12-04.

*基金项目:重庆市科委基础与前沿研究项目(CSTC2015JCYJA70007).

作者简介:喻其炳(1972-),男,重庆市人,高级工程师,从事环境与机械工程研究.

中图分类号:O657.3

文献标志码:A

文章编号:1672-058X(2016)04-0008-07

Near Infrared Spectroscopy Modelling of NH3-N in Wastewater Using Successive Projection Algorithm and Least Squares Support Vector Machine

YU Qi-bing,JIAO Zhao-jie,YAO Xing-yan,NI Mao-fei

(Chongqing Technology and Business University,Chongqing Key Laboratory of Manufacturing Equipment Mechanism Design and Control,Chongqing 400067,China)

Abstract:By scanning near infrared spectrum (NIRS) of wastewater with different NH3-N contents,a quantitative analysis model of NH3-N in wastewater was proposed.Taking into consideration the computational burden of full spectral data,successive projection algorithm (SPA) was employed to choose the feature spectral data.The selected feature variables were then used for modeling based on least squares support vector machine (LS-SVM).The proposed model resulted in RMSEP=3.210 8,correlation coefficient=0.984 4,and RPD=5.681 2.Compared to the full-spectral LS-SVM model and partial least squares (PLS) model,the proposed SPA and LS-SVM model compressed 512-dimentional full-spectral data into 28-dimentional ones whose computation burden is 5.47% of the full-spectral data.Nevertheless,the precision of the proposed model is similar to the full-spectral LS-SVM model and is better than the full-spectral PLS model.The proposed method has good guidance significances for rapid measurement of NH3-N and low-dimensional variable modeling.

Key words:near infrared spectroscopy; NH3-N; successive projections algorithm; least squares support vector machine; wastewater.

猜你喜欢
近红外光谱污水
处理污水
污水磷资源回收
污水的自述
污水罐坍塌
污水零直排,宁波已经动起来
基于近红外光谱法的藜麦脂肪含量快速检测
利用油水稳定化和支持向量回归增强近红外光谱测定油中水分的方法
基于一元线性回归的近红外光谱模型传递研究
船企污水除磷技术简介