基于UV-Vis检测养殖水体中化学需氧量含量研究

2016-06-15 16:36王晓明章海亮刘雪梅
光谱学与光谱分析 2016年1期
关键词:方根波长光谱

王晓明,章海亮,罗 微,刘雪梅

华东交通大学轨道交通学院, 江西 南昌 330013

基于UV-Vis检测养殖水体中化学需氧量含量研究

王晓明,章海亮*,罗 微,刘雪梅

华东交通大学轨道交通学院, 江西 南昌 330013

采用紫外可见光谱(UV-Vis)与极限学习机算法检测水体化学需氧量(chemical oxygen demand,COD)含量研究。采集135份水样进行紫外可见波段全光谱扫描,结合变量标准化(standard normal variate,SNV),多元散射校正(MSC)和一阶微分(1st D)对原始数据进行预处理,然后采用竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)、随机青蛙(Random frog)算法和遗传算法进行特征波长选择。基于全光谱建立了偏最小二乘回归(partial least squares,PLS)和基于特征波长建立了极限学习机算法(extreme learning machine,ELM)模型。结果表明:使用CARS提取的9个特征波长建立的ELM模型的预测效果最优,决定系数R2为0.82,预测均方根误差RMSEP为 14.48 mg·L-1,RPD值为2.34。说明使用CARS变量选择算法获取UV-Vis光谱特征波长,应用极限学习机建模,可以准确、快速的检测养殖水体中COD含量,为实现养殖水体COD的动态快速检测以及水体其他微量物质含量参数检测打下基础。

极限学习机;化学需氧量;Random frog;CARS;GA

引 言

水产养殖是农业生产活动的一项重要内容,也是农民创业致富的重要途径,近年来,我国水产养殖行业发展迅速,对提高我国居民消费水平起到了重要推动作用,然而由于不正常的工业生产排放污水造成养殖水体污染严重,健康的水体生产出符合健康消费要求的水产品,养殖水体污染后,生产出来的水产品质量就得不到保证,这将直接影响我国居民消费水平的提高[1]。COD在水产养殖中作为一项衡量养殖水体指标是否合格及评价水体中有机物污染程度的指标[2-3]。传统的COD检测方法有快速消解分光光度法和重铬酸钾滴定法等,另外流动注射分析法和电化学方法等也被用于化学需氧量的检测[4],但这些传统检测方法普遍存在一些缺点如需要消耗试剂、检测时间较长、存在二次污染等。

紫外可见光谱(ultraviolet/visible,UV-Vis)作为一种低成本、快速、无损检测技术方法,被广泛应用于水体中微量物质参数如COD含量检测。本研究采用紫外可见光谱(UV-Vis)基于极限学习机算法检测水体COD含量,采用CARS,Random frog算法和GA算法进行特征波长选择。基于全光谱建立了PLS模型和基于特征波长建立了ELM模型。

1 实验部分

1.1 样本采集

研究采用Cary 60(Agilent,USA)紫外-可见光谱分光光度计。在室温(25±1)℃条件下对水样进行光谱扫描,盛装水样的石英比色皿光程长度为10 mm,采集样本在200~400 nm之间的吸收光谱,采集前需进行去离子水做基线校正,每个检测样本扫描10次,取10次光谱的平均值。紫外可见光谱采集软件为Cary WinUV V5.0(Agilent,USA),光谱预处理软件是The Unscrambler V9.7(CAMO,Norway),变量选择和建模软件是Matlab 2009a(MathWorks,USA)。试验用水产养殖水样采集自某地甲鱼养殖示范区,根据不同的养殖密度,把采集水样分成6个实验组,连续采集6个月的实验数据,共采集135个养殖水体样本。选择代表性的建模集样本是获得模型预测性能良好的关键技术之一,合适的校正集选择方法能增强模型的预测能力,由于SPXY(sample set partitionning based on joint X-Y distance)样本划分方法在计算样本间距离同时考虑x光谱和y理化值,SPXY样本划分方法采用。90个样本用于模型校正,45个样本用于模型预测集。

1.2 光谱噪声去除

采用SNV算法,MSC和1st D等算法对光谱进行处理,在Unscramble 9.7软件自带算法完成处理,并对三种去噪声算法进行比较。

1.3 特征波长选择算法

光谱数据由于波长点多,导致模型复杂和计算量大,同时存在大量的共线性和冗余信息特征,对有效光谱提取产生干扰。采用CARS,Random frog算法和遗传算法选择特征波长,减少数据共线性和数据冗余,同时简化模型和减少运算量。CARS原理是每次采样过程中利用自适应重加权采样技术(adaptive reweighted sampling,ARS)和指数衰减函数(Exponentially decreasing function,EDP)结合的方法优选出PLS模型中回归系数绝对值大的波长点,去除PLS中回归系数值权重较小的波长,基于十折交叉验证,选择N个偏最小二乘子集模型预测均方根误差最小的子集,该子集为最优变量组合。N次采样后得到N个变量子集,依据交互验证选出交互验证均方根误差(RMSECV)最小的变量子集,该子集所包含的变量即为最优特征波长变量组合[5]。Random frog是一种较新的特征波长选择算法,由Li等(2012年)提出并用于基因变量的选择。Random frog是一种类似于可逆跳转马尔可夫链蒙特卡洛(ceversible jump markov Chain monte carlo,RJMCMC)的算法,通过模拟一条服从稳态分布的马尔可夫链,来计算每个变量的被选择概率,从而进行重要变量的选择。Random frog与PLS方法相结合,PLS模型返回结果中根据回归系数曲线上每个变量的绝对值大小作为每次迭代过程中该变量是否被选择或者剔除的依据[6]。遗传算法是通过模拟生物进化随机寻优求解的一种常用算法,由于光谱矩阵存在信息冗余、重叠和共线性等影响因素,通过遗传算法选择变量与浓度值最相关的波长,用于建模,提高模型精度同时可以简化模型[7]。

1.4 建模分析

基于全谱建立PLS分析模型,分别基于选择的特征波长建立ELM模型如图1所示。PLS是最为常用的化学计量学建模方法。同时考虑光谱矩阵X和样本理化值Y,建立预测模型,通过降维获取潜在变量,消除无用的光谱变量。ELM是一种相对简单易用且有效的单隐层前馈神经网络(single-hidden layer feedforward neural network)学习算法。类似于BP神经网格由输入层、隐含层和输出层共三层结构组成,其中隐含层和输入层及输出层实现了神经元全连接。其中,输入层有n个输入变量(神经元);隐含层有l个结点(神经元);输出层对应m个输出变量(神经元)。传统的BP神经网络算法需要人为设置大量的网络训练参数,并且很容易产生局部最优解[8, 9]。

2 结果与讨论

2.1 样本COD含量统计分析

所收集的水体样本COD统计见表1,校正集和预测集的化学需氧量值都涵盖了较大的范围,有助于构建准确、稳定和普适性较好的模型。

Table 1 Results of chemical oxygen demand (COD) statistical value of samples

2.2 特征波长选择

基于CARS,Random frog和遗传(genetic algorithm,GA)算法选择COD的相关特征波长,详见表2。从表2可知,CARS所选择的COD特征波长的个数多于Random frog和GA算法。CARS算法提取特征波长的原理和方法详见参考文献[5]。

遗传算法是通过波长点被选频率次数的大小来确定建模变量的数量,如图2所示,图中有两条虚线,下面那条横线认为是模型预测精度最优的,代价是被选择用于建模的波长数量也会相应增多,上面那条横线被认为模型预测精度可以被接受,用于建模的波长数量要明显少于上面那条横线确定的建模变量数,这点从图2中比较容易看出来。本研究选择下面那条线所对应的波长数量来建立预测模型,认为优先考虑模型精度,模型复杂度次之。

Fig.1 Extreme Learning Machine (ELM) schematic diagram

Fig.2 GA+PLS selected characteristic wavelength

Random frog确定特征变量通过频率值的大小来选择,基于蒙特卡洛(Monte Carlo)算法,要说明的一点Random frog算法每次运行的结果略有不同。因此为减小随机因素的影响,需多次运行,对结果进行统计取值。本研究针对COD特征波长的选择,分别运行random frog算法15次,统计了15次运行结果的均值。

如图3所示,横坐标是波长变量,纵坐标是被选概率,概率的大小用来评价变量的重要性,概率越大的变量其重要性越大。将所有变量的被选概率排序,以0.15为阈值,分别选出概率最大的前15个变量作为特征波长,见表2。

Fig.3 Random frog select sensitive wavelength

Table 2 Number of characteristic wavelengths collected by CARS, Random frog and GA

注:CARS(competitive adaptive reweighted sampling)为竞争性自适应重加权算法、GA(genetic algorithm)为遗传算法;Random frog为随机青蛙算法,下同

2.3 基于全波长的PLS模型

PLS模型同时考虑光谱矩阵X和样本理化值Y,建立预测模型,通过降维获取潜在变量,消除无用的光谱变量。为了更好的比较SNV,MSC和1st D数据预处理算法对原始光谱改进效果,将对三种光谱预处理方法建立的模型评价指标进行比较,同时包括全谱的PLS模型一起比较,结果见表3。

Table 3 Results of PLS models

基于SNV光谱预处理方法建立的PLS模型取得了最佳的检测结果,校正集的决定系数为0.79,均方根预测误差为15.67 mg·L-1,预测集的决定系数为0.77,均方根预测误差为15.96 mg·L-1, RPD值为。1st D算法分析虽然突出了部分有用光谱信息,但也引入了更多的光谱噪声,导致PLS预测效果最低,其预测集的决定系数为0.75,均方根预测误差为16.54 mg·L-1,剩余预测偏差RPD为2.05。故后面提取特征波分析在SNV分析基础上进行。

2.4 基于特征波长的ELM模型

基于CARS,Random frog和GA特征波长选择算法得到的特征波长的ELM模型的计算结果如表4所示。

Table 4 Results of ELM models

从表4可知,采用CARS提取的特征波长建立的ELM模型的效果最好,预测集的决定系数为0.82,均方根预测误差为14.48 mg·L-1,剩余预测偏差RPD为2.34。采用Random frog选择的特征波长取得了相对较差效果,预测集的决定系数为0.80,均方根预测误差为15.76 mg·L-1,剩余预测偏差为2.14。分别比较基于CARS和Random frog算法提取的特征波长建立的ELM模型可知,基于CARS提取特征波长的ELM模型效果要优于基于Random frog和GA提取特征波长的结果,究其原因,Random frog和GA选择的特征波长包含有用信息的同时还含有噪声信息,没有达到最优选择。

2.5 PLS模型和ELM模型的比较

基于CARS,Random frog和GA算法提取特征波长建立的模型中,ELM模型优于PLS模型。PLS模型最优的预测集的决定系数为0.77,均方根预测误差为15.96 mg·L-1,剩余预测偏差为2.12,而基于Random frog提取特征波长的ELM模型的预测集的决定系数为0.80,均方根预测误差为15.76 mg·L-1,剩余预测偏差为2.14,略优于PLS模型的相应结果。ELM模型是一种非线性建模方法,考虑到了模型建立过程中的非线性因素,如水体颜色和温度等非线性影响因素,提高了模型的预测精度。

3 结 论

采用紫外-可见光谱(UV-Vis)基于极限学习机算法检测水体COD量研究,结合SNV,MSC和1st D对原始数据进行预处理,基于全光谱建立了偏最小二乘回归(partial least squares,PLS)模型。然后采用CARS,Random frog算法和遗传算法进行特征波长选择。研究结果表明采用SNV预处理算法最优,建立的全谱PLS模型优于MSC和1stD算法去噪声处理后建立的全谱PLS模型,在SNV基础上,同时采用CARS算法、Random frog算法和GA算法提取特征波长,并基于特征波长建立ELM预测模型,获得了较高的预测精度。SNV光谱预处理基础上采用CARS算法选择的特征波长建立的ELM模型取得了最佳效果,预测集的决定系数为0.82,均方根预测误差为14.48,剩余预测偏差RPD为2.34。

[1] Hussain S, Shaikh S, Farooqui M. Journal of Saudi Chemical Society, 2013, 17(2): 199.

[2] Wu J, Yan G, Zhou G, et al. Chemical Engineering Journal, 2014, 258(0): 450.

[3] ZHOU Xiao-bai,ZHANG Ning-hong,ZHANG Yong, et al(周笑白,张宁红,张 咏, 等). Ecology and Envionmental Science(生态环境学报), 2012, (12): 1975.

[4] LIU Xue-mei,ZHANG Hai-liang(刘雪梅,章海亮). Spectroscopy and Spectral Anlysis(光谱学与光谱分析), 2014, 34(10): 2804.

[5] Li H D, Liang Y Z, Xu Q S, et al. Analytica Chimica Acta, 2009, 648(1): 77.

[6] Li H D, X Q S L. Analytica Chimica Acta, 2012, 740(1): 20.

[7] Senseney C T, Krahenbuhl R A, Mooney M A. International Journal of Geomechanics, 2013, 13(4): 473.

[8] GAO Hong-yan, SUN Jun, WEI Ai-guo(高洪燕, 孙 俊, 卫爱国, 等). Transactions of the Chinese Society for Agricultue Machinery(农业机械学报), 2014, 45(07): 272.

[9] ZHANG Chu,LIU Fei,KONG Wen-wen, et al(张 初,刘 飞,孔汶汶, 等 ). Chinese Society of Agricultural Engineering(农业工程学报), 2013, (20): 270.

*Corresponding author

Measurement of Water COD Based on UV-Vis Spectroscopy Technology

WANG Xiao-ming, ZHANG Hai-liang*, LUO Wei, LIU Xue-mei

College of Railway Tracks and Transportation, East China Jiaotong University, Nanchang 330013, China

Ultraviolet/visible (UV/Vis) spectroscopy technology was used to measure water COD. A total of 135 water samples were collected from Zhejiang province. Raw spectra with 3 different pretreatment methods (Multiplicative Scatter Correction (MSC), Standard Normal Variate (SNV) and 1 st Derivatives were compared to determine the optimal pretreatment method for analysis. Spectral variable selection is an important strategy in spectrum modeling analysis, because it tends to parsimonious data representation and can lead to multivariate models with better performance. In order to simply calibration models, the preprocessed spectra were then used to select sensitive wavelengths by competitive adaptive reweighted sampling (CARS), Random frog and Successive Genetic Algorithm (GA) methods. Different numbers of sensitive wavelengths were selected by different variable selection methods with SNV preprocessing method. Partial least squares (PLS) was used to build models with the full spectra, and Extreme Learning Machine (ELM) was applied to build models with the selected wavelength variables. The overall results showed that ELM model performed better than PLS model, and the ELM model with the selected wavelengths based on CARS obtained the best results with the determination coefficient (R2), RMSEP and RPD were 0.82, 14.48 and 2.34 for prediction set. The results indicated that it was feasible to use UV/Vis with characteristic wavelengths which were obtained by CARS variable selection method, combined with ELM calibration could apply for the rapid and accurate determination of COD in aquaculture water. Moreover, this study laid the foundation for further implementation of online analysis of aquaculture water and rapid determination of other water quality parameters.

Extreme learning machine (ELM); COD; Random frog; CARS; GA

Dec. 2, 2014; accepted Mar. 25, 2015)

2014-12-02,

2015-03-25

国家自然科学基金项目(61565005)和江西省科技支撑项目(20142BDH80021, 20151BAB207009)资助

王晓明,1978年生, 华东交通大学轨道交通学院讲师 e-mail: 36464894@qq.com *通讯联系人 e-mail: seacau@163.com

TP391

A

10.3964/j.issn.1000-0593(2016)01-0177-04

猜你喜欢
方根波长光谱
基于三维Saab变换的高光谱图像压缩方法
高光谱遥感成像技术的发展与展望
我们爱把马鲛鱼叫鰆鯃
均方根嵌入式容积粒子PHD 多目标跟踪方法
基于频域分析方法的轨道高低不平顺敏感波长的研究
日本研发出可完全覆盖可见光波长的LED光源
星载近红外高光谱CO2遥感进展
数学魔术——神奇的速算
RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量
数学魔术