姜 微,房俊龙,王树文,王润涛(.东北农业大学电气与信息学院,哈尔滨 50030;2.哈尔滨金融学院计算机系,哈尔滨 50030)
CARS-SPA算法结合高光谱检测马铃薯还原糖含量
姜微1, 2,房俊龙1*,王树文1,王润涛1
(1.东北农业大学电气与信息学院,哈尔滨150030;2.哈尔滨金融学院计算机系,哈尔滨150030)
摘要:以竞争性重加权自适应选择算法(CARS)结合连续投影算法(SPA)选择马铃薯还原糖含量特征波长,共制备238个样本,比色法测定马铃薯还原糖含量,选择190个样本作校正集,48个样本作验证集,与全光谱和经典变量提取方法比较。结果表明,CARS-SPA算法筛选波段效果最佳,相比于全谱建模其参与建模波长点由203个减少到17个,模型验证集决定系数r2由0.8464提高到0.8965,均方根误差(RMSEP)由0.0758降到0.0490。结果表明,采用CARS-SPA结合高光谱成像技术检测马铃薯还原糖含量结果可行。
关键词:高光谱;竞争性自适应重加权采样算法;连续投影算法;马铃薯;还原糖
姜微,房俊龙,王树文,等. CARS-SPA算法结合高光谱检测马铃薯还原糖含量[J].东北农业大学学报, 2016, 47(2): 88-95.
Jiang Wei, Fang Junlong, Wang Shuwen, et al. Using CARS-SPA algorithm combined with hyperspectral to determine reducing sugars content in potatoes[J]. Journal of Northeast Agricultural University, 2016, 47(2): 88-95. (in Chinese with English abstract)
马铃薯还原糖含量是影响加工品质重要因素之一[1]。准确、快速测定马铃薯还原糖含量对于马铃薯深加工等具有重要意义。目前,测定还原糖的电化学法和比色法多为传统方法,操作步骤繁琐,成本高,不利大批样品分析测定[2]。研究马铃薯还原糖含量快速检测方法,具有一定应用价值。
高光谱成像技术可获取被测对象光谱信息和波长图像信息。该技术检测马铃薯内外部品质研究已有报道。Dacal-Nieto等应用高光谱成像技术无损检测马铃薯空心病[3]。Rady等提出高光谱成像技术快速检测马铃薯含糖量可行[4]。Jiang等基于高光谱成像技术检测马铃薯中淀粉含量,效果良好[5]。周竹等应用高光谱图像系统、透射光谱系统和傅立叶变换近红外光谱仪检测马铃薯黑心病,表明光谱检测马铃薯黑心病,高光谱成像系统高于傅立叶变换成像[6]。苏文浩等应用高光谱技术结合图像处理方法检测马铃薯外部缺陷,表明正确识别率达82.5%[7]。周竹等应用高光谱技术检测马铃薯干物质含量[8]。吴辰等应用高光谱成像技术快速检测马铃薯淀粉含量取得较好效果,验证模型相关系数和均方根误差分别为0.982和0.249[9]。金瑞等基于高光谱图像和光谱信息融合技术可同时识别马铃薯多种缺陷指标,混合识别率达96.58%[10]。由于高光谱具有较高分辨率,导致大量冗余信息存在于原始光谱信息中。因此,利用高光谱数据定量分析前压缩光谱信息尤为必要。
本文以马铃薯为研究对象,基于高光谱成像技术获取马铃薯光谱曲线信息,采用竞争性自适应重加权算法(CARS)结合连续投影算法(SPA)筛选特征波长,与全光谱和其他变量提取方法比较,分别建立偏最小二乘PLS模型并验证,获取适用于马铃薯品质定量分析的高光谱最优变量。
1.1样品与仪器
选用黑龙江省哈尔滨周边城市不同品种马铃薯为研究对象。去除表面缺陷明显样本,共238个样品。随机选取其中190个作建模样本集,其余48个作预测样本集。试验前将马铃薯表面清洗干净。
采用美国HeadWall公司生产高光谱图像采集系统。系统由图像采集单元、光源、样本输送平台三部分组成。图像采集单元包括图像光谱仪、CCD摄像头、镜头;光源为150 W可调功率光纤卤素灯。高光谱图像光谱仪狭缝宽度为25 μm,光谱范围为是400~1000 nm,光谱分辨率为1.29 nm,采集图像时波段间隔为3 nm,空间分辨率0.15 mm。
1.2还原糖含量化学分析法
还原糖含量化学值测定:采用3,5-二硝基水杨酸比色法,具体步骤参见文献[11]。
1.3数据采集
不同波段下光源强度分布不均匀,摄像头中存在暗电流,导致光源分布较弱波段噪声过大,须对高光谱图像校正。为降低光源因温度变化造成图像干扰,每采集20幅样本图像,作一次全白标定图像和全黑标定图像采集,根据公式(1)得到校正后高光谱图像[12]。
式中,I-校正后图像;Is-原始图像;Iw-白板图像;Id-黑色图像。
1.4数据预处理
为减弱或消除基线漂移、散射等非目标因素对光谱影响,对高光谱成像仪采集光谱预处理[13]。分别对原始光谱采用平滑13点、最大值归一化、基线校正、正交信号校正和标准化等预处理,并依次比较原始光谱和预处理后光谱对定标模型影响,以系数最大、均方根误差最小原则,确定预处理方法。去除与样本无关信息,提高模型预测能力。
1.5竞争性自适应重加权算法(CARS)
竞争性自适应重加权算法(CARS)是模拟达尔文进化论“适者生存”提出的变量选择方法[14]。每次通过自适应重加权采样(ARS)技术筛选PLS模型中回归系数绝对值大波长点,去除权重小波长点,交叉验证选出PLS模型中交叉验证均方根误差RMSECV最小子集定义为最优变量子集。
假定所测样本光谱阵矩阵为Xm×p,m为样本数,p为变量数,Ym×1表示目标响应向量。T为X分矩阵,是X与W线性组合,W为组合系数。c表示Y和T建立PLS校正模型回归系数向量,e为预测残差。则有如下关系式成立:
T=XW
Y=Tc+e=XWc+e=Xb+e
式中,b=Wc=[b1,b2,…,bp],表示一个p维系数向量。b中第i个元素绝对值|bi|(1≤i≤p)表示第i个波段对Y贡献,|bi|值越大该变量越重要。为评价每个波段重要性,定义权重为:
通过CARS算法去除变量,其权重ωi均设为0。主要流程见图2。
变量保留率ri=ae-ki
其中,a和k为常数,分别在第1次和第N次 MCS采样时,样本集中全部p个变量参与建模和仅2个变量参与建模,即r1=1且rN=2/p,从而
本文中,变量数p为203,设定MC采样次数为200,因此,常数a和k值分别为1.0235和0.0232。
图2 CARS算法流程Fig. 2 Flow chart of CARS algorithm
1.6模型评价
利用交叉验证法优化模型相关参数,由决定系数r2、校正均方根误差RMSEC、预测均方根误差RMSEP和交叉验证均方根误差RMSECV对模型评价。模型决定系数r2越高,RMSECV和RMSEP越小,模型预测能力越强。
选用鲜马铃薯还原糖含量作为建模对象,在400~1 000 nm波段选取203个波段点,使用Matlab R2013a编程实现模型分析。
2.1还原糖含量化学值
马铃薯还原糖含量见表1。
2.2预处理方法选择
样本区域在400~1 000 nm波长范围下原始光谱图(见图3)。每条光谱包含203个波段。观察图3发现,样本光谱曲线趋势类似,无异常样品。不同样品对光反射和吸收存在差异,无法直接获得与马铃薯还原糖含量相关特征波长,须利用有效方法选取特征波长。
图3中,可能由于马铃薯表皮较粗糙及环境杂散光等原因导致光谱区域存在较大散射和基线漂移,光谱进一步分析前需预处理。分别采用平滑13点、最大值归一化、基线校正、正交信号校正和标准化等预处理方法,建立PLS模型,比较分析后确定平滑预处理效果最佳。
不同预处理方法马铃薯还原糖含量PLS建模预测结果(见表2)。可知13点平滑预处理所建立PlS模型性能最佳,决定系数r2和均方根误差RMSEP分别为0.8516和0.0671。随着平滑点数增加,PLS模型性能逐渐下降。经最大值归一化和正交信号校正预处理后,PLS模型性能略有下降,而经基线校正预处理后,PLS模型性能最差,RMSEP 为0.0791。
表1马铃薯还原糖含量Table 1 Reducing sugar in potato
图3样本原始光谱Fig. 3 Spectra of samples
2.3关键变量选择
2.3.1 CARS变量筛选
采用CARS算法对鲜马铃薯还原糖含量全光谱变量多次筛选,最终选择33个波长点。筛选结果如图4所示。筛选中,蒙特卡洛采样次数设定为200。(a)、(b)和(c)分别表示在1次CARS算法运行中随着采样次数增加,变量数、交叉验证RMSECV值和每个变量回归系数变化。
图4(a)可知,在指数衰减函数作用下,选择变量个数随着采样次数增加由快至慢递减,算法在变量筛选中能对变量粗选和精选,极大提升算法效率。图4(b)可知,随采样次数增加,单个PLS模型交叉验证RMSECV值呈先递减后递增变化,采样次数为28时,达到最小值;表明在第1~27次采样运算中,高光谱中与马铃薯还原糖含量预测大量无关信息被去除,43次采样后RMSECV值开始递增,表明一些关键信息被剔除导致模型性能变差。图4(c)中“*”线标示出最小RMSECV值所对应采样次数。利用CARS算法筛选各波段光谱数据建立PLS模型,并与全波段模型比较。由表3可知,CARS变量筛选后建模得到RMSECV和RMSEP均优于全波段建模,模型质量明显提高。另外,波段数由203个减少到33个,模型所用变量数显著降低。
2.3.2其他变量选择算法
GA遗传算法以达尔文适者生存和优胜劣汰生物进化论为基础,模拟生物界遗传和进化过程建立的一种优化方法[15]。本研究设定遗传迭代次数为200,初始种群大小50,交叉率50%,变异率0.5%,适应度函数选择“F=RMSE”,建立马铃薯还原糖含量PLS模型,结果见表3。由选取变量数与RMSECV值确定最佳变量数,图5(a)表示RMSECV值和变量个数。可知,变量数为119时获得最小RMSECV=0.0249。
MC-UVE是相对较新变量选择方法,基于分析PLS回归系数c算法,消除不提供有效信息变量。通过MC采样技术采样N次,每次从样本集中抽取一定比例样本作建模集PLS建模,通过评价每个变量稳定性进行变量筛选。采用UVE选择全波段203个波长点,如图5(b)所示,图中虚线表示稳定性值截止线。经过UVE变量选择,最终选取95个波长,建立PLS模型,预测结果见表3。
本文将马铃薯样品校正集用移动窗口偏最小二乘(MWPLS)法进行信息区间定位。此处设定窗口宽度为27,所提取PLS成分数上限为15,结果如图5(c)所示。倒立峰形曲线由各变量点RMSECV随窗口位置变化形成,其中虚线表示全光谱含有12个主成分时,交叉验证均方根误差为0.0603比较合适。由图5可知,波长范围450~ 470、520~560、730~810、860~890和910~980 nm 时RMSECV值较小。将以上106个特征光谱变量合并成新数据集作后续最优波长组合变量选择,建立PLS模型,结果见表3。
表2不同预处理方法PLS建模结果Table 2 Results of PLS regression of different pretreatment methods
图4 CARS关键变量选择Fig. 4 Key variables screening by CARS
图5 GA、MC-UVE和MWPLS变量选择算法Fig. 5 Key variables selection results
表3偏最小二乘回归模型性能Table 3 Performance of PLSR model
由表3可知,GA-PLS模型预测结果(r2pre和RMSEP分别为0.8521和0.0683)均高于MC-UVEPLS和MW-PLS模型,与全变量PLS模型相比,预测结果优于全变量模型,进一步证明变量筛选有助于提高模型性能。与CARS-PLS模型比较,二者预测性能相同,但GA-PLS模型使用了比CARS-PLS模型多72.24%变量(119和33)、r2pre提高0.08%。因此,综合分析四种变量选择方法,CARS波长选择能力最强。
2.4 SPA连续投影算法二次波长选择
经变量选择后,变量个数均有减少,模型性能指标提高。仍须进一步优选光谱变量。尝试将CARS算法选择后特征波长采用连续投影算法二次筛选最优波长组合,建立PLS模型。连续投影算法SPA利用向量投影分析,寻找光谱信息中含有最低限度冗余信息变量组,使变量之间共线性达到最小,减少建模变量数量,可有效减小模型建立过程中拟合复杂程度,加快拟合运算速度[16]。
本试验中针对不同波长范围内光谱信息,通过改变m_max(最大有效波长数)观察在m_max不同条件下模型最佳参数及结果,波长选择结果如图6。
由图6可知,在选择m_max=17时,获得最小RMSECV值,模型拟合效果最佳。由表3可知,CARS-SPA-PLS模型预测结果优于CARS -PLS模型,且波长点由33个变为17个,提高了模型拟合速度和效率,模型验证集决定系数r2pre为0.8965,均方根误差RMSEP降为0.0490。
图6 SPA特征波长选择结果Fig. 6 Characteristic band selection result of SPA
采用高光谱成像技术结合竞争性自适应重加权算法预测马铃薯还原糖含量,结果表明,由CARS算法获得关键变量建立PLSR模型性能优于全波段PLS模型。同时与MWPLS、GA和MCUVE变量选择法比较,CARS算法在变量选择方面优于其他。本文在CARS基础上进一步采用连续投影算法进行变量筛选,最终将原始光谱203个变量减少到17个,所建PLSR模型r2pre及RMSEP分别为0.8965和0.0490,预测结果均优于其他变量选择算法,可有效定量分析马铃薯还原糖含量。
[参考文献]
[ 1 ]朱海霞,石瑛,张庆娜,等. 3, 5-二硝基水杨酸(DNS)比色法测定马铃薯还原糖含量研究[J].中国马铃薯, 2005, 19(5): 266-269.
[ 2 ]王春英,陈伊里,石瑛.影响马铃薯油炸品质研究进展[J].中国马铃薯, 2003(3): 23-24.
[ 3 ] Dacal-NietoA,FormellaA, CarriónP,etal.Non-destructivedetection of hollow heart in potatoes using hyperspectral imaging[J]. Com⁃puter Analysis of Images and Patterns, 2011, 6855(2): 180-187.
[ 4 ] Rady A, Guyer D, Lu R F. Evaluation of sugar content of potatoes using hyperspectral imaging[J]. Food Bioprocess Technol, 2015, 8 (1): 995-1010.
[ 5 ] Jiang W, Fang J L, Wang SW, et al. Detection of starch content in potato based on hyperspectral imaging technique[J]. International Journal of Signal Processing, Image Processing and Pattern Recognition, 2015, 8(12): 49-58.
[ 6 ]周竹,李小昱,高海龙,等.漫反射和透射光谱检测马铃薯黑心病比较[J].农业工程学报, 2012, 28(11): 237-243.
[ 7 ]苏文浩,刘贵珊,何建国,等.高光谱图像技术结合图像处理方法检测马铃薯外部缺陷[J].浙江大学学报:农业与生命科学版, 2014, 40(2): 188-196.
[ 8 ]周竹,李小昱,高海龙,等.马铃薯干物质含量高光谱检测中变量选择方法比较[J].农业机械学报, 2012.43(2):128-133.
[ 9 ]吴辰,何建国,贺晓光,等.基于近红外高光谱成像技术马铃薯淀粉含量无损检测[J].河南工业大学学报:自然科学版, 2014, 35 (5): 11-16.
[10]金瑞,李小昱,颜伊芸,等.基于高光谱图像和光谱信息融合马铃薯多指标检测方法[J].农业工程学报, 2015, 31(16): 258-263.
[11]北京大学生理教研室.植物生理实验技术[M].北京:北京大学出版社,1983.
[12] ElMasry G, Wang N, Vigneault C. Detecting chilling injury in Red Delicious apple using hyperspectral imaging and neural networks [J]. Postharvest Biol Technol, 2009, 52(1): 1-8
[13]陆婉珍.现代近红外光谱分析技术[M].第2版.北京:中国石化出版社, 2005.
[14]詹白勺,倪君辉,李军.高光谱技术结合CARS算法库尔勒香梨可溶性固形物定量测定[J].光谱学与光谱分析, 2014, 34(10): 2752-2757.
[15]孔庆明,苏中滨,沈为政,等. iPLS-SPA波长选择方法在近红外秸秆检测中应用研究[J].光谱学与光谱分析, 2015, 35(5): 1233-1238.
[16]刘国海,江辉,梅从立.基于dbiPLS-SPA变量筛选固态发酵湿度近红外光谱检测[J].农业工程学报, 2013, 29(25): 218-222.
Using CARS-SPA algorithm combined with hyperspectral to determine reducing sugars content in potatoes
JIANG Wei1, 2, FANG Junlong1, WANG Shuwen1, WANG Runtao1(1. School of Electrical and Information, Northeast Agricultural University, Harbin 150030, China; 2. Department of Computer, Harbin Finance University, Harbin 150030, China)
Abstract:The paper used competitive adaptive reweighed sampling (CARS) and successive projections algorithm (SPA) to select the characteristic wavelength for detecting the reducing sugar content in potato. A total of 238 samples were prepared and the potato reducing sugar content was determined by colorimetry. Among them, 190 samples were selected as the calibration set and 48 samples as the validation set. The performance of CARS-SPA was compared with full spectrum and classical variable extraction methods. Results showed that the band screened by algorithm CARS-SPA had the best effect, compared to full spectrum modeling, the wavelength of the model reduced from 203 to 17, the model validation set coefficient r2increased from 0.8464 to 0.8965, and the root mean square error of prediction (RMSEP) decreased from 0.0758 to 0.0490. The results demonstrated that it was feasible to detect the reducing sugar content of potato using CARS-SPA combined with hyperspectral imaging.
Key words:hyperspectral; CARS; SPA; potato; reducing sugars
*通讯作者:房俊龙,教授,博士生导师,研究方向为信息处理与智能测控。E-mail: 13936439133@126. com
作者简介:姜微(1980-),女,讲师,博士研究生,研究方向为农业信息技术。E-mail: jwhancg@126. com
基金项目:现代农业产业技术体系建设专项资金(CARS-10-P22);国家高技术研究发展计划(863计划)(2013AA102303)
收稿日期:2015-08-27
中图分类号:TS255.7;S532
文献标志码:A
文章编号:1005-9369(2016)02-0088-08