黄凌霞,金航峰,金佩华
(1.浙江大学动物科学学院,浙江杭州310058;2.浙江农林大学,浙江 杭州 ,311300)
基于可见—近红外光谱的蚕茧含水率无损检测研究
黄凌霞1,金航峰2,金佩华2
(1.浙江大学动物科学学院,浙江杭州310058;2.浙江农林大学,浙江 杭州 ,311300)
以蚕茧含水率为研究对象,研究了基于可见—近红外光谱技术的蚕茧含水率无损检测方法。采用最小二乘支持向量机(least square-support vector machine,LS-SVM)建立可见—近红外光谱模型,采用连续投影算法(successive projections algorithm,SPA)选取光谱有效波长。结果表明,基于SPA方法进行变量选择,最终将原始光谱的601个光谱变量减少到了11个(487,501,616,718,771,782,789,826,966,977和991nm)。基于此11个变量建立的LS-SVM模型得到了预测集的确定系数(RP2)为0.8517,误差均方根(RMSEP)为0.0504的预测结果。表明可见—近红外光谱可以用于对蚕茧的含水率进行无损检测,同时SPA是一种有效的光谱变量选择方法。
近红外光谱;无损检测;模型分析;蚕茧含水率;连续投影算法(SPA)
蚕茧含水率(moisture content of cocoon)是蚕茧品质检测分级最基本的指标。蚕茧含水率的高低,取决于蔟中环境条件、大气相对湿度、温度、鲜茧采摘时间、运送、包装方式等多种因素,其中尤以蔟中环境条件为关键因素。蔟中高温多湿或低温多湿,都会使丝胶分子结构由无规卷曲向月化转变,增加胶着点、胶着面及胶着力,导致茧丝离解困难、解舒恶化[1]。目前,中国在蚕茧收购中规定采用干壳量法检验鲜茧。但该方法复杂且耗时,并需要剖茧测量,而削口茧成为缫丝工业中的次下茧,造成很大浪费。而常用的手感目测法却易受评定者的个人经验影响,测试精度低。由于传统的蚕茧质量检测技术制约了中国蚕丝行业质量和效益的提高,因而迫切需要寻求一种快速、准确、无损检测蚕茧含水率的方法。
可见—近红外光谱(visible and near infrared spectroscopy,Vis-NIRS)分析技术,是一种低成本、无污染的分析技术,操作简便,测定速度快[2],被广泛应用于食品、农业等领域[3~6]。在农产品含水率检测方面,李晓丽等曾用基于漫反射的可见—近红外光谱技术检测初制绿茶的含水率,结果表明该技术可以对加工过程中绿茶的含水率进行无损、快速的测量,为制茶生产线上茶叶水分的在线、实时检测提供了理论依据[7]。刘洁等曾对基于近红外光谱的板栗水分检测方法进行了研究,研究显示用近红外光谱分析技术检测栗仁和带壳板栗含水率具有可行性[8]。在蚕业方面目前主要应用于家蚕品种和性别的鉴别[9~10],但是还未见将可见—近红外光谱技术用于蚕茧含水率检测的研究报道。
本研究采用可见—近红外光谱技术对蚕茧含水率进行检测。通过比较不同的光谱数据预处理方法,选择出最优的预处理方法。并进一步采用连续投影算法(successive projections algorithm,SPA)[11~12],提取有效波长(effective wavelength,EW)输入最小二乘支持向量机(least square-support vector machine,LS-SVM)[13],建立光谱检测模型。为实现蚕茧质量的快速、无损检测和分级提供依据。
1.1 仪器设备和样品来源
试验使用美国ASD(Analytical Spectral Device)公司的Handheld FieldSpec光谱仪,其光谱测定范围325~1075 nm,探头视场角为20°。光源是与光谱仪配套的14.5 V卤素灯。分析软件为UnscrambleV9.6以及MATLAB7.6。
试验选取2012年春季(5~6月)浙江省湖州市生产的明丰×春玉、秋丰×白玉、白玉×秋丰和广西生产的7532·湘晖×932·芙蓉5个品种的鲜茧。在供试蚕五龄上蔟期间,按照不同的温度和湿度进行处理,在上蔟后第5日采鲜茧。在光谱测量前,在实验室25℃恒温条件下先避光贮藏5 h。
1.2 光谱数据采集
将外观正常的鲜茧剥去茧衣后,采用反射模式采集可见—近红外光谱。光谱仪垂直放置于距离样本表面9 cm处。光源与水平位置成45°。光谱扫描稳定后进行光谱数据的采集,扫描20次取平均。每个品种采集120个样本,共600个样本。样本随机分成定标集和预测集,建模集包含400个样本,每个品种80个,预测集包含200个样本,每个品种40个。同时对蚕茧进行编号。
1.3 按国标法(GB/T19113-2003)测量蚕茧含水率(对照用)
完成光谱数据采集后,将鲜茧削开一个小口,倒出蚕蛹后称重。用电子天平称得每个鲜茧茧壳的质量G0,将称量后的茧壳放入100℃烘箱内干燥,6 h后取出,迅速用电子天平测得烘干后茧壳的质量G1。
茧层含水率的定义为鲜茧茧层所含水分质量占鲜茧茧层质量的百分率,根据定义得到茧层含水率的计算公式为:1.4光谱数据预处理
由于光谱数据在采集范围的首端与末端产生了部分噪音,于是取400~1000 nm波段共601个变量的光谱数据进行分析。为了去除来自高频随机噪音、基线漂移、样本不均匀、光散射等影响,将光谱数据转换成吸光度值后,需要对光谱进行预处理。本文采用的预处理方法包括Savitzky-Golay(SG)平滑法和变量标准化(standard normal variate,SNV)。
1.5 连续投影算法
SPA的算法简要介绍如下[15]:
记xk(0)为初始迭代向量,N为需要提取的变量个数。光谱矩阵为j列:
(1)迭代开始前,任选光谱矩阵的1列j,把建模集的第j列赋值给xj,记为xk(0);
(2)把未选入的列向量位置的集合记为s,s={j,1≤j≤J,j∉{k(0),…,k(n-1)}};
(3)分别计算xj对剩下列向量的投影:
最后,提取出的变量为{xk(n)=0,……,N-1}。对应于每一个k(0)和N,循环一次后进行多元线性回归分析(MLR),得到验证集的预测标准偏差(RMSEV),由最小的RMSEV值对应的k(0)和N就是最优值。1.6建模方法及模型评估
最小二乘支持向量机(least square-support vectormachine,LS-SVM)是一种建模方法,以求解一组线性方程代替经典SVM中复杂的二次优化问题,降低了计算的复杂性,加快了计算的速度,是解决“维数灾”和“过学习”的有效工具之一,已在光谱分析领域得到应用。LS-SVM算法中的结构风险最小化能够提高其泛化能力,从而能够较好地解决小样本、非线性、高维数、局部极小等问题,因此LS-SVM成为解决“维数灾”和“过学习”等传统难题的一种有力手段。其采用非线性映射函数φ(·),将输入变量映射到高维特征空间,从而将优化问题改成等式约束条件。利用拉格朗日乘子对各个变量求偏微分,得到最优解。
在对模型的建模效果进行评价时,常用的评价指标主要有建模集的决定系数RC2和建模均方根误差(rootmean square error for calibration,RMSEC)以及建模集交互验证的决定系数RP2和预测均方根误差(rootmean square error for prediction,RMSEP)。好的模型需要有较高的相关系数以及较低的均方根误差。同时,RMSEC和RMSEP间的绝对值越小表示所建立的模型的稳定性越好,鲁棒性越强。
2.1 光谱数据预处理
采用不同光谱预处理方法对全波段光谱进行处理,并建立LS-SVM模型(表1)。从结果中可以看到平滑处理过后所建立的模型比不采用预处理的模型效果要差。同样仅采用SNV进行预处理所建立的模型比将平滑和SNV相结合的预处理所建立的模型效果要好。同时经过SNV预处理后的模型效果比原始光谱所建立的模型效果要好。因此在下文均采用SNV进行光谱预处理。
2.2 基于SPA的全波段有效波长选取
从表1中可以看出采用全波段建立的模型得到了较好的预测结果。其中预测集的确定系数达到了0.9以上。说明可见—近红外光谱技术能够应用于蚕茧含水率的快速、无损检测。然而采用全波段建立的LS-SVM模型有601个输入变量。大量的输入变量会增加计算量。为此采用SPA算法对全波段光谱共601个变量进行有效波长选择。
图1显示了基于不同变量个数的验证标准偏差(RMSEV)值的变化情况。可以看到变量个数从2个到6个时RMSEV下降较快。当变量个数为11时,RMSEV值趋于稳定,为0.0541。
通过SPA提取的11个波长分别为487,501,616,718,771,782,789,826,966,977和991 nm。SPA得到的波长分布情况如图2所示。其中黑色的竖线表示选中的波长。可以看到选择的有效波长在整个可见到近红外光谱范围内都有分布。说明在对蚕茧含水率进行检测时不应仅仅考虑某个范围的光谱信息。
2.3 基于有效波长的LS-SVM模型预测
将得到的11个变量作为输入,建立LS-SVM模型,结果如表1所示。从预测结果可以看到,预测集的确定系数由全波段建模时的0.9043下降到采用SPA进行变量选择后的0.8517,但降幅不大。同时可以看到,通过SPA进行有效变量选择,LS-SVM模型所用到的输入变量个数由原始光谱的601个减少到了11个,而通过该11个有效变量所建立的模型效果相比全波段光谱的601个变量所建立的模型下降不多。说明得到的这11个有效波长变量可以很好地代替全波段光谱来建立模型。图3为由SPA得到的11个波长建立的LS-SVM对预测集样本的预测结果散点分布图。可以看到除少数样本的测量值和预测值发生一定的偏差外,主要的样本点都基本分布在回归线附近。
表1 基于不同光谱预处理方法处理全波段光谱后建立的LS-SVM模型建模和预测结果Table 1 Performance of LS-SVM model based on different preprocessing on all spectra ranges
图1 连续投影算法选取的蚕茧含水率波长数对应的验证集预测标准偏差Figure 1 RMSEV plot of selected number of the moisture of cocoon variables by SPA
图2 SNV-SPA选择的11个蚕茧含水率波长分布图Figure 2 Plot of 11 selected wavelengths of the moisture of cocoon by SNV-SPA
图3 SPA选择的11个波长建立的LS-SVM模型对蚕茧含水率的预测散点分布图Figure 3 Predicted vs reference values of the moisture of cocoon by LS-SVM model based on eleven effective wavelengths selected by SPA
本文应用可见—近红外光谱技术对蚕茧含水率进行了检测。采用连续投影算法(SPA)进行变量选择,将原始光谱的601个光谱变量减少到了11个。由SPA选择的11个变量建立最小二乘支持向量机(LS-SVM)模型,得到了预测集的确定系数(RP2)为0.8517,误差均方根(RMSEP)为0.0504的预测结果。表明可见—近红外光谱可以用于对蚕茧的含水率进行无损检测,同时SPA是一种有效的光谱变量选择方法。
[1]吴匡环.鲜茧茧层含水率与解舒率的关系[J].蚕桑通报,1992,23(4):30-31.
[2]陆婉珍.现代近红外光谱分析技术[M].北京:中国石化出版社,2007.
[3]吴桂芳,黄凌霞,何勇.葡萄浆果糖度可见/近红外光谱检测的研究[J].光谱学与光谱分析,2008,28(9):2090-2093.
[4]Antihus H G,Yong H,Annia G P.Non-destructive measurement of acidity,soluble solids and firmness of Satsumamandarin using Vis/NIR-spectroscopy techniques[J]. Journal of Food Engineering,2006,77(2):313-319.
[5]何勇,李晓丽,邵咏妮.基于主成分分析和神经网络的近红外光谱苹果品种鉴别方法研究[J].光谱学与光谱分析,2006,26(5):850-853.
[6]祝诗平.基于PCA与GA的近红外光谱建模样品选择方法[J].农业工程学报,2008,24(9):126-130.
[7]李晓丽,程术希,何勇.基于漫反射光谱的初制绿茶含水率无损检测方法[J].农业工程学报,2010,26(5):195-201.
[8]刘洁,李小昱,李培武等.基于近红外光谱的板栗水分检测方法[J].农业工程学报,2010,26(2):338-341.
[9]黄敏,何勇,黄凌霞等.基于可见一近红外光谱技术的家蚕蚕种鉴别方法的研究[J].红外与毫米波学报,2006,25(5):342-344,359.
[10]潘沈元.蚕茧近红外反射(NIR)光谱的模式识别:II.光谱识别中特征值选取方法的探讨[J].生物物理学报,1998,14(2):252-256.
[11]Araújo M C U,Saldanha TC B,Galvão R K H,et al.Thesuccessive projections algorithm for variable selection in spectroscopic multicomponent analysis[J].Chemometrics and Intelligent Laboratory Systems,2001,57(2):65-73.
[12]Galvão R K H,Araújo M C U,Fragoso W D,et al.A variable elimination method to improve the parsimony of MLR models using the successive projections algorithm[J].Chemometrics and Intelligent Laboratory Systems,2008,92(1):83-91.
[13]吴迪,曹芳,冯水娟,等.基于支持向量机算法的红外光谱技术在奶粉蛋白质含量快速检测中的应用[J].光谱学与光谱分析,2008,28(5):1071-1075.
[14]Centner V,Massart D L,Noord O E,et al.Elim ination of Uninformative Variables for Multivariate Calibration[J]. Analytical Chemistry,1996,68(21):3851-3858.
[15]陈斌,孟祥龙,王豪.连续投影算法在近红外光谱校正模型优化中的应用[J].分析测试学报,2007,26(1):66-69.
Non-destructive Detection of M oisture Content of Cocoon Based on Visib le and Near Infrared Spectroscopy
HUANG Ling-xia1,JIN Hang-feng2,JIN Pei-hua2
(1.College ofAnimal Sciences,Zhejiang University,Hangzhou 310058,China; 2.Zhejiang A&F University,Hangzhou 311300,China)
Visible and near-infrared reflectance spectroscopy(Vis-NIRS)was applied tomeasuremoisture content of cocoon layer.Least square-support vectormachine(LS-SVM)was used to establish the Vis-NIR model.Successive projections algorithm was combined to select wavelength from Vis-NIR spectroscopy.Eleven wavelength variables,namely 487,501,616,718,771,782,789,826,966,977,and 991 nm,were selected.The SPA-LS-SVM model was established based on these eleven wavelength variables.The results showed that the determination coefficient for prediction set(RP2)was 0.8517,and the rootmean square error for prediction(RMSEP)was 0.0504.It is concluded that Vis-NIRS can be used in themoisture content of cocoon measurement,and SPA is a feasible and efficient algorithm for the spectral variable selection.
near infrared spectroscopy;nondestructive exam ination;model analysis;moisture content of cocoon;successive projections algorithm(SPA)
O657.3,S886.3
A
0258-4069[2013]04-031-05
浙江省自然科学基金资助项目(LY12C17001);高等学校博士学科点专项科研基金资助项目(20100101120084);浙江省公益技术研究农业项目(2011C22075);农业科技成果转化资金项目(2011GB23600008)
黄凌霞(1979-),女,上海崇明人,副研究员,主要从事蚕桑数字化研究。Email:lxhuang@zju.edu.cn