戴春霞,刘芳,葛晓峰
1. 江苏大学电气信息工程学院,江苏 镇江,212013;2. 江苏大学京江学院,江苏 镇江,212013
茶叶含水率是衡量茶叶干燥程度和品质的重要指标。茶叶的加工过程中若能在线检测茶叶的含水率,不仅能有针对性地调控加工过程,而且能有效地提高茶叶品质。目前,在生产加工中茶叶含水率的测量方法主要为烘干称重法,该测量方法测试结果虽然准确、稳定性高、误差小,但操作繁琐、能耗大、耗时长,不能满足快速检测的要求。
高光谱检测技术具有准确、快速、简便、无损等优势,近年来在农产品检测领域已呈快速发展趋势。如赵杰文等[1]利用高光谱成像技术分析茶树叶片中叶绿素含量及其分布,根据高光谱数据中提取的特征参数建立了叶绿素含量的预测模型,并通过伪彩手段描述叶片中叶绿素含量的分布。周竹等[2]用高光谱成像技术对马铃薯外部缺陷进行检测,结果表明高光谱成像技术可以对常见马铃薯外部缺陷准确有效地进行检测。朱荣光等[3]实现了利用高光谱技术对牛肉储存时间和取样部位的预测。张保华等[4]利用了高光谱技术研究了果蔬的品质安全与无损检测,研究结果表明通过高光谱成像技术可以准确有效地对果蔬进行无损检测。文韬等[5]利用高光谱技术对霉变稻谷中的脂肪酸含量成功检测。Taghizadeh等[6]通过高光谱成像技术对白蘑菇的含水率进行了检测。Jin等[7]通过高光谱图像技术对花生仁中的水分含量进行检测,建立了偏最小二乘回归(Partial least squares regression,PLSR)定量模型,最佳预测决定系数为0.91。孙俊等[8]利用生菜叶片的高光谱图像信息,构建了生菜叶片水分检测模型。这些研究结果为本文提供了理论基础。
本文探讨高光谱技术在茶鲜叶水分无损检测中的应用,在 870~1 770 nm波段内采集了茶鲜叶的图像并建模分析,选出最优预处理方案。本研究为茶叶生产过程中茶鲜叶含水率的在线监测与反馈控制提供了参考。
实验样本种植地为江苏吟春碧芽有限公司镇江种植基地,实验样本品种为绿茶茂绿,采摘时间2017年4月18日。为了获取梯度水分的茶鲜叶样本,在茶叶种植灌溉过程中人为控制不同区域灌溉水量。在茶鲜叶采摘过程中,人为选取不同灌溉区域内相同部位、相同颜色外观、叶片上没有斑点的茶鲜叶采摘,共计240个样本。采摘后依次编号并装入贴有标签的塑料袋密封并放入专业的植物保鲜盒(设置温度为–5℃)中保存,采摘完成后立即送往实验室进行高光谱图像采集实验。
高光谱图像采集试验所采用的硬件部分由高光谱图像摄像仪(ImSpector V10E,Spectral Imaging Ltd.,Oulu,芬兰)、2个 150 W的直流可调控光纤卤素灯(2900-ER+9596-E型,Illumination美国)、暗箱(SC100型,北京光学仪器厂)、电控位移台(MTS120型,北京光学仪器厂)和计算机等组成。
采集高光谱图像前的准备工作:提前30 min打开光源进行预热;设置曝光时间为20 ms,电控位移台移动速度设为 16 mm·s-1,图像分辨率设置为1 344×1 024像素;光谱分辨率为2.8 nm,光谱范围是500~2 000 nm,光谱采样间隔为2.44 nm;将茶鲜叶正面向上平铺在白板上,并放置在暗箱中的电控位移台上;打开SpectralCube(Spectral Imaging Ltd.,Finland)软件的操作界面,采集每片茶叶的高光谱图像。对采集到的高光谱图像进行黑白标定[9],去除噪声干扰以及其他光源干扰。
含水率的测定使用DZF-6050型真空干燥箱(控温精度±1℃)和BS210S型电子天平(称量精度 0.0001 g)。根据国家标准 GB/T 8304—2002,将茶鲜叶试样置于温度(103±2)℃电热鼓风恒温干燥箱内进行 4 h的烘干处理,然后将样本放置在干燥器中冷却至室温后称量;再放置在干燥箱中加热 1 h,取出置于干燥器内冷却,称量(准确至 0.001 g)。重复加热 1 h,直到连续 2次称量的差不超过0.005 g,即为恒重,以最小称量(准确至0.001 g)作为M2。含水率的测定,进行3次重复取平均值。含水率的具体表达式[10]如式(1)所示:
其中:M为是茶鲜叶的含水率(%),M1为茶叶试样干燥前的质量(g),M2为茶叶试样干燥后的质量(g)。
本试验总计240个茶鲜叶样本,通过烘干称重法测得样本集含水率范围为 57.08%~77.81%。
本文每片茶鲜叶选取 90×90像素的矩形区域(选取避开茶叶的主叶脉区域)作为感兴趣区域(Region of Interest,ROI)。其中,每个像素点包含一条光谱信息。为此,本文选取ROI区域是将90×90像素的矩形区域8 100条光谱平均处理后的光谱值作为茶鲜叶样本光谱数据。由于光谱数据易受到电噪音、光散射、基线漂移、光程变化等因素的干扰,需要对其做必要的预处理。本文采用4种光谱预处理算法:卷积平滑(SG)、多元散射校正(MSC)、标准正态变换(SNV)、正交信号校正(OSC),分别对原始光谱进行预处理。根据建立的多元线性逐步回归模型来确定高光谱检测茶鲜叶含水率最合适的光谱预处理方法。
光谱射率-波长对应图形处理软件为Matlab 2012b,光谱预处理对应图形处理软件为Unscrambler X 10.4。其中,茶鲜叶高光谱数据首先进行Savitzky-Golay Smoothing(SG)去除噪声以及一些其他干扰。其次,再对卷积平滑(SG)处理后光谱数据分别进行 SNV、MSC和 OSC处理,将处理完的数据再用Matlab绘制出对应的波长-反射率的图。
2.1.1 卷积平滑算法(SG)
Savitzky-Golay滤波器是 Savitzky和Golay在 1964年提出的,原理是通过多项式对移动窗口内的数据进行多项式最小二乘拟合。这种滤波器最大的特点在于在滤除噪声的同时可以确保信号的形状、宽度不变[11]。
2.1.2 标准正态变换(SNV)
标准正态变换技术由 Martens等于 1983年提出,它的基本思想是去除数据中由于样品的特殊散射而引起的非线性关系[12]。多元散射校正的过程可以分为两步:确定正确系数:Xorg=b0+bref.1Xref+e和改正光谱:Xcorr=(Xorgb0)/bref.1。其中b是正确系数,e是没有模型化的部分,Xorg,Xref和Xcorr分别是原始、反射和改正后的光谱。
2.1.3 正交信号校正(OSC)
正交信号校正算法于 1998年由 S.World作为一种光谱过滤手段提出[13]。现在,在很多研究人员的努力下,已经将正交信号校正(OSC)应用到色谱及其他光谱等的预处理与分析。
2.1.4 多元散射校正(MSC)
多元散射校正方法是现阶段多波长定标建模常用的一种数据处理方法,经过散射校正后得到的光谱数据可以有效地消除散射影响,增强了与成分含量相关的光谱吸收信息[14]。
本文采用逐步回归分析法(SW)提取特征波长,其基本思想是在模型中逐一引入所有的变量,而前提条件是在引入之前,这些变量在检验过后,都是显著的,而看一个变量是否显著主要是看其偏回归平方和是否显著。当然,每一次引入变量时,都要对之前所引入的变量进行检验,剔除不显著的变量,以确保最终所引入的所有变量都是显著的,这样就能得到最优模型[15]。
每次进行逐步回归分析时都有一个卡控标准。引入的标准都是对模型外的所有变量进行 F检验,若其检验值小于等于引入标准值0.05,则引入变量,同样的,若其检验值大于等于剔除标准值 0.1,则剔除该变量。所提取的特征波长如表1所示。
采集到的茶鲜叶叶片样本总数为240,采用随机挑选法选取120个样本作为校正集、60个样本作为交叉验证集、剩余60个样本作为预测集。通过使用以下指标对所建立的模型性能进行评估:校正集的相关系数校正集的均方根误差RMSEC;交叉验证集的相关系数交叉验证集的均方根误差RMSECV;预测集的相关系数预测集的均方根误差RMSEP。此外,所建立模型的均方根误差越小、相关系数越接近1,模型的精度越高。
2.3.1 MLR模型
多元线性回归分析通过使用一个线性方程将这些预测相结合,来确立响应变量与一些预测因子之间的关系模型[15]。建立MLR回归模型如式(2)所示:
其中Y是指因变量,Xn是指自变量,e是指残差,Bn为当除Xn之外的其余自变量的偏回归系数[16]。表2为MLR的建模分析结果。
从表2可看出,经过SG处理后,提取特征波长18个,用多元线性回归法建模所获得的预测集的相关系数与均方根误差RMSEP分别为 0.4251和 0.0439。通过数据分析,经过SG预处理后建模结果很不理想,校正集和预测集的相关系数很低,预测能力较差。
经过 SG-SNV预处理后,提取特征波长14个,用多元线性回归法建模所获得的预测集的相关系数与均方根误差 RMSEP分别为 0.5618和 0.0432。通过数据分析,经过SG-SNV预处理后的建模结果也不理想,但优于SG预处理方法。
经过 SG-MSC预处理后,提取特征波长14个,用多元线性回归法建模所获得的预测集的相关系数与均方根误差 RMSEP分别为 0.6804和 0.0427。通过数据分析,经过SG-MSC预处理后的建模结果得到了一定的提高,但校正集和预测集的相关系数还比较低,预测能力一般。
经过SG-OSC预处理后,提取特征波长18个,用多元线性回归法建模所获得的预测集的相关系数与均方根误差RMSEP分别为0.7194和0.0398。通过数据分析,经过SG-OSC预处理后得到的MLR模型结果最佳,对茶鲜叶含水率具有较高的预测性。
表1 特征波长数据Table 1 Characteristic wavelength data
表2 MLR建模分析结果Table 2 MLR modeling analysis results
2.3.2 PLSR模型
PLSR方法是一种新型的多变量回归分析方法,可以同时实现回归建模、简化数据结构和分析两组变量间的相关性,给多元数据统计分析带来极大便利[17]。为此,本文采用 PLSR对经过不同光谱预处理后SW提取的特征进行定量建模分析。表3为PLSR的建模分析结果。
从表3可以看出,经过SG处理后,提取特征波长18个,用偏最小二乘回归建模所获得的预测集的相关系数与均方根误差RMSEP分别为0.5389和0.0542。通过数据分析,经过SG预处理后PLSR建模结果较MLR有所提高,预测能力仍不理想。
经过 SG-SNV预处理后,提取特征波长14个,用偏最小二乘回归建模所获得的预测集的相关系数与均方根误差 RMSEP分别为 0.6144和 0.0331。通过数据分析,经过SG-SNV预处理后的 PLSR建模结果也不理想,但优于SG预处理方法。
经过 SG-MSC预处理后,提取特征波长14个,用偏最小二乘回归建模所获得的预测集的相关系数与均方根误差 RMSEP分别为 0.7291和 0.0413。通过数据分析,经过SG-MSC预处理后的建模结果得到了一定的提高,但校正集和预测集的相关系数还比较低,预测能力一般。
经过 SG-OSC预处理后,提取特征波长18个,用偏最小二乘回归建模所获得的预测集的相关系数与均方根误差 RMSEP分别为 0.7749和 0.0371。通过数据分析,经过SG-OSC预处理后得到的 PLSR模型结果最佳,对茶鲜叶含水率具有较高的预测性。
表3 PLSR建模分析结果Table 3 PLSR modeling analysis results
图1 SG-OSC-SW-PLSR建立模型中预测集茶鲜叶实际值与预测集关系Fig. 1 Relationship between the measured and predicted moisture contents in tea leaves by SG-OSC-SW-PLSR model
综合比较表2和表3可以看出,光谱经过不同预处理以及 SW 特征提取后的数据所建立 PLSR定量检测茶鲜叶含水率模型要优于MLR建立的模型。如图1所示,在所建立的茶鲜叶含水率定量检测模型中,最佳预测模型为SG-OSC-SW-PLSR模型,预测集的相关系数与均方根误差RMSEP分别为0.7749和0.0371。
本文利用高光谱成像技术获取 870~1770 nm波段范围内高光谱数据对茶鲜叶含水率进行无损检测研究。采用SG、SG-SNV、SG-MSC和SG-OSC 4种算法来对茶鲜叶原始光谱数据进行预处理,并根据逐步回归分析法提取的特征波长建立多元线性以及偏最小二乘回归分析模型。建模结果表明,PLSR定量分析模型要优于 MLR模型,并且 SG-OSC-SW-PLSR检测茶鲜叶含水率的定量检测模型效果最好,模型校正集、交叉验证集和预测集的相关系数分别为0.8977、0.8342和0.7749,模型校正集、交叉验证集和预测集的均方根误差分别为0.0091、0.0311和0.0371。由此可见,高光谱成像技术作为一种快速高效的无损检测技术对茶鲜叶含水率的检测是可行的。
[1] 赵杰文, 王开亮, 欧阳琴, 等. 高光谱技术分析茶树叶片中叶绿素含量及分布[J]. 光谱学与光谱分析, 2011(2):512-515.
[2] 周竹, 李小昱, 陶海龙. 基于高光谱成像技术的马铃薯外部缺陷检测[J]. 农业工程学报, 2012, 28(21): 221-228.
[3] 朱荣光, 姚雪东, 高广娣, 等. 不同储存时间和取样部位牛肉颜色的高光谱图像检测[J]. 农业机械学报, 2013,44(7): 1000-1298.
[4] 张保华, 李江波, 樊书祥, 等. 高光谱成像技术在果蔬品质与安全无损检测中的原理及应用[J]. 光谱学与光谱分析, 2014(10): 2743-2751.
[5] 文韬, 洪添胜, 李立君, 等. 基于高光谱技术的霉变稻谷脂肪酸含量无损检测[J]. 农业工程学报, 2015, 31(18):233-239.
[6] Taghizadeh M, Gowen A, O'Donnell CP. Prediction of white button mushroom (Agaricus bisporus) moisture content using hyperspectral imaging [J]. Sensing and Instrumentation for Food Quality and Safety, 2009, 3(4): 219-226.
[7] Jin H, Li L, Cheng J. Rapid and non-destructive determination of moisture content of peanut kernels using hyperspectral imaging technique [J]. Food Analytical Methods, 2015, 8(10): 1-9.
[8] 孙俊, 武小红, 张晓东, 等. 基于高光谱图像的生菜叶片水分预测研究[J]. 光谱学与光谱分析, 2013, 33(2):522-526.
[9] Savitzky A, Golay MJE. Smoothing and differentiation of data by simplified least squares procedures [J]. Analytical Chemistry, 1964, 36(8): 1627-1639.
[10] 中华人民共和国国家质量监督检验检疫总局. GB/T 8403—2002 茶水分测定[S]. 北京: 中国标准出版社, 2002.
[11] Martens H, Jensen A, Geladi P. Multivariate linearity transformation for near-infrared reflectance spectrometry[C]//Christie OHJ. Proceedings of the Nordic symposium on applied statistics. Stavanger: Stockands Forlag, 1983:205-234.
[12] Guo H, Peng Y-K, Jiang F-C, et al. Development of conveyable beef-marbling detection system [J]. Transactions of the Chinese Society for Agricultural Machinery, 2012, 43:207-210.
[13] Wold S, Antti H, Lindgren F, et al. Orthogonal signal correction of near-infrared spectra [J]. Chemometrics and Intelligent Laboratory Systems, 1998, 44: 175-185.
[14] Williams P, Norris K. Near-infrared technology in the agricultural and food industries [M]. USA: the American Association of Cereal Chemists, 1987.
[15] 叶慈男, 曹伟丽. 应用数理统计[M]. 北京: 机械工业出版社, 2004.
[16] 陈永胜. 多元线性回归建模以及 MAT LAB和 SPSS求解[J]. 绥化学院学报, 2007(6): 166-168.
[17] 于雷, 洪永胜, 耿雷, 等. 基于偏最小二乘回归的土壤有机质含量高光谱估算[J]. 农业工程学报, 2015, 31(14):103-109.