杨晓玉YANG Xiao-yu 丁佳兴 - 房盟盟 - 何建国 n-
(宁夏大学农学院,宁夏 银川 750021)
鸡蛋新鲜度与蛋品品质密切相关,是加工企业和消费者最为关注的蛋品指标[1-2]。
近年来,国内外不少学者在无损检测鸡蛋新鲜度方面做了大量研究和探索。目前实现对鸡蛋新鲜度无损检测的有机器视觉[3-4]、近红外光谱[5-7]、电子鼻[8]和高光谱检测法[9-11]等。其中机器视觉法只采集鸡蛋图像,根据鸡蛋形状特性和颜色特征参数对鸡蛋新鲜度进行检测;近红外光谱技术光谱变量多,数据量大,并且检测部位较为局限,且选择点的位置和数量较为随机和片面[12];电子鼻检测相对光学法耗时较长,适用于抽样检测。高光谱成像技术是集图像和光谱于一体的多信息融合技术。高光谱图像采集后,选取整个鸡蛋表面作为感兴趣区域,用平均光谱反映样本,代表性强,相关性好,满足快速、无损、准确检测鸡蛋新鲜度的要求。
本研究以鸡蛋为研究对象,选用哈夫单位作为鸡蛋新鲜度标准,利用可见/近红外高光谱成像技术采集样品400~1 000 nm 的光谱数据。首先利用蒙特卡洛法剔除异常样本,再使用卷积平滑(Savitzky-Golay Smoothing, SGS)、标准正态变量变换(Standardized Normal Variate,SNV)、基线校准(Baseline)和去趋势(Detrend) 法对原始光谱进行预处理,根据建立的PLSR模型效果优选预处理方法。然后应用CARS、 GAPLS 和 IRF提取特征波长,分别建立基于全光谱和特征波长的PLSR 和 LS-SVM 的鸡蛋新鲜度预测模型;分析比较不同特征波长选取和建模方法对鸡蛋新鲜度的预测效果,选出最优模型,为高光谱成像技术对鸡蛋新鲜度检测提供参考和技术支持。
鸡蛋:为同批海兰褐鸡所产新鲜蛋,购于宁夏某鸡场,样本共150个,常温储藏;
高光谱成像仪:V10E-QE型,芬兰Specim公司;
CCD相机:C8484-05G型,日本Hamamatsu公司;
光纤卤素灯:DCRⅢ型,150 W,美国Schott公司;
电控位移平台:SC300-1A型,北京卓立汉光仪器有限公司;
可见-近红外高光谱成像系统:400~1000 nm,光谱分辨率2.5 nm,125个波段。该系统由高光谱成像仪、CCD相机、光纤卤素灯、电控位移平台组成,见图1。
1.2.1 高光谱图像采集 选取大小均匀,表面无杂物的鸡蛋作为最终试验样本,共选出126个。每天随机取出10个鸡蛋,编号,扫描其高光谱图像。为保证图像清晰,需试验确定高光谱参数,最终确定参数:相机曝光时间设为10 ms,物镜高度为385 mm,电控位移平台速度为15 mm/s。由于暗电流和噪声的影响,需要对采集的高光谱图像进行黑白校正[13],首先采集聚四氟乙烯板的全反射图像Rw,然后盖上镜盖,采集全黑图像Rd。黑白校正公式为:
(1)
式中:
I——校正后的高光谱反射图像,%;
R——样本原始的高光谱反射图像;
Rd——全黑图像;
Rw——白板的高光谱反射图像。
获得样本高光谱图像后,利用ENVI 4.8软件选取鸡蛋椭圆表面作为感兴趣区域(Region of Interest,ROI),计算出每张ROI的平均反射光谱作为样本的反射光谱。
1.2.2 鸡蛋新鲜度测定 光谱采集后的鸡蛋,按编号逐个放入精度为0.001 g的电子天平称重,然后破壳,用0.02 mm的游标卡尺测量距离蛋黄1 cm处蛋白高度3次,测定时要选准位置,取平均值为最终蛋白高度,代入哈夫值(Ha)公式计算新鲜度[14-15]:
Ha=100×lg(h-1.7w0.37+7.57),
(2)
式中:
Ha——哈夫值;
h——平均蛋白高度,mm;
w——鸡蛋重量,g。
1.2.3 样本划分方法 采用Galvao等[16]提出的SPXY(Sample Set Partitioning Based on Joint X-Y distance)法。该方法的优点是将变量X和Y均考虑在内,能够有效地覆盖多维向量空间, 从而改善所建模型的预测能力。
1.2.4 异常样本剔除 由于高光谱成像仪的精度限制和噪声等因素的影响,获得的高光谱图像不可避免地存在一小部分异常样本。异常样本的存在影响了模型稳定性和预测能力,所以剔除异常样本对提高模型效果非常重要。本试验采用蒙特卡洛采样法[17-18]对全部样本进行异常样本检测。
1.2.5 光谱数据处理方法 鸡蛋新鲜度快速无损检测的实现需要一个稳定性高、预测能力强的模型,本试验选用PLSR和LS-SVM 2种建模方法对鸡蛋新鲜度进行预测。
由于在不同波长下光源的强度不均匀、仪器噪音等因素的影响,需要对原始光谱数据进行预处理。本试验选取SGS、SNV、Baseline和Detrend预处理方法对光谱进行处理。
由于高光谱采集过程受到多种外界因素干扰,获得的光谱信息中会存在一些像基线漂移、噪声等无用信息,并且全光谱共125个波长,信息量大,处理速度慢,选用适当的方法剔除不相关或者非线性变量,实现用少数关键变量代替全光谱,达到降低模型运算量和复杂度、提高模型稳定性和预测准确性的目的。本试验选用CARS、GAPLS和IRF法提取特征波长。其中光谱预处理和建立PLSR模型在The Unscrambler X 10.4软件上实现,其余算法在Matlab R2014a软件上完成。
采用蒙特卡洛方法检测异常样本,运行之前首先建立基于全部126个样本的PLSR模型,确定RMSECV最小时对应的主成分数最优为11,预处理方法设置为Mean center;抽样次数设置为2 500次,蒙特卡洛抽样所得校正集与测试集比例为3∶1,预测误差均值和标准差阈值分别取各自平均值的2.5 倍。鸡蛋哈夫值蒙特卡洛异常样本检测结果见图2。
由图2可知,10号、22号、31号、79号和123号的预测误差均值均大于总体样本预测误差均值阈值,判定上述样本为异常样本,剔除这些样本后,建立PLSR模型,所得模型的交互验证系数Rcv为0.827大于原始样本模型(0.793);交互验证均方根误差RMSECV为2.642小于原始样本模型(2.927)。71号样本在阈值线上,假定它为异常样本,剔除71号样本建立PLSR模型发现模型交互验证系数Rcv为0.833,交互验证均方根误差RMSECV为2.589。因此,10号、22号、31号、71号、79号和123号均为异常样本,剔除后剩余120个作为后续处理样本。
利用SPXY法将样本按3∶1划分校正集和预测集,校正样本90个,预测样本30个,鸡蛋样本哈夫值及重量统计见表1。由表1可知,校正集样本中哈夫值最大值大于预测集,最小值小于预测集,即校正集哈夫值范围较大,说明划分合理。
基于4种预处理方法的鸡蛋哈夫值的PLSR模型结果统计见表2。由表2可知,所有预处理后的光谱的PLSR模型的Rc均小于原始光谱的PLSR模型,经SNV预处理的PLSR模型的RMSECV最低,且最优主成分数为7低于其他模型,说明经SNV预处理的PLSR模型较为稳定,确定SNV为最优预处理方法。图3为经SNV预处理后的反射光谱。
2.4.1 利用CARS提取特征波长 运行CARS之前,首先确定PLSR模型中最优主成分数为7。设定CARS参数:蒙特卡洛采样次数为200,交叉验证组数为5。对样本光谱进行筛选,过程见图4。由图4(a)可知,随着变量筛选过程的进行,挑选的波长数逐渐下降,速度由快变慢,说明波长变量筛选先粗选、后精选。图4(b)为变量筛选过程中交互验证均方根误差的变化趋势,可知交互验证均方根误差先降低后增加,MC 采样次数为131时,交互验证均方根误差达到最小值2.459,MC采样次数继续增加后,交互验证均方误差逐渐增大,再结合筛选过程中波长变量回归系数变化趋势[见图4(c),图中“*”是建模过程中最小RMSECV值对应的采样次数]。最终,在MC采样为131次时,挑选出8个特征波长,分别为:415.7,449.4,459.0,487.8,588.6,771.1,814.3,996.7 nm。
表2基于不同预处理方法的鸡蛋哈夫值PLSR模型
Table 2 PLSR model of Haugh value of eggs based on different pretreatment methods
2.4.2 利用GAPLS提取特征波长 设置GAPLS参数:种群数为30,交叉概率为50%,变异概率为1%,最大遗传因子为30,迭代次数100次。鸡蛋光谱通过GAPLS筛选的有效信息见图5。运行GAPLS时,同时计算不同波长下的RMSECV值见图6。最后结合RMSECV值和波长频次数选出最佳波长变量。
由图6可知,当选出35个波长变量时,RMSECV最低;结合图5中每个波长筛选频数,选出的35个波长的筛选频数≥7。说明选出的35个波长与鸡蛋哈夫值相关性强,最终确定这35个波长为特征波长。主要分布在435.0~497.4,545.4~593.4,665.4~876.7 nm。
Figure 4 Process of competitive adaptive reweighed sampl-ing Characteristic wavelength selection for identification of Haugh value of eggs
横坐标为125个波点;纵坐标为筛选的频次,频次越高表示适应性越强,与哈夫值相关性越高
图5 鸡蛋光谱的GA筛选图
Figure 5 GA screening of spectrum of egg
2.4.3 利用IRF提取特征波长 设置IRF参数:迭代次数N为1 000,间隔宽度W为10,子间隔初始值Q为50,最大主成分数为15。运行IRF,得到116个间隔中排名前10的间隔见表3;同时计算每个间隔的RMSECV,见图7。
Figure 7 The Root mean square error of cross validation of the union of the top ranked intervals from 1st to the last
由表3可知,前10名区间选出的波点是从22号到49号,但图7显示,当选择前21个间隔时,RMSECV最低,所以选择排名前21个间隔的波长作为特征波长,这些波长是17~50号、77~93号、96~107号、113~123号,具体是478.2~636.6,766.3~843.1,857.5~910.3,939.1~987.1 nm,共74个波长。
原始光谱经SNV预处理后,分别建立基于全波段光谱(Full Spectrum,FS)和特征波长的PLSR和LS-SVM的鸡蛋新鲜度预测模型,结果见表4。
建立PLSR模型时,首先根据RMSECV最低确定最优主成分数,确定PLSR建模结果。由表4可知,全波段和利用CARS、GAPLS、UVE法提取的特征波长建立的预测模型的最佳主成分数分别是7,6,6,7。在PLSR预测模型中,CARS-PLSR和IRF-PLSR模型的Rc均小于FS-PLSR模型的,说明此2种模型不稳定;GAPLS-PLSR与FS-PLSR模型的Rc均为0.890,前者最优主成分数为6低于后者的的,但前者的RMSEC大于后者的,Rp为0.800小于后者的,说明GAPLS-PLSR与FS-PLSR校正性能一样,但预测能力弱于后者,说明GAPLS-PLSR较FS-PLSR模型不稳定。故认定FS-PLSR模型是所建立的PLSR模型中的最优模型。
由表4可知,IRF-LS-SVM具有最大的Rc,但有最低的Rp,说明该模型的校正性能最优,预测能力最差;CARS-LS-SVM和GAPLS-LS-SVM的Rp均为0.832且最大,但前者的Rc明显低于后者以及FS-LS-SVM模型的,说明CARS-LS-SVM模型预测能力较强,但校正性能较差;GAPLS-LS-SVM的Rc为0.899略低于FS-LS-SVM模型的,前者的RMSEC略大于后者的,但GAPLS-LS-SVM模型预测集的Rp明显大于FS-LS-SVM模型的,且RMSEP最低,说明该模型校正性能较好,预测能力最强,模型稳定。最后确定GAPLS-LS-SVM为LS-SVM中的最优模型。
对比特征波长方法,CARS法提取波长数最少,降维能力最强,GAPLS法次之,IRF法最差,但基于CARS特征波长建立的PLSR和LS-SVM模型效果均较差,GAPLS-LS-SVM模型效果较优。对比PLSR和LS-SVM 2种模型中的最优模型,GAPLS-LS-SVM的Rc和Rp均大于FS-PLSR模型的;且前者的RMSEC和RMSEP均小于后者的,故GAPLS-LS-SVM模型效果优于FS-PLSR。本研究最终确定GAPLS-LS-SVM为最优模型,且GAPLS提取的光谱能代替全光谱建模,模型效果见图8。
采集后的原始鸡蛋光谱经4种预处理方法,对比其PLSR模型效果,确定SNV法为最优预处理方法;对SNV预处理后的光谱经CARS、GAPLS和IRF法提取特征波长,分别获得8,35,74个特征波长,CARS法降维效果最佳,GAPLS法次之,IRF法最差;分别建立基于特征波长和全光谱的PLSR、LS-SVM模型,结果表明,在PLSR模型中,FS-PLSR模型较好,GAPLS-LS-SVM模型效果最优;在LS-SVM模型中,GAPLS-LS-SVM效果最优,利用GAPLS法提取的特征波长代替全波段建立LS-SVM模型是可行的。对比2种建模方法,确定GAPLS-LS-SVM鸡蛋新鲜度预测模型最优,其Rc为0.899,RMSEC为2.092;Rp为0.832,RMSEP为2.423。
[1] 毕夏坤, 赵杰文, 林颢, 等. 便携式近红外光谱仪判别鸡蛋的贮藏时间[J]. 食品科学, 2013(22): 281-285.
[2] 朱云鹏, 崔春利, 王兰娇, 等. 哈尔滨市售鸡蛋品质及营养成分分析[J]. 食品工业, 2017(5): 289-292.
[3] 王巧华, 任奕林, 文友先. 基于BP神经网络的鸡蛋新鲜度无损检测方法[J]. 农业机械学报, 2006(1): 104-106.
[4] 邢志中, 张海东, 王孟, 等. 基于计算机视觉和神经网络的鸡蛋新鲜度检测[J]. 江苏农业科学, 2017(11): 160-163.
[5] 赵杰文, 毕夏坤, 林颢, 等. 鸡蛋新鲜度的可见-近红外透射光谱快速识别[J]. 激光与光电子学进展, 2013(5): 213-220.
[6] LIN Hao, ZHAO Jie-wen, SUN Li, et al. Freshness measurement of eggs using near infrared (NIR) spectroscopy and multivariate data analysis[J]. Innovative Food Science & Emerging Technologies, 2011, 12(2): 182-186.
[7] GIUNCHI A L, BERARDINELLI A N, RAGNI L, et al. Non-destructive freshness assessment of shell eggs using FT-NIR spectroscopy[J]. Journal of Food Engineering, 2008, 89(2): 142-148.
[8] 李佳婷, 王俊, 李园, 等. 基于电子鼻的鸡蛋新鲜度检测[J]. 现代食品科技, 2017(4): 300-305, 188.
[9] SMITH D P, LAWRENCE K C, HEITSCHMIDT G W. Fertility and embryo development of broiler hatching eggs evaluated with a hyperspectral imaging and predictive modeling system[J]. International Journal of Poultry Science, 2008, 7(10): 1 001-1 004.
[10] 王巧华, 周凯, 吴兰兰, 等. 基于高光谱的鸡蛋新鲜度检测[J]. 光谱学与光谱分析, 2016(8): 2 596-2 600.
[11] JOHNSON Ⅲ Owen N, SLIDELL Mark, KREISHMAN Peter, et al. Hyperspectral imaging: an emerging technology as a potential novel adjunct in assessing peripheral perfusion deficits and success oflower extremity revascularizations[J]. Journal of the American College of Surgeons, 2008, 207(3): S114.
[12] 吴龙国, 何建国, 贺晓光, 等. 高光谱图像技术在水果无损检测中的研究进展[J]. 激光与红外, 2013, 43(9): 990-996.
[13] ELMASRY G, WANG Ning, ELSAYED A. Hyperspectral imaging for nondestructive determination of some quality attributes for strawberry[J]. Journal of Food Engineering, 2007, 81: 98-107.
[14] 杜丹萌, 王风诺, 王世平. 鸡蛋新鲜度随储藏条件变化规律的研究[J]. 食品科技, 2014, 39(5): 26-29, 33.
[15] 王巧华, 李小明, 段宇飞. 基于CUVE-PLS-DA的鸡蛋新鲜度在线检测分级[J]. 食品科学, 2016(22): 187-191.
[17] 张明锦, 杜一平. 蒙特卡洛-偏最小二乘回归系数法用于近红外光谱变量筛选[J]. 分析试验室, 2013(2): 12-16.
[18] 刘善梅. 基于高光谱成像技术的冷鲜猪肉品质无损检测方法研究[D]. 武汉: 华中农业大学, 2015: 26-41.