王 靖,丁佳兴,郭中华,*,何凤杰,梁晓燕
(1.宁夏大学物理与电子电气工程学院,宁夏银川 750021;2.宁夏大学农学院,宁夏银川 750021)
羊肉肌纤维较细,肉质细腻,口感俱佳;并且含有矿物质、维生素以及多种人体必需的氨基酸等营养成分,具有很高的营养价值,也因其高蛋白质、低胆固醇、低脂肪的特点深受人们喜爱[1]。羊肉的品质跟其产地来源密切相关,同一品种不同产地羊肉品质大不相同,如宁夏盐池滩羊肉因其低脂低胆固醇、鲜香细嫩和口感酿正的特点,产品价格比其他产地羊肉每公斤高出10元以上[2]。近年来市场上利用其他产地的羊肉冒充盐池滩羊获取暴利的事件时常发生,因此研究羊肉产地快速鉴别方法对打击非法商贩,保护消费者利益,维护产品口碑意义重大。
目前,国内外对羊肉产地鉴别的方法主要包括:水解氨基酸[3]、同位素鉴别方法[4]、指纹图谱溯源技术[5]。目前,应用光谱技术主要对肉类品种鉴别较多。其中,刘玮等[6-7]利用傅里叶变换近红外光谱分析方法分别建立了新鲜猪肉和新鲜鸡肉的判别模型;王文秀[8]等利用近红外光谱技术对冷鲜猪肉和解冻肉进行了鉴别;牛晓颖[9]等人利用近红外光谱技术对驴肉、牛肉、猪肉和羊肉建立了判别模型;Cozzolino等[10]分别对猪肉、羊肉和鸡肉的样本进行品种判别分析。然而,利用光谱技术对肉类产地判别较少。高光谱的定性分析研究主要应用于物质判别分析方面,其融合了电子学、光学、计算机科学和信息处理,将光谱技术和二维成像技术结合在一起,因此,具有快速、无损、连续多波段、高分辨率和光谱图像合一的特点[11-14]。
K最近邻分类算法(K-nearest neighbor,KNN)是一种典型的较流行、非参数、有效的分类方法,属于传统统计模式识别算法[15]。偏最小二乘判别分析(Partial Least Squares-Discriminant Analysis,PLS-DA)基于 PLS回归方程,其作为判别分析的常用方法,具有简单高效的特点[16-18]。不同生长环境的羊肉从外观虽然很难辨别,但其所处的生长环境(气候、土壤、水质)有所不同,会导致主要化学成分(蛋白质、脂肪、水分等)的结构和含量存在一定差异,这种差异可在高光谱上得到反映。故本文研究利用近红外高光谱成像技术对宁夏同一品种不同产地的羊肉进行鉴别,采集不同产地的3类羊肉样品原始光谱,利用SG卷积平滑(Savitzky-Golay smoothing,SGS)、标准正态变化(standardized normal variate,SNV)、面积归一化法(Area-Normalization)、多元散射校正(Multiplicative scatter correction,MSC)预处理方法处理,结合立偏最小二乘判别分析PLS-DA模型优选出最优预处理方法;然后利用连续投影算法(Successive Projection Algorithm,SPA)、竞争性正自适应加权算法(Competitive Adaptive Reweighted Sampling,CARS)和无信息变量消除法(Uninformative Variable Elimination,UVE)选取的特征波长,分别建立PLS-DA、KNN判别分析模型,优选出最优模型,从而实现固原、盐池、银川羊肉产地的鉴别。
实验羊 选自宁夏盐池、银川、固原,羊被屠宰后,取羊后腿肌肉放于低温保鲜盒运至实验室,用手术刀片去除样本表面的脂肪和肌膜,整形切块,肉样大小约为20 mm×30 mm×10 mm,分别取各产地样本75个,总样本共225个,用密封袋密封、编号。
近红外高光谱成像系统 900~1700 nm,光谱分辨率3 nm,256个波段,如图1所示,该系统由高光谱成像仪(Imspector N17E)、CCD相机(Zelos-285GV)、卤钨灯(SIA-LS-TDIF)、电控位移平台(PSA200-11-X)组成。
图1 近红外高光谱成像系统Fig.1 Near infrared hyperspectral imaging system
1.2.1 高光谱图像的采集 为保证采集到的图像清晰不失真,经过预实验尝试,最终将成像光谱仪的曝光时间设为10 ms,物镜高度为385 mm,电控位移平台速度为15 mm/s。
由于光源在各波段下强度分布不均匀及箱体中暗电流存在会导致图像光谱中含有较大的噪声。因此要对高光谱图像进行黑白校正[19],以消除噪声的影响。黑白校正公式为:
式(1)
其中:I校正后的漫反射光谱图像;R样本原始的漫反射光谱图像;D暗图像;W白板的漫反射图像。获得样本高光谱图像后,利用ENVI 4.6软件选取整块肉作为感兴趣区域(Region of Interest,ROI),计算出每张ROI的平均反射光谱,并将其作为该样本的反射光谱。
1.2.2 光谱预处理 由于仪器噪音、样本表面凹凸不平等因素对光谱的影响,需要将原始光谱数据进行预处理。选取SGS、SNV、Area-Normalization、MSC预处理方法处理,结合偏最小二乘判别分析PLS-DA模型选出最优预处理方法。
1.2.3 样本划分方法 样本集需要分成校正集和预测集,用于建立模型及验证预测模型的预测能力。采用Galvao等提出的SPXY(Sample Set Partitioning Based on Joint X-Y distance)法划分样本。其是在KS(Kennard Stone)法的基础上发展起来的,其优点是将变量X和Y均考虑在内,划分得到的校正集代表性强,模型性能好。
1.2.4 特征波长提取 由于全光谱是包含所有光谱变量,信息冗余,选用适当的特征波长提取方法剔除不相关或者非线性变量,实现用少数关键变量代替全光谱,达到降低模型运算量和复杂度、提高模型稳定性和预测准确性的目的。选用SPA、CARS和UVE选取特征波长,分别建立PLS-DA、KNN判别分析模型。
光谱预处理在The Unscrambler X 10.4上实现,其余算法在Matlab R2014a上完成。
本文采用SGS(SG-smoothing)、Area-Normalization、SNV和MSC预处理方法对原始光谱处理,建立PLS-DA模型,每次建立PLS-DA模型之前,首先找到最佳主成分数,方法如下:设定最大主成分数20、数据不缩放、交叉验证组数为10,原始光谱的交互验证的错误率随主成分数的变化如图2,根据交叉验证中的错误率对应的主成分数(16)确定为最佳。同样的方法找到不同预处理数据的最佳主成分数并建立PLS-DA模型,结果统计如表1所示。
图2 原始光谱的交叉验证中不同主成分数下的错误率Fig.2 Error rate of different principal components in cross validation of original spectrum
预处理方法主成分数交互验证中最小错误率准确率OriginalSpectrum160.16440.9378SG-smoothing140.12440.9244Area-Normalization120.15560.9333SNV160.14670.9244MSC150.15110.9289
从表1可以看出,原始光谱的PLS-DA模型主成分数为16时,交互验证错误率最低为0.1644,经过上述4种预处理方法建立的PLS-DA模型交互验证的最小的错误率均低于原始光谱建立的PLS-DA模型,SG-smoothing的PLS-DA模型错误率最低为0.1244;但SG-smoothing、SNV和MSC的PLS-DA模型准确率均小于0.93,明显低于原始光谱PLS-DA模型;经SG-smoothing、Area-Normalization和MSC预处理后的PLS-DA模型最优主成分数低于原始光谱PLS-DA模型,一般来说,主成分数越少,模型越稳定,Area-Normalization的PLS-DA模型的主成分数最少(12)。综合主成分数、交互验证错误率和模型准确率判定Area-Normalization为最优预处理方法。
采用SPXY方法对225个样本按照3∶1比例划分校正集和预测集,划分结果如表2所示。
表2 利用SPXY法划分样本结果Table 2 Results of sample division by SPXY method
由于全光谱包含所有光谱信息,数据量大、信息冗余且存在共线性变量,以全光谱建模会增加建模的复杂度,降低计算速度,影响建模效果。所以,本文选择3种方法提取特征波长,从全光谱中去除共线性变量,挑选有用变量,最终实现用关键波长代替全光谱建模,从而达到对全光谱降维、提高模型稳定性和建模速度的目的。
2.3.1 利用SPA提取特征波长 应用SPA选取波长数时,设置波长范围是1~25,数据不缩放,计算每个变量数下的RMSECV,根据RMSECV最小,确定最佳特征波长数。不同波长数下的RMSECV值如图3所示,可以看出当波长数为17时,RMSECV最小,故确定经SPA提取出17个最佳特征波长,依次为:924.6、927.5、930.5、933.5、936.5、939.5、945.4、951.4、960.3、987.2、996.1、1008.0、1046.8、1124.3、1151.1、1297.1、1675.6 nm。
图3 SPA中不同有效波长数下的RMSECVFig.3 Variation of RMSECV with number of effective wavelengths in SPA
2.3.2 利用CARS提取特征波长 在应用CARS提取之前,首先确定PLS模型中最优主成分数,设置最大主成分数15,蒙特卡洛采样次数1000,从总样本提取3/4作为校正集,得到不同主成分数下的RMSECV值,结果如图4所示。从图4中可知,当主成分数为7时,RMSECV值最小(0.5447),故最优主成分数为7。然后设定CARS参数:蒙特卡洛采样次数为1000,主成分数为7,交叉验证组数为10。对全波段样本光谱进行筛选,羊肉产地鉴别筛选过程见图5a。结果表明,随着变量筛选过程的进行被挑选的波长数逐渐下降,下降趋势由快变慢,体现了波长变量筛选的粗选与精选。图5b 为变量筛选过程中交互验证错误率的变化趋势。结果显示,交互验证错误率随着筛选过程的进行先下降后上升,蒙特卡洛(Monte Carlo,MC)采样次数为36~61时,交互验证错误率均为0.5171且最小,MC采样次数继续增加后,交互验证错误率随挑选变量数减少而增大,再结合筛选过程中波长变量回归系数变化趋势(见图5c),“*”所对应的位置为36次MC采样,所以应用CARS方法在MC采样为36次时,交互验证错误率最小,挑选出40个特征波长,分别为:924.6、927.5、966.3、984.2、1002、1005、1008、1011、1049.7、1052.7、1055.7、1067.6、1070.6、1079.5、1154.1、1160、1163、1177.9、1183.9、1198.8、1213.7、1216.6、1219.6、1222.6、1225.6、1228.6、1231.5、1288.2、1297.1、1303.1、1312、1315、1320.9、1323.9、1392.5、1401.4、1505.7、1663.7、1675.6、1678.6 nm。
图4 RMSECV随PLS主成分数的变化规律Fig.4 Variation of RMSECV with number of principal components of PLS
图5 羊肉产地鉴别的CARS特征波长筛选过程Fig.5 Process of CARS characteristic wavelength selection for identification of mutton origin注:a为羊肉产地鉴别筛选过程; b为变量筛选过程中交互验证错误率的变化趋势; c为筛选过程中波长变量回归系数变化趋势。
2.3.3 利用UVE提取特征波长 首先根据PLS交互验证模型中RMSECV最小确定PLS的最佳主成分数,本研究中当主成分数为7时,RMSECV最小,因此将主成分确定为7。设定交互验证组数为25,随机波长数为256,运行UVE计算256个输入变量的稳定性结果如图6所示。图中竖线左侧为256个光谱变量,右边为256个随机变量。两条水平虚线为变量选择阈值(10.20),阈值的选择标准为随机变量稳定性最大绝对值的99%。两条虚线之间的信息被认定是无用信息,两条虚线外的被认定是有用信息,其对应的波长被挑选出来。最终,应用UVE共选出121个特征波长,这些波长主要分布在999.1~1401.5,1502.8~1562.4,1633.9~1678.6 nm区间。
图6 PLS主成分数为7时UVE的稳定性分布曲线Fig.6 Stability distribution of variables selected by UVE at seven principal components in PLS
根据原始光谱和预处理基于PLS-DA羊肉产地鉴别模型建模对比发现SNV法为最优预处理方法,分别建立全波段光谱(Full Spectrum,FS)和3种特征波长提取方法基于PLS-DA和KNN的羊肉产地鉴别模型。
2.4.1 KNN建模结果 在运行KNN算法时,首先选择合适的K值,K值的大小影响模型的稳定性和预测能力。图7为全光谱交互验证的错误率与K值大小的分布图,选择交互验证最低错误率对应的K值,所以选择K=4建立KNN模型。同样的方法确定CARS、SPA、UVE特征波长的K值分别为5、6、5,分别建立对应的KNN模型,结果统计如表3。
图7 KNN算法中K值的选择Fig.7 K values selection for KNN algorithm
表3 基于不同特征波长挑选方法的KNN羊肉产地鉴别模型Table 3 KNN model based on different characteristic wavelength selection method for identification of geographical origins of mutton
表4 基于不同特征波长挑选方法的PLS-DA羊肉产地鉴别模型Table 4 PLS-DA model based on different characteristic wavelength selection method for identification of geographical origins of mutton
从表3可以看出,基于全光谱和特征波长提取方法建立的KNN模型中校正集的正确率均小于80%,预测集正确率均小于70%,说明模型稳定性和预测能力较差。对比全光谱和特征波长建立的KNN模型发现,SPA-KNN和UVE-KNN的模型效果明显逊于FS-KNN模型,而CARS-KNN模型校正集正确率为70.83%略小于FS-KNN模型,且预测集正确率为68.42%大于FS-KNN模型,说明CARS-KNN模型校正性能略差于FS-KNN模型,但模型预测能力优于FS-KNN模型。所以,CARS特征波长提取方法优于SPA和UVE,得到的40个特征波长包含了大量的有用信息,可以代替全光谱建模,达到减少模型的复杂性,提高建模速度的目的。
2.4.2 PLS-DA建模结果 建立PLS-DA判别模型时,首先需要确定最优主成分数,选择RMSECV最小时对应的主成分数确定为最优。本研究建立PLS-DA模型时,确定参数:数据不缩放、交叉验证组数为10。应用CARS、SPA、UVE方法挑选特征波长建立PLS-DA羊肉产地鉴别模型并与全光谱对比,模型效果统计如表4。
从表4可以看出,在3种特征波长提取方法中,SPA提取的特征波长17个为最少,SPA-PLS-DA模型主成分数为8低于FS-PLS-DA模型,说明通过SPA确实降低了模型的复杂性,但其校正集、预测集准确率分别为77.98%、66.67%,明显低于FS-PLS-DA模型,说明SPA方法剔除了过多变量信息,其中包括部分有用信息;经过UVE提取出121个特征波长,保留的变量较多,UVE-PLS-DA模型主成分数为12略低于FS-PLS-DA模型,但其校正集、预测集准确率明显低于FS-PLS-DA模型,说明该模型保留了部分无用信息,筛选能力不强;经过CARS方法挑选出40个特征波长,就数量上而言对全光谱起到了降维的作用,虽然CARS-PLS-DA模型的校正集准确率为90.48%,低于FS-PLS-DA模型的94.05%,预测集准确率为84.21%,略低于FS-PLS-DA模型的85.96%,说明CARS-PLS-DA模型的准确性稍差,但是其最佳主成分数为10小于FS-PLS-DA模型(13),通常情况下模型主成分数越小,模型越稳定,所以综合考虑模型的稳定性和准确性,说明CARS特征波长提取方法较好,提取得到的特征波长能代表全光谱建立PLS-DA模型。
对比预处理光谱的PLS-DA模型建模效果可知,经过面积归一化法预处理方法最好;对经过面积归一化法的光谱数据挑选特征波长,SPA、CARS、UVE算法提取特征波长分别为17、40、121个;分别建立基于特征波长的KNN、PLD-DA判别模型,结果表明所建立的KNN模型效果较差,3种特征波长中利用CARS提取的特征波长建模效果最佳,代替全光谱建立PLS-DA判别模型是可行的;对比模型效果,CARS-PLS-DA为最优模型,校正集正确率90.48%,预测集正确率84.21%。
[1]乌仁张嘎. 羊肉的营养价值分析及饲养管理水平对羊肉品质的影响[J]. 当代畜禽养殖业,2017(2):3-5.
[2]王家云,王松磊,贺晓光,等. 基于NIR高光谱成像技术的滩羊肉内部品质无损检测[J]. 现代食品科技,2014(6):257-262,249.
[3]刘兴勇,林涛,刘宏程,等.基于水解氨基酸分析山羊肉的产地溯源[J].现代食品科技,2013,29(11):2788-2792.
[4]孙淑敏,郭波莉,魏益民,等.多种稳定性同位素(C、N、H)分析在羊肉产地溯源中的应用[J].2011年第四届国际食品安全高峰论坛论文集.
[5]孙淑敏. 羊肉产地指纹图谱溯源技术研究[D].杨凌:西北农林科技大学,2012.
[6]Dubois A J,Lewisb E N,Jr F S F,et al. Bacterial identification by near-infrared chemical imaging of food-specific cards[J]. Food Microbiology,2005,22(6)577-583.
[7]Swatland HJ.Observations on rheological,electrical,and optical changes during rigor development in pork and beef[J].J Anim Sci,1997,75:975-985.
[8]王文秀,彭彦昆. 基于近红外光谱的冷鲜肉-解冻肉的判别研究[J]. 食品安全质量检测学报,2014(3):754-760.
[9]牛晓颖,邵利敏,董芳,等. 基于近红外光谱和化学计量学的驴肉鉴别方法研究[J]. 光谱学与光谱分析,2014(10):2737-2742.
[10]Cozzolino D,Murray I.Identiflcation of animal meat muscles by visle and near infrared reflectance spectroscopy[J].Swks Society of Food Science and Technology,2004,37(4):447-452.
[11]王雷,乔晓艳,董有尔,等.高光谱图像技术在农产品检测中的应用进展[J].应用光学,2009,30(4):639-645.
[12]逛全胜,陈蕾,王平,等.島光谱遥感技术在海洋研究的应用及展望机[J].海洋湖沼通报,2008(3):168-173.
[13]田有文,王晓娟.基于高光谱图像技术的农产品品质无损检测[J].农机化研究,2009(10):220-222.
[14]杨国鹏,余旭初,冯伍法,高光谱遥感技术的发展与应用现状[J].测绘通报,2008(10):1-4.
[15]刘应东,牛惠民.基于k-最近邻图的小样本KNN分类算法[J].计算机工程,2011,37(9):198-200.
[16]唐果,田旷达,李祖红,等. 近红外光谱结合PLS-DA划分烟叶等级[J].农业工程学报,2013(4):60-62.
[17]王逸之,董文渊,李永和,等.基于近红外光谱结合PLS-DA法的野外竹种识别技术研究[J].竹子研究汇刊,2014,33(4):16-20.
[18]杨忠,任海青,江泽慧.PLS-DA法判别分析木材生物腐朽的研究[J].光谱学与光谱分析,2008,28(4):793-796.
[19]ElMasry G,Wang N,ElSayed A. Hyperspectral imaging for nondestructive determination of some quality attributes for strawberry[J]. Journal of Food Engineering,2007,81:98-107.