辛世华,韩小珍,王彩霞
(1.宁夏工商职业技术学院旅游管理系,宁夏银川750021;2.宁夏大学学术期刊中心,宁夏银川750021;3.宁夏大学农学院,宁夏银川750021)
牛肉肉质嫩滑,味道鲜美,是人们日常饮食的重要组成部分[1]。不同品种的牛肉在品质和口感上存在很大的差异,但肉品性状和颜色极为相似,肉眼难以区分。传统的肉类判别方法有酶联免疫吸附[2]、蛋白质谱技术[3-5]、聚合酶链式反应(polymerase chain reaction,PCR)等[6],操作繁琐,耗时耗力。因此,需研发一种快速无损、操作简单的方法对牛肉的种类进行判别。
高光谱成像技术作为一种新型无损检测技术,具有超多波段、高光谱分辨率和谱图合一等优势[7],在肉品分析领域得到了广泛的应用。Sanz 等[8]利用线性最小均方(linear minimum mean squared,LMS)分类器在380 nm~1 028 nm 波段范围对羊肉肌肉类型进行识别分类,其准确率达到96.67%;Zhenjie Xiong 等[9]利用可见近红外高光谱对散养鸡和普通饲养方式下的及进行识别分析,并结合多元散射校正(multiplicative scatter correction,MSC)进行预处理,建立基于连续投影算法(successive projections algorithm,SPA)和径向基函数-支持向量机(radial basis function-support vector machine,RBF-SVM)的鸡肉判别模型,模型准确率高达 93.33%;Pu 等[10]在 400 nm~1 000 nm 光谱范围内对新鲜和冻融猪肉进行分类,校正集与预测集准确率分别为93.14%与90.91%。识别准确率分别为100%、94.1%、95.5%;王松磊等[11]使用高光谱成像技术对宁夏地区滩寒杂交、盐池滩羊、小尾寒羊3 个品种羊肉进行识别,结果表明,不同波段高光谱对羊肉品种识别均有较好效果;Kamruzzaman 等[12]对猪肉、牛肉和羊肉3 种不同种类的肉进行鉴别和分类并利用主成分分析(principal component analysis,PCA)和偏最小二乘判别(partial least square-discriminant ,PLS-DA) 等进行建模,结果表明,验证集中3 种类型的肉类样品的总体正确分类率为98.67%。综上可知,已有学者利用高光谱成像技术对鸡肉、猪肉、羊肉以及掺假肉等进行判别分析,但对不同品种牛肉的判别鲜有报道。
该研究利用可见/近红外高光谱技术对5 个不同品种的牛肉进行判别分析。首先利用不同的预处理对原始光谱进行预处理并划分校正集与预测集,通过所建立的PLS-DA 模型优选最佳预处理方法,建立基于特征波段和全波段的K 最近邻算法(K-nearest neighbor,KNN)、偏最小二乘判别分析,选出最佳模型,为快速无损判别牛肉品种提供技术参考[13]。
产奶率低的荷斯坦奶牛,采自宁夏吴忠市涝河桥分割肉加工有限公司;3 岁左右的秦川牛、西门塔尔牛,力木赞牛及安格斯牛,采自宁夏固原市宁夏尚农生物科技发展产业有限公司。各品种牛经屠宰后在0 ℃下冷藏,排酸48 h。取出牛肉样品进行分割,每个品种的牛分别取4 个部位肉(脖肉、眼肉、瓜条肉、里脊肉),剔除多余的油脂和筋膜后,放入保温箱运至宁夏大学农产品无损检测实验室,贮藏在4 ℃冷柜备用。5 个品种的牛肉样品各60 个,共300 个。光谱扫描前将肉样整形切块(大小约为40 mm×30 mm×10 mm),25 ℃下放置2 h,待肉样中心温度达到室温(25 ℃)水平后,用滤纸吸干样品表面的水分,进行光谱扫描。
Hyper Spec-VNIR 高光谱成像系统、VT-80 自动电控位移平台:美国Headwall 公司;Imspector N 型成像光谱仪(光谱分辨率2.8 nm,狭缝宽度25 μm)、G4-232 增强型 EMCCD 相机(像素尺寸 8.0 μm)、2 个卤素灯光源:美国Golden Way Scientific 公司;VT-80 自动电控位移平台。
1.2.1 高光谱图像采集
由于肉样本纹理形状、色泽等会造成光源漫反射,影响光谱信息采集效果。因此,图像采集时需设置合理的曝光时间和位移平台移动速度。经预试验确定牛肉样品的采集参数:相机曝光时间为15 ms,物距为380 mm,电控位移平台移动速度为15 mm/s[13]。同时,由于光源强度分布不均及相机中暗电流的存在,使采集到的信息中含有大量噪声。因此在采集高光谱图像之前需进行黑白校正。具体方法同文献[13]。
图像采集前,需打开高光谱仪器预热30 min。试验过程中,每组取5 块肉样依次置于电控位移平台上,进行光谱扫描。图像数据处理之前,利用ENVI 4.8 软件选取整块肉表面作为感兴趣区域(range of interest,ROI),计算ROI 内的平均反射光谱,作为样本的反射光谱[13]。
1.2.2 样本划分
采用光谱-理化值共生距离法(sample set parti tioning based on joint X-Y distances,SPXY)[14]进行样本划分。
1.2.3 光谱数据预处理
在光谱采集过程中,由于试验样本、测定环境及仪器噪音等因素的影响,所采集的光谱数据中会夹杂一些无用信息,从而影响建模性能。因此,需要对原始光谱数据进行预处理。该试验通过卷积平滑(savitzkygolay smoothing,SG)、区域归一化、一阶导数(first derivative,FD)、基线校准、标准正态变量变换(standard normal variate,SNV)、MSC 方法[15]对原始光谱进行预处理。
1.2.4 模型建立
试验采用PLS-DA、KNN 法及RBF-SVM 法建立牛肉品种鉴别模型。PLS-DA 算法是在PLS 回归算法基础上建立样本分类变量与光谱特征间的回归模型的分类方法。KNN 算法是将一个样本在特征空间中的K 个最相似或者最邻近的样本进行比较,样本中的大多数属于某一类则将该样本归结为此类[16]。RBF-SVM法是基于统计学习理论提出的一种机器学习识别方法,对非线性及高维信息识别具有较好的处理能力。该算法的原理将向量映射到高维空间,构建一个超平面,进而建立合适的分隔超平面,使两个与之平行的超平面距离达到最大,从而解决复杂数据的分类及回归问题。用The Unscrambler X 10.4 对光谱数据进行预处理[13],其余算法在Matlab R2016a 中实现。
对5 种牛肉样品的光谱数据取平均,得到的平均光谱曲线如图1 所示。
图1 牛肉样品平均光谱图Fig.1 The original average spectra
由图1 可以看出,不同品种牛肉的光谱曲线走势相似。其中,奶牛肉的反射率值明显低于其他牛肉。在400 nm~590 nm 波段范围内,反射率较低。而在650 nm~780 nm 波段,光谱反射值较高。
在可见光区域,牛肉中的肌红蛋白与血红蛋白相互作用,使其肉色呈现红色;在近红外区域,光谱吸收取决于物质分子基团中光子能量吸收与能级跃迁,不同物质具有特定的波长吸收组合,牛肉脂肪、蛋白质及水分含量约占牛肉总质量的99%,因此光谱吸收主要与其本身所含的-OH,-CH 和-NH2等基团密切相关。由图1 可以看出,在部分波段范围内存在光谱交叉及重叠现象,但是在690 nm~930 nm,各波段反射率差异比较明显,这为牛肉品种的快速判别提供了大量信息。
经不同预处理方法后建立PLS-DA 模型,结果见表1。
由表1 可知,经过FD 法预处理后所建模型的交互验证中最小错误率最小为0.08,其模型的准确率达到95.33,表明采用一阶导数预处理所建模型的准确性最好。故选择FD 方法对原始光谱进行预处理。
表1 不同预处理方法后的PLS-DA 模型结果Table 1 The results of PLS-DA models by different pretreatment methods
样本集的划分方法在一定程度上决定了所建模型的优略性,该研究利用SPXY 法对样本划分进行划分。对牛肉样品进行取样时选择3/4 样本作为校正集,剩余1/4 作为预测集。样本划分结果见表2。
表2 利用SPXY 法划分样本结果Table 2 The results of sample partitioning by SPXY
2.4.1 建模参数的设定
KNN 算法中最重要的是K 值的确定。K 值不仅会影响模型的稳定性,同时对模型的预测效果也有很大的干扰[13]。试验中将最大主成分数设定为10,利用马氏距离算法[17]并进行数据归一化处理,采用百叶窗交互验证[18],设置交互验证组数为10,寻找交互验证错误率最小处即为最佳K 值,结果见图2。
图2 KNN 算法中K 值选择Fig.2 K values selection for KNN algorithm
由图2 可知,当K=6 时,错误率达到最低值,所以选择K=6 时建立KNN 模型。
在建立PLS-DA 模型时,将模型的最大主成分数设定为20[13],数据归一化处理后,采用百叶窗交互验证[19],设置交互验证组数为10,原始光谱的交互验证错误率随主成分数的变化见图3。
图3 交互验证中不同主成分下的错误率Fig.3 Error rate of different principal components in cross validation
由图3 可知,在主成分数为11 时误判率最低,故将11 确定为最优主成分数。
2.4.2 建模结果
将经FD 法预处理后的光谱数据,分别建立基于全部波段的KNN、PLS-DA、RBF-SVM 牛肉品种判别模型,并对模型效果进行比较分析,模型结果见表4。
综上可知,RBF-SVM 法所建模型的校正集准确率与预测集准确率均高于KNN、PLS-DA 算法,RBF-SVM 法所建模型结果较好,校正集与预测集准确率分别为100%、99%。
表4 5 个品种牛肉的鉴别准确率Table 4 Identification accuracy of five beef breeds
本文利用近红外高光谱技术,在400 nm~1 000 nm对5 种不同牛肉品种进行判别,采集其高光谱图像,提取其光谱信息,对比分析不同的光谱预处理方法,优选出FD 预处理方法;并采用SPXY 法划分样品;然后分别建立基于全波段和特征波长下的PLS-DA,KNN 及RBF-SVM 牛肉判别模型。RBF-SVM 法所建模型的校正集与预测集准确率分别为100%、99%,具有较好的判别效果,为牛肉品种快速无损判别提供理论依据。