王巧华,李小明,段宇飞
(1.华中农业大学工学院,湖北 武汉 430070;2.华中农业大学 国家蛋品加工技术研发分中心,湖北 武汉 430070)
基于CUVE-PLS-DA的鸡蛋新鲜度在线检测分级
王巧华1,2,李小明1,段宇飞1
(1.华中农业大学工学院,湖北 武汉 430070;2.华中农业大学 国家蛋品加工技术研发分中心,湖北 武汉 430070)
针对目前鸡蛋新鲜度检测技术方法存在劳动强度大、检测精度低、分级效率不足等缺陷,本研究在4 800 枚/h的禽蛋传输机上搭建了可见-近红外透射光谱(501~1 000 nm)在线检测装置,动态采集鸡蛋透射光谱数据,并建立光谱信息与鸡蛋哈夫值等级的偏最小二乘判别模型。采用3∶1原则对鸡蛋样本进行随机划分,其中校正集169 个,验证集57 个,通过比较多种光谱预处理方法以及两种特征波长选择方法,得出标准正态变换预处理方法和多模式共识方法能够有效地提高模型的正确率、运算效率和预测能力,优化模型后的校正集和验证集准确率分别为92.31%、91.23%。结果表明本实验建立的可见-近红外光谱透射光谱检测方法能够对鸡蛋的新鲜度进行无损、智能、在线检测分级。
鸡蛋;新鲜度;在线检测;偏最小二乘判别法;多模式共识法
鸡蛋因其易消化、口感佳,并含有大量的蛋白质、脂肪、维生素等丰富营养物质而深受广大消费者的喜爱。鸡蛋新鲜度会随着时间的推移逐步下降,营养成分逐渐丢失[1]。根据农业部标准鸡蛋品质新鲜度在B级以下
不建议消费者食用,而目前我国蛋品市场和蛋品加工企业在线智能无损检测技术尚未成熟,因此对鸡蛋新鲜度的快速无损检测具有重要的现实意义。
光谱分析技术是近几年发展起来的一种高效、无损、智能检测技术,并已经在石油、农业、医疗、工业等领域得到了成功的应用[2-7]。国内外众多研究者对鸡蛋的新鲜度、气室高度、蛋白高度等方面开展了相关的研究和探索。侯卓成等[8]基于傅里叶近红外漫反射光谱分析技术,运用无偏最小二乘法建立了光谱信息与鸡蛋的气室高度、气室直径和蛋白高度3 个指标的定量分析模型,所得出的回归模型具有较好的准确性和预测能力。林颢等[9]提出了一种基于近红外光谱漫反射结合一类支持向量机技术,建立了一种鉴别新鲜蛋和非新鲜蛋的判别模型,其模型预测准确率为80%。Soltani等[10]基于介电光谱技术和机器视觉技术,运用神经网络、决策树、支持向量机3 种方法建立了光谱信息与鸡蛋新鲜度的回归模型,得出验证集的相关系数分别为0.817、0.906、0.920。Giunchi等[11]基于傅里叶近红外光谱漫反射分析技术,运用偏最小二乘法建立了光谱信息与鸡蛋气室高度、蛋白高度、哈室单位的定量回归模型,得出了验证集的相关系数分别为0.722、0.789、0.676。
上述研究表明了鸡蛋的新鲜度能够通过近红外光谱技术进行定量和定性的分析,但是大部分研究者都是基于静态分析,而动态研究鸡蛋品质的大多为机器视觉技术、生物传感器技术等,少有应用光谱技术的,针对目前我国市场、企业检测鸡蛋新鲜度劳动强度大、效率低、准确率不高等缺点,本研究提出了一种基于多模式共识结合偏最小二乘判别分别(consensus uninformative variable elimination-partial least squares-discriminant analysis,CUVE-PLS-DA)的可见-近红外透射光谱在线检测鸡蛋新鲜度等级的方法,为蛋品品质的光谱检测实际应用提供了技术支撑[12-14]。
1.1 材料
当日产的新鲜鸡蛋,购于湖北省武汉市九峰山养鸡场。供试样本226 枚,鸡蛋的质量50~76 g;鸡蛋的短轴直径42~48 mm;鸡蛋的长轴直径53~65 mm。将所有鸡蛋样本均贮藏在温度24 ℃、相对湿度65%的恒温恒湿生化培养箱内。
1.2 仪器与设备
本实验光谱采集装置如图1所示,主要由计算机、USB2000+便携式光谱仪(美国Ocean Optics公司)、光电开关、准直镜、暗箱、鸡蛋运输传送装置、光亮度调节箱、可编程控制器等部件构成。鸡蛋通过4 800 枚/h的传送装置运输到光电传感器被触发的位置,控制器收到传感器的触发信号后将其转换并反馈到电脑光谱采集软件,从而通过软件驱动光谱仪采集鸡蛋的透射光谱。
电子天平 上海精密科学仪器有限公司。
图1 鸡蛋透射光谱在线采集装置Fig.1 On-line transmission spectral acquisition device for eggs
1.3 方法
1.3.1 鸡蛋原始透射光谱
实验每3 d从恒温恒湿箱里随机挑选鸡蛋样品30 枚,将鸡蛋进行编号并依次放入ZYJD330蛋品运输机上;光源选用LS-3000型的卤素灯源;软件设置积分时间100 ms、平滑次数10 次、平滑宽度为5 nm。采集的鸡蛋原始透射光谱图(光谱采集范围500~1 000 nm),如图2所示。
图2 鸡蛋的原始透射光谱Fig.2 Original transmission spectra of eggs
1.3.2 新鲜度常规检测方法
通过上述采集装置采集完鸡蛋的光谱信息后,将鸡蛋放入精度0.01 g的电子天平称量,然后破壳,利用精度0.01 mm的数显游标卡尺测量环绕蛋黄边境不同点的蛋白高度3 次,取平均值作为最终的蛋白高度,最后利用标准的哈夫(Ha)值公式计算鸡蛋的新鲜度,并按照美国农业部的划分标准将其分为3 类:AA级(Ha≥72)、A级(60<Ha<72)、B级及以下(Ha≤60)。
式中:h为蛋白平均高度/mm;w为鸡蛋质量/g。
1.3.3 样本集划分方法
实验中不同新鲜度的鸡蛋样本226 个,按照3∶1原则将其随机划分校正集和验证集,其中校正集的样本个数为169 个,用来建立新鲜度判别模型,而剩余的57 个鸡蛋作为验证集用来检验模型的适用性及预测精度。
1.3.4 预处理和建模方法
鸡蛋在线无损检测的过程中需要一个运行稳定、运算效率快、准确率高的预测模型,本研究尝试了PLS-DA法和K最邻近(K-nearest neighbor,KNN)算法对鸡蛋新鲜度进行分级。
KNN算法的思路是未知类别样本点去寻找与附近已知K个样本点进行比较,K个样本点与未知样本点某一类相似的个数最多,则归结为该类,其中的相似是以欧式距离作为评判的依据,越小越相似,样本点K的选择是根据模型的交叉验证准确率为依据。
PLS-DA是一个线性分类方法,是结合偏最小二乘回归的性质和判别分类技术的一种方法[15]。该方法的基本实现过程如下:
首先在原始变量X中提取与Y变量(M×1维矩阵,M代表校正集样本数目,1列则代表着每一个样本类别标签,本研究将类别标签分为3 类,1代表AA级,2代表A级,3代表B级及以下)协方差关联比较大的主成分X1。
将原始Y变量转换成虚设矩阵Y1(Y1为M×3维矩阵),即将原始标签转换成二进制的0和1标签,将样本的归属类标签置为1,在剩余两类的标签都置为0。
建立X1与Y1的偏最小二乘回归模型,根据模型的运算将得到每一个样本的预测值Yc(M×3),样本将归属于Yc最接近于1的那一类。
校证集的正确率能够有效说明该判别模型的准确性,验证集的正确率能够表明该模型的预测能力及推广性。校证集和预测集的正确率越高,说明本模型的精确度和预测能力越高。
在线采集鸡蛋透射光谱的过程中,会受到机器的振动、高频随机噪声、基线漂移、样品不均匀、光散射等各种外界噪声影响,因此有必要对原始透射光谱进行滤波和校正,从而有利于提高模型的精度[16-18]。比较无预处理(NONE)、SG滤波(Savitzky-Golay,SG)、一阶导数(first derivative,FD)、标准正态变换(standard normal variate,SNV)、多元散射校正(multiple scatter correction,MSC)不同种预处理的方法结合PLS-DA法建立了定性分级模型,并使用验证集来进行验证模型。
1.3.5 特征波段提取方法
在采集鸡蛋透射光谱的过程中,会受到各种各样随机的外界条件所干扰,所获得的光谱信息中会存在一些基线漂移、冗杂、噪声等无用信息。选择合适的方法去剔除这些无用的信息,不仅能够有效的改善模型的准确率,而且也能够极大地提高模型的运算效率。
1.3.5.1 无信息变量消除法
无信息变量消除(uninformative variable elimination,UVE)法是Center最早提出的筛选特征波长的有效算法,该算法核心目的是淘汰一些与因变量关联非常小的波长[19]。该算法的具体实现是首先向原始光谱数据添加等同行列大小一定数量级的(本实验采用大小0~10-8)随机噪声,并将其称之为无信息的变量,然后每次剔除一个样本,将剩余的样本训练集建立偏最小二乘回归模型,从而能够得到每一个回归模型的回归系数β,通过可信度Cj判断是否保留该波长点。
综上所述,超细鼻胃镜不仅能够有效减低对患者的刺激程度,还可以在消化道狭窄性病变中对胃肠道进行更全面、细致的检查,配合相关器械还可进行内镜下活检与治疗,在内镜下诊疗领域发挥独特优势,应当广泛推广应用于各内镜治疗中心。
式中:βj为第j点波长的所有模型回归系数,j=1,2,3,...1 000;mean(βj)表示平均回归系数;std(βj)表示方差。满足如下的条件,能够有效地剔除光谱数据中的一些无信息的变量,也为最后的波长筛选结果。|Ck|>max|Cm|,k取1~500,m取501~1 000。
1.3.5.2 多模式共识法
单一方法挑选的特征波段往往受到多种因素、参数的影响,而且或许会在不同的条件下选取的特征波段结果有所差别,因此本研究针对于此缺陷尝试将多模式共识的理论应用到特征波段的选取。CUVE的实现算法流程图如图3所示。
图3 多模式共识法筛选波长的流程图Fig.3 Flow chart of CUVE for wavelength selection
首先从总校正集样本X(m×n)随机选取约50%样本X1(m×n),建立无信息变量消除-PLS(uninformative variables elimination,UVE-PLS)筛选波长;然后重复运行上述步骤200 次,每一次都会有波长的筛选结果;记录每一个波长点被选择的频率f,最后通过十折交互验证后的模型正确率来判断最佳的频率阈值,根据据频率阈值,筛选出最后保留的波长点。
2.1 样本集的划分结果
对样本集随机分选后的结果见表1。
表1 样本的分类情况Table1 Sample classification
2.2 光谱数据建模及预处理结果分析
图4 KNN算法K的选择Fig.4 K Selection for KNN algorithm
KNN算法K的合适选择对于模型的预测能力和推广至关重要,本研究使用交叉验证的错误率来进行K值的选取,根据图4能够看出当K值为9的时候,此时的交叉验证错误率最低。通过K=9的KNN算法与PLS-DA去预测鸡蛋新鲜度等级进行比较,PLS-DA其校正集的准确率和验证集的准确率均高于KNN模型对应的值。
表2 KNN和PLS-DA两种建模方法比较Table2 Comparison of two modeling methods KNN and PLS-DA
KNN算法是通过领域空间去寻找相似样本的个数,而在一些样本离散度较大、样本等级个数不均匀的情况下,往往所获得的结果不够理想。而PLS-DA是多元回归、典型相关性、主成分分析集于一体的现代分析统计方法,比较适合复杂的数据分析,根据表2两种建模方法结果的比较,最终选取了PLS-DA作为最终的建模方法。
表3 不同预处理方法所建立的PLS-DA模型结果Table3 Results of PLS-DA models based on different spectral preprocessing methods
由表3可以看出,不同预处理的方法所获得的判别准确率有所差别,而且经过预处理后的模型预测准确率均比无预处理的结果要高。经比较,标准正态变换预处理更有效地去除了光谱噪声、减弱颗粒大小、光程长短变化、表面散射等随机因素对光谱的影响,经其处理后所获得的模型预测效果最优。
2.3 特征波段提取与分析
2.3.1 无信息变量消除法挑选特征波段的结果
由表3可知,经过预处理后的模型预测集正确率和预测能力仍然不足,模型的推广性有待优化。对光谱进行特征波段提取能够有效地滤除与鸡蛋新鲜度没有关联或者是关联微乎其微的波段,同时也能够优化判别模型,提高在线检测分级的效率[20-24]。
图5 基于无信息变量法选出的特征波长Fig.5 Selection of characteristic wavelengths by UVE
基于无信息变量法选出的特征波长见图5。采取无信息变量后筛选出22 个波长,通过这些波长点建立PLS-DA模型,最后得到校正集的正确率为89%,预测集的正确率为88%,可见通过无信息变量法筛选后波长进行建模能有效提高模型的预测能力。
2.3.2 多模式共识法挑选特征波段的结果
由于无信息变量法添加的为随机噪声,每一次使用该方法随机噪声大小数值都会有所变化,因此经常会得到不同的波长筛选结果,这样选取的波长变量往往有些不牢靠。针对此缺陷,本实验尝试将多模式共识的方法应用于波长筛选[25]。
图6 最优频率阈值Fig.6 Optimization of frequency threshold
从图6可以看出,f≥2的时候交叉验证后的模型准确率最高,最后将按照f≥2的判定准则选出如图7中的39 个特征波长用来建立PLS-DA模型,建立模型的校正集准确率为92.31%,预测集的准确率为91.23%。
图7 通过多模式共识法所选的特征波长Fig.7 Wavelength variables selected by CUVE
通过与无信息变量消除法相比,多模式共识采用随机和组合的方式建立多个子模型,选出来的波长点更具有可靠性,有效地提取了特征波段,该方法筛选波段用来建模得到更好的检测结果。
在比较多种光谱预处理方法对模型结果影响的基础上,确定了SNV为最佳预处理,模型校正集的准确率为86.39%,验证集的准确率为84.21%,能够有效地提高模型的准确率和预测能力。将多模式共识理论应用于鸡蛋透射光谱的波长选择,基于多模式共识法挑选特征波段后的建模效果优于无信息消除变量法。
通过多模式共识法将500 个波长缩减到39 个特征波长,用39 个特征波长建模,最终得到的模型校正集的准确率为92.31%,预测集的准确率为91.23%,满足了在线高效检测要求,为可见-近红外光谱用于鸡蛋新鲜度在线检测提供了技术支持。
[1] 王巧华, 周平, 熊利荣, 等. 鸡蛋反射特性及其与新鲜度的关系[J].华中农业大学学报, 2008, 27(1): 140-143.
[2] 顾小红, 冯宇, 汤坚. 偏最小二乘法在红外光谱识别茶叶中的应用[J].分析科学学报, 2008, 24(2): 131-135.
[3] 黄涛, 李小昱, 彭毅, 等. 基于近红外光谱的淡水鱼新鲜度在线检测方法研究[J]. 光谱学与光谱分析, 2014, 34(10): 2732-2736.
[4] 宁井铭, 宛晓春, 张正竹, 等. 近红外光谱技术结合人工神经网络判别普洱茶发酵程度[J]. 农业工程学报, 2013, 29(11): 255-259.
[5] 张仲源, 刘静, 管骁, 等. 近红外光谱技术在食品检测中的应用研究进展[J]. 食品与发酵工业, 2011, 37(11): 159-165. DOI:10.13995/ J.cnki.11-1802/ts.2011.11.012.
[6] 张彬, 陈剑虹, 焦明星. 氯盐溶液近红外光谱分析研究[J]. 光谱学与光谱分析, 2015, 35(7): 1840-1843.
[7] 介邓飞, 谢丽娟, 饶秀勤, 等. 近红外光谱变量筛选提高西瓜糖度预测模型精度[J]. 农业工程学报, 2013, 29(12): 264-270.
[8] 侯卓成, 杨宁, 李俊英, 等. 傅里叶变换近红外反射用于鸡蛋品质的研究[J]. 光谱学与光谱分析, 2009, 29(8): 2063-2068.
[9] 林颢, 赵杰文, 陈全胜, 等. 近红外光谱结合一类支持向量机算法检测鸡蛋的新鲜度[J]. 光谱学与光谱分析, 2010, 30(4): 929-92; 312.
[10] SOLTANI M, OMID M. Detection of poultry egg freshness by dielectric spectroscopy and machine learning techniques[J]. LWTFood Science and Technology, 2015, 62: 1034-1042. DOI:10.1016/ j.lwt.2015.02019.
[11] GIUNCHI A, BERARDINELLI A, RAGNI L, et al. Non-destructive freshness assessment of shell eggs using FT-NIR spectroscopy[J]. Journal of Food Engineering, 2008, 89: 142-148. DOI:10.1016/ j.talanta.2014.10.042.
[12] 岑易科. 基于机器视觉的鸡蛋品质检测方法研究[D]. 杭州: 浙江大学, 2006.
[13] 潘磊庆. 基于机器视觉和声学技术融合检测鸡蛋品质的研究[D].南京: 南京农业大学, 2007.
[14] 刘艳, 李庆武, 黄小微, 等. 鸡蛋透光图像特征提取与新鲜度检测模型研究[J]. 科学技术与工程, 2015, 15(25): 72-77.
[15] BALLABIO D, CONSONNI V. Classification tools in chemistry part 1: linear models PLS-DA[J]. The Royal Society of Chemistry, 2013, 5: 3790-3798. DOI:10.1039/C3ay40582f.
[16] 高荣强, 范世福, 严衍禄, 等. 近红外光谱的数据预处理研究[J].光谱学与光谱分析, 2004, 24(12): 1563-1565.
[17] 尼珍, 胡昌勤, 冯芳. 近红外光谱分析中光谱预处理方法的作用及其发展[J]. 药物分析杂志, 2008, 28(5): 824-829.
[18] 江泽慧, 费本华, 杨忠. 光谱预处理对近红外光谱预测木材纤维素结晶度的影响[J]. 光谱学与光谱分析, 2007, 27(3): 435-438.
[19] CENTNER V, MASSART D, NOORD O E D. Elimination of uninformative variables for multivariate calibration analytical chemistry[J]. 1996, 69(21): 3851-3858.
[20] 孙俊, 金夏明, 毛罕平, 等. 基于高光谱图像光谱与纹理信息的生菜氮素含量检测[J]. 农业工程学报, 2014, 30(5): 167-173.
[21] 余晓雅, 张玉钧, 殷高方, 等. 基于偏最小二乘回归的藻类荧光光谱特征波长选取[J]. 光学学报, 2014, 34(9): 1-6.
[22] 徐秋, 李娜, 赵慧洁, 等. 基于光谱特征的自适应子空间波段选择方法[J]. 北京航空航天大学学报, 2013, 39(5): 635-639.
[23] 黄维, 田丰玲, 刘振尧, 等. 基于不同PLS算法的方竹笋中蛋白质分析的近红外光谱特征波段选择[J]. 2013, 34(22): 133-137.
[24] GOUVINHAS I, MACHADO N, CARVALHO T, et al. Short wavelength Raman spectroscopy applied to the discrimination and characterization of three cultivars of extra virgin olive iils in different maturation stages[J]. Talanta, 2015, 132: 829-835. DOI:10.1016/ j.talanta.2014.10.042.
[25] 韩清娟, 张梦军, 曹文轩, 等. 基于多模式共识的近红外光谱波长的选择方法[J]. 分析科学学报, 2013, 29(6): 758-762.
On-Line Detection and Classification of Egg Freshness Based on Consensus Uninformative Variable Elimination-Partial Least Squares-Discriminant Analysis (CUVE-PLS-DA)
WANG Qiaohua1,2, LI Xiaoming1, DUAN Yufei1
(1. College of Engineering, Huazhong Agricultural University, Wuhan 430070, China; 2. National Egg Processing Technology Research and Development Sub-centers, Huazhong Agricultural University, Wuhan 430070, China)
Although there are many methods available to detect egg freshness at present, they have shortcomings including laboriousness, low precision and low classification efficiency. An on-line monitoring device based on visible/near infrared spectroscopy (501–1 000 nm) was fitted to the 4 800 eggs per hour egg transport machine for the purpose of dynamically collecting transmittance spectral data for eggs. The collected data were used to establish a partial least squares discriminant (PLS-DA) model for the Haugh unit value of eggs. A total of 226 egg samples were randomly divided into two set: calibration set (n = 169) and validation set (n = 57). By compared different spectral pretreatments and two wavelength selection methods, it was found that standard normal variate (SNV) transformation and multi-pattern consensus method could effectively improve the accuracy, efficiency and predictive ability of the PLS-DA model. The final calibration and validation accuracy were 92.31% and 91.23%, respectively. This study showed that visible-near infared spectroscopy could be used as a real-time and non-destructive detection method to classify egg freshness.
egg; freshness; online; partial least squares; multi-pattern
10.7506/spkx1002-6630-201622028
TS253.7
A
1002-6630(2016)22-0187-05
王巧华, 李小明, 段宇飞. 基于CUVE-PLS-DA的鸡蛋新鲜度在线检测分级[J]. 食品科学, 2016, 37(22): 187-191. DOI:10.7506/spkx1002-6630-201622028. http://www.spkx.net.cn
WANG Qiaohua, LI Xiaoming, DUAN Yufei. On-line detection and classification of egg freshness based on consensus uninformative variable elimination-partial least squares-discriminant analysis (CUVE-PLS-DA)[J]. Food Science, 2016, 37(22): 187-191. (in Chinese with English abstract) DOI:10.7506/spkx1002-6630-201622028. http://www.spkx.net.cn
2016-04-17
国家自然科学基金面上项目(31371771);湖北省科技支撑计划项目(2015BBA172);
“十二五”国家科技支撑计划项目(2015BAD19B05);公益性行业(农业)科研专项(201303084)
王巧华(1970—),女,教授,博士,研究方向为机电一体化、智能化检测与控制、机器视觉。E-mail:wqh@mail.hzau.edu.cn