基于电子鼻技术的皇冠梨腐败等级分类研究

2020-03-03 10:14,*
食品工业科技 2020年3期
关键词:皇冠响应值电子鼻

,*

(1.河北工业大学人工智能与数据科学学院,天津 300130; 2.总装机械技术研究所,河北石家庄 050003)

中国是梨树的原产地之一,梨果产业也是中国水果产业中继苹果和柑橘之后的第三大果品产业[1]。河北省石家庄市盛产的皇冠梨是一种远销海外的品种梨,其产量与需求日益增多。但在运输过程中,会因为各种外界因素,例如贮藏时间过长、运输过程中挤压碰撞等原因,

表1 PEN3传感器名称及性能描述Table 1 Ten sensor names and performance descriptions of PEN3

导致其内部发生腐败变质,而外观上却无很大变化的现象[2-3]。专业的梨果专家也无法很好地分辨其内部果实的好坏[4],这些已经变质的皇冠梨运输到海外市场后,会出现拒收情况,造成巨大的经济损失。目前的解决方法是在装箱运输前进行人工抽样检测,该方法一方面抽检的覆盖率和效率较低,另一方面会浪费大量的资源。

在过去的几年里,各种先进的检测方法已在果蔬检测中得到应用[5-6]。传统方法包括红外光检测和可见光图像检测,但只能检测水果的外部品质,无法完成对水果内部果实的检测[7]。目前也有专业果实评级师根据香气特征来检测水果品质好坏[8-9]。但检测的方法主要是依据个人经验,具有主观性,并且主要针对单一特定水果,没有较广的覆盖面并且检测的准确性与高效性是无法保证的[10]。

目前的电子鼻技术还没有应用在皇冠梨的检测中。效率低的人工抽检方法不适用于大规模的出口检测工作,另外一些红外光和可见光检测方法因其检测设备过于复杂且造价昂贵,并且对检测环境要求较高等原因,也达不到出口检测的要求。所以本文提出一种基于电子鼻技术的无损检测方法,完成对不同腐败程度皇冠梨的等级分类,为皇冠梨品质检测提供新思路。

1 材料与方法

1.1 材料与仪器

皇冠梨样本 于2018年10月份在河北省石家庄市农科院采集,样本拥有大致相同的成熟度与重量。

PEN3便携式电子鼻 德国Airsense公司,该电子鼻系统由金属氧化物气体传感器阵列、气体采样装置和信号处理单元组成[11]。使用10个不同金属氧化物传感器进行采样,不同的传感器对不同的挥发性物质有特殊反应[12-13],PEN3十个传感器阵列的主要性能如表1所示。

1.2 实验方法

1.2.1 样品的分级 由农科院采集的880个皇冠梨样本,由经验丰富的梨果专家根据多年的鉴别经验分为四类,无黑核梨、黑核梨1级、黑核梨2级和黑核梨3级,每一类共220个,总共880个皇冠梨样本,采集完毕后使用图像采集系统对梨样本拍照留样记录,每一个皇冠梨样本均由专家切开进行验证。

1.2.2 电子鼻分析 将皇冠梨样品放入500 mL烧杯内,采用保鲜膜进行密封,密封后静置于室温环境,顶空时间为15 min,目的为样品气体能充分挥发在密闭烧杯中,待气体达到饱和平衡状态后进行正式实验,每个样本的密封时间间隔为2.5 min(即检测一个样本的时间),目的为保证每个样本有相同的实验条件,即每个样本顶空时间相同。气体采集前,以500 mL/min的速率吸取洁净空气对电子鼻的气室和气道进行清洗,清洗时间为60 s;检测时,将进气针与补气针同时插入保鲜膜封闭的烧杯内,电子鼻内置气泵开始工作,以300 mL/min的速率吸取样品气体,采集时间为90 s。即总实验时间为150 s(60 s气体清洗时间,90 s气体收集时间)。

对于实验过程中可能因人为操作而导致的偶然误差问题,并且为保证样本的准确性与可靠性,本实验采取的措施是对同一个样本进行三次的重复实验采集,降低偶然误差的风险,每次实验后将采集好的数据保存在计算机内,为之后的数据分析做准备。

1.3 数据分析方法

使用电子鼻仪器收集相同产地、相似成熟度与质量大致相同的皇冠梨样本的气味数据,使用不同的机器学习算法对经过专家鉴定过的四个等级共640个梨样本数据做模型的训练,使用分层K折交叉验证的方法对模型进行评估,选择最佳的模型,最后使用未经过训练的四个等级共160个独立皇冠梨样本对搭建的模型进行验证。处理数据软件为Spyder,处理语言为python3.6版本。

1.3.1 主成分分析 主成分分析(Principal Component Analysis,PCA)是一种无监督的数据分析方法,它可以在保证数据最大差异的同时降低特征维数[14]。PCA通过正交变换将数据变换到新的特征空间中去,原始空间中的最大数据方差的方向是第一主成分(PC1),与PC1正交的第二大数据方差的方向是第二主成分(PC2),依次类推。

1.3.2 线性判别分析 线性判别分析(Linear Discriminant Analysis,LDA)的基本原理是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,它是一种有效的特征抽取方法[15]。它能够保证投影后的样本在新的空间中有最小的类内距离和最大的类间距离,使样本在新空间中达到最佳的可分离性[16]。

表2 皇冠梨样本验证结果Table 2 The verfication result of Huangguan pear samples

1.3.3 支持向量机算法 支持向量机(Support Vector Machine,SVM)算法的基本原理是在数据平面上寻找并建立一个最优决策超平面,使平面两侧距离平面最近的两类样本之间的距离最大化[17]。对非线性问题,支持向量机引入核函数概念,将低维空间不可分问题转化为高维空间可分问题,主要的核函数有线性核函数、多项式核函数、高斯径向基核函数等[18]。

1.3.4 逻辑回归算法 逻辑回归(Logistic Regression,LR)算法的原理是使用输入变量的系数加权线性组合来分类,能给出相应的类分布估计,并且在模型训练时间上也有很大优势[19]。逻辑回归算法不需事先假设数据分布,避免了假设分布不准确所带来的问题,并且它是对近似概率的预测,对线性问题有很好的效果,但对于一些非线性的分类问题则表现较差[20]。

1.3.5 梯度提升树 梯度提升树(Gradient Boosting Decison Tree,GBDT)是一种以CART为基学习器的Boosting集成算法。其算法在每一轮迭代的目的都是使当前学习器的损失函数最小,使损失函数总是沿着其梯度方向下降,通过不断迭代使最终残差趋近于0,将所有树结果累加起来便可得到最终的预测结果[21]。

1.3.6 XGBoost算法 XGBoost算法是基于GBDT的改进版[22-23],对输入要求不敏感,在工业界应用较为广泛。与一般的GBDT算法相比,XGBoost利用了损失函数关于待求函数的二阶导数,添加了正则项,防止过拟合,构建每棵树时对属性进行采样,有训练速度快,精确度高,拟合效果好等优点。

2 结果与分析

2.1 样品分级结果

采集完毕后使用图像采集系统对梨样本拍照留样记录,梨果专家对每个样本切开后进行人工验证,验证结果如表2所示。

因部分样本不符合专家鉴定的等级要求,该部分样本不参与后续数据分析,在符合要求样本中共取800个样本,每一类各200个。其中640个样本为训练集,每一类各160个;剩余160个为独立验证集不参与模型训练,每一类各40个,图1是四个等级梨的完整图与剖面图。

图1 四个等级梨的完整图与剖面图Fig.1 Complete image and section image of four grades pears

2.2 电子鼻响应信号曲线与雷达图分析

样本数据由电子鼻仪器获得,对已有的电子鼻数据做各传感器的响应曲线,皇冠梨的典型电子鼻响应曲线如图2(a)所示,其中响应值用相对电阻率表示,即样本气体与纯空气电阻率之比(G/G0)。

图2 皇冠梨的电子鼻传感器响应图Fig.2 Electronic nose sensor response diagram of Huangguan pears

从图2(a)中可以观察到电子鼻响应值的变化趋势表现出一定的规律。随着时间的增加,各传感器响应值发生变化,大概在45 s后,各传感器的响应值达到稳态。其中S2、S4、S6、S7、S8、S9、S10七个传感器响应值有较大的提升,而其余的传感器响应值基本没有变化或变化较小。将四类皇冠梨样本45 s后稳态响应值做均值处理,绘制雷达图如图2(b)所示,四类样本的电子鼻响应值呈现相似的轮廓,即10个不同传感器的敏感度表现是相似的。由图2综合可知:对皇冠梨气味响应比较敏感的传感器有S2、S4、S6、S7、S8、S9和S10;而随着腐败等级的增加,S6、S7、S8和S10的信号逐渐增大。该结果表明,皇冠梨腐败程度的增加会产生更多的烷烃类化合物、萜烯或含硫有机化合物和乙醇类化合物等。

通过观察响应曲线和雷达图,可将四类样本进行简单区分。因此,皇冠梨腐败等级可以基于电子鼻设备进行简单识别与分级,但要得到更准确的分析,需要对数据进行更进一步的处理,因此对十个传感器的数据做进一步信号处理和分析工作。提取45 s后的相对稳定的响应值作为后续分析处理的特征数据。

2.3 PCA

使用PCA方法对数据做降维处理。前三个主成分(PC)的累积方差贡献率达到95.19%,充分保留了样本的原始数据信息,PC1、PC2和PC3的贡献率分别占74.30%、18.91%和1.98%。图3为PC1、PC2和PC3绘制的标准分数图。

表3 分层5折交叉验证法对不同模型的测试集准确率(%)Table 3 Stratified 5-fold cross-validation method for accuracy of different models in test set(%)

图3 四个等级梨的PC分数图Fig.3 PC scores for four grades pears

从图3中可以观察到,无黑核梨与黑核梨可以大致区分开,但部分不同等级的黑核梨不能完全区分,其聚合程度也不够紧凑,可能有以下两方面原因:一方面因为样本数据是不同的黑核梨构成,可能因为其腐败程度略有不同而导致某一传感器收集的数据变化差异较大;另一方面PCA在皇冠梨腐败等级分类中表现不佳也可能是因为尺寸减小后的保留气味信息不是非常有效,并且在分析中丢弃了包含有用信息的某些信息分布方向。

2.4 LDA

前三个线性判别函数(LD)的累积贡献率达到99.73%。LD1、LD2和LD3描绘分数图如图4所示,其LD1、LD2和LD3分别为62.12%、34.81%和2.80%。相比较于PCA保留95.19%的数据信息来比,LDA更好地保留了原始信息。从图4可观察到,无黑核梨与不同腐败等级的黑核梨有较大的差异分布,由于差异的高分配率,可以观察到样本具有足够的代表性,也说明该方法对皇冠梨腐败等级分类是有效的,因此,LDA降维方法也是可用于梨样本数据的。

图4 四个等级梨的LD分数图Fig.4 LD scores for four grades pears

2.5 模型训练与验证

选用的降维方法为主成分分析(PCA)和线性判别分析(LDA),选用的分类方法为逻辑回归(LR)、支持向量机(SVM)、梯度提升树(GBDT)、XGBoost方法。在模型评估方面,采用分层5折交叉验证方法,该方法是将训练集640个皇冠梨样本根据4个等级每次分层随机取样,分为互斥的5个子集,将5个子集随机分为两部分,4个子集作为训练集,1个子集作为测试集,训练后对每一次的测试集样本准确率做均值处理。分层5折交叉验证法对不同模型的测试集准确率如下表3所示。

表4 不同模型在验证集准确率Table 4 Accuracy of different models in validation set

表5 其他模型在验证集准确率Table 5 Accuracy of other models in validation set

从上表中可以看出,作为GBDT方法的改进版XGBoost方法与两种降维方法的结合后模型的准确率都要明显高于其他几种方法,分层5折交叉验证法相较于传统的随机划分法其优点是避免了偶然性与单一性,提高了模型可靠性与稳定性。

模型训练好后,另取四个等级梨样本各40个,总共160个梨样本用作模型的验证。验证结果如下表4所示。

其中PCA-LR、PCA-SVM、PCA-GBDT、PCA-XGBoost、LDA-LR、LDA-SVM、LDA-GBDT、LDA-XGBoost的验证集准确率分别达到了75.0%、79.4%、84.4%、91.9%、73.1%、82.5%、87.5%、95.6%。对比测试集结果,LDA-XGBoost方法的在验证集的准确率也是最高的,达到了95.6%。

此外,选取最近两年文献中表现较好的分类算法应用于皇冠梨样本,其中Liu等[24]对葡萄酒产地、年份和种类的分类中,反向传播神经网络(BP)达到了最佳性能;高静等[25]对黄山毛峰与其他绿茶的分类比较中,使用贝叶斯算法(NB),有较好的判别准确率。因此对比以上两种算法与LDA-XGBoost算法在验证集准确率,验证结果如表5所示。

比较两种分类算法针对皇冠梨样本的分类效果,发现经典的贝叶斯算法在验证集的效果并不是很好,大量的1级与2级的样本被错误分类;而反向神经网络的表现不错,准确率达到了91.9%,但低于LDA-XGBoost方法的95.6%。说明针对皇冠梨样本,LDA-XGBoost算法是最合适的,准确率也是最高的。

以上各个实验结果表明皇冠梨数据使用LDA降维方法较为完整地保留了原始数据信息,而XGBoost方法更好地对降维数据进行分类区分,其LDA-XGBoost方法在测试集与验证集上都有较好的表现,模型的准确率分别达到96.6%和95.6%,取得最佳的分类效果。

3 结论

本文提出的基于电子鼻技术的无损检测方法是一种快速、准确、非破坏性的对不同腐败等级皇冠梨分类的实用方法,该方法能在保证样本完整性的情况下克服人工检测的主观性和不准确性。根据结果显示,优质的皇冠梨的气体数据是较为固定的,LDA-XGBoost方法在测试集与验证集上都有比较高的准确率。

本文对不同腐败等级皇冠梨分类问题提出新的检测手段,解决之前因人工检测方法主观性强、准确率低和覆盖率低而导致的经济损失问题,为石家庄皇冠梨品质检测提供新思路新方法。

猜你喜欢
皇冠响应值电子鼻
皇冠陆放
基于电子鼻的肺癌无创检测研究
ICP-MS 法测定高钠盐水或食品中碘含量的结果误差分析
基于荧光光谱技术的不同食用淀粉的快速区分
气相色谱法测定蔬菜中常见有机磷农药响应值变化规律
TOYOTA 丰田皇冠 CROWN
树洞里的皇冠
电子鼻咽喉镜在腔镜甲状腺手术前的应用
提高环境监测数据准确性初探
香辛料识别中电子鼻采集及算法研究