基于多传感器人工嗅觉系统及机器学习模型的苹果种类识别方法

2023-07-12 09:01李书贤周琪樊亚楠叶诗琪赵志彪张思祥
天津农业科学 2023年7期
关键词:气体苹果分类

李书贤 周琪 樊亚楠 叶诗琪 赵志彪 张思祥

摘    要:基于多传感器人工嗅觉系统的苹果种类识别方法是将自行研发的便携式硬件和上位机算法相结合,目的是将市面上常见的外形相似的‘花牛和‘阿克苏苹果进行无损种类识别,降低检测成本。实施方法是根据实际情况选择传感器并设计电路对待测样本气味信息进行响应,下位机将采集到的信号传输至上位機的机器学习算法中进行模型训练。通过线性判别分析算法(Linear Discriminant Analysis,LDA)、逻辑回归算法(Logistic Regression,LR)、邻近算法(K-NearestNeighbor,KNN)、前馈神经网络算法(Back Propagation,BP)分类模型对气味信息数据进行计算并作出分类。最终得到LDA、LR、KNN、BP算法识别的准确率分别为86.83%、85.33%、91.26%、85.00%,通过stacking框架将以上4种算法模型进行融合,融合后算法识别的准确率最高为97.14%。与传统单预测模型相比,基于多模型融合的苹果识别方法精确度更高。研究结果表明,基于多传感器人工嗅觉系统可以直接通过气味对其种类进行识别,为苹果的无损分类做出有效的判断,可为受主观因素影响的的感官评价提供客观的理论依据。

关键词:多传感器;种类识别;机器学习;stacking融合算法

中图分类号:TP391            文献标识码:A             DOI 编码:10.3969/j.issn.1006-6500.2023.07.012

A Multi-sensor Artificial Olfactory System and Machine Learning Model Based on Apple Species Recognition Method

LI Shuxian1,2, ZHOU Qi1,2, FAN Yanan1,2, YE Shiqi1,2, ZHAO Zhibiao1,2, ZHANG Sixiang3

(1. School of Automation and Electrical Engineering, Tianjin University of Technology and Education, Tianjin 300222, China; 2. Tianjin Key Laboratory of Information Sensing and Intelligent Control, Tianjin University of Technology and Education, Tianjin 300222, China; 3. School of Mechanical Engineering, Hebei University of Technology, Tianjin 300401, China)

Abstract:The method of apple variety recognition based on a multi-sensors artificial olfaction system combines a self-developed portable hardware device with a PC-based algorithm. The aim is to achieve non-destructive identification of visually similar apple varieties, such as 'Huaniu' and 'Akane', in the market, thereby reducing detection costs.The implementation method involved selecting sensors based on the actual conditions and designing circuits to respond to the odor information of the tested samples. The lower-level device transmitted the collected signals to the machine learning algorithm implemented on the upper-level PC for model training. The collected odor information data was processed and classified using classification models, including Linear Discriminant Analysis (LDA), Logistic Regression (LR), K-Nearest Neighbor (KNN), and Back Propagation (BP). The classification accuracy of LDA, LR, KNN and BP algorithms was determined to be 86.83%, 85.33%, 91.26% and 85.00%, respectively. The four algorithm models were then fused using the stacking framework, resulting in the highest accuracy of 97.14%. Compared to traditional single prediction models, the apple recognition method based on multi-model fusion achieved higher accuracy. The research results indicated that the multi-sensors artificial olfaction system can directly identify the variety of apples based on their odor, providing an effective means for non-destructive classification. This method could offer objective criteria for sensory evaluation that may be influenced by subjective factors.

Key words: multi-sensors; variety recognition; machine learning; stacking fusion algorithm

苹果散发的气味是苹果种类的一个重要标识[1],不同种类的苹果散发的气味也有差异[2]。传统苹果种类识别主要靠化学检测,过程复杂,对被测样本伤害高,无法实现无损检测[3~4]。

为解决传统水果检测过程复杂的问题,乜兰春等[5]通过对‘红富士‘新红星和‘乔纳金等多个品种的苹果的挥发性气体进行研究,结果发现,红富士苹果未成熟时含量最高的挥发性气体是乙醛,占总挥发性气体含量的18.73%,成熟时含量最高的挥发性气体为丁酸乙酯,占总挥发性气体含量的19.51%;‘新红星苹果成熟时含量最高的挥发性气体为乙醛和2-甲基环戊醇,占总挥发性气体的20%以上;‘乔纳金苹果成熟时含量最高的挥发性气体是1-丙醇,占总挥发性气体的9.30%;乜春兰[5]研究表明,不同品种的苹果挥发性气体差异较大。杨艳菊等[6]将传感器阵列和人工神经网络模式识别算法结合起来建立电子鼻系统,对水果的变化过程进行监控,尝试对3种状态(好、碰伤、坏)的苹果气体进行定性识别,其中对‘红富士苹果进行识别时的准确率达到83.33%以上。郭清乾等[7]研究发现,苹果的成熟度与其产生的乙烯含量密切相关,乙烯含量小于1 mg·L-1时,苹果处于未成熟的状态;乙烯含量在1~6 mg·L-1时,苹果处于成熟的状态;乙烯含量高于6 mg·L-1时,苹果过成熟,处于次新鲜的状态。通过试验证明,不同新鲜度的苹果散发的乙烯浓度具有鲜明的区分性,乙烯含量可以作为苹果鲜度检测的一个重要指标。张艳丽等[8]采用气相色谱检测技术,对4种‘红富士苹果的香气物质成分和含量进行分析,检测到36种香气物质,其主要成分為脂类,其次为醇类。含有2-甲基丁酸己脂和己醛等特有香气物质的果实风味较好。Baietto等[9]探讨了目前电子鼻的使用情况,指出其在辨别复杂的水果混合挥发物方面非常有效,可以作为新的高效工具对水果的香气进行分析,以取代传统的昂贵的水果香气评估方法。研究提供了气体传感器阵列在水果识别、栽培品种鉴别、成熟度评估和水果分级等方面的有效数据。Valente等[10]通过将传感器阵列与无人机技术相结合,根据果园中乙烯浓度判断苹果是否成熟,实现对苹果林中的苹果成熟度进行监测。

以上研究表明,苹果的新鲜度、风味、成熟度与其散发的气味之间存在联系,但目前尚未见报道将苹果散发的气味与苹果种类进行关联研究。本文利用金属氧化物半导体(MOS)传感器阵列采集被测样本散发的气体,并将拟合结果通过识别算法与苹果种类进行关联研究,为苹果的准确分类提供判别的依据。

1 材料与方法

1.1 苹果种类识别系统硬件开发

由传感器阵列和上位机组成的人工嗅觉系统与人体嗅觉系统类似,如图1所示。MOS传感器阵列通过模仿生物嗅觉神经元,在检测气体的同时检测编码的尖峰信号[11],在传感器内部实现模拟人类神经形态的功能,上位机中的机器学习算法模拟人类大脑对被测样本进行识别。硬件系统搭建如图2所示,电路系统为:直流稳压电压源给传感器阵列提供5 V的工作电压,单片机信号采集模块由上位机PC端供电以方便采集信号的传输。传感器阵列进行集体响应,优点是简化了传感器阵列的气路设计,降低了信号采集的难度,简化气路的同时缩短了气体与传感器中氧化物反应的时间,提高了系统的效率[12]。

为避免传感器的交叉敏感性给系统带来的误差,选择8个不同型号的TGS金属氧化物半导体气体传感器组成传感器阵列[13],如图3所示。本系统采用日本TGS系列传感器,其电阻RS与待测样本之间的浓度关系如公式1所示。

式中,A和α是只与目标气体相关的常数,通常用于描述被测气体浓度C发生变化时,MOS传感器对浓度变化的分辨程度,通常由费加罗的传感器手册给出,与传感器的特性有关,且α≤0.6。

选择传感器浓度响应区间与苹果散发的香气浓度相对应的传感器以保证被测气体浓度数据能够被正常采集[14]。反复测试后,选择的传感器型号及其性能指标如表1所示。其中S3、S7、S8传感器对氨气、乙醇和硫化氢有良好的响应特性,适用于水果的特征气体检测。由于TGS系列传感器的广谱性,选择S1、S2、S4、S5、S6对苹果中的其他气体进行响应,减小传感器的交叉敏感性。测量范围的单位PPM全称parts per million,即一百万体积的空气中所含污染物的体积数。

1.2 试验过程

本试验用到的苹果样品为2类:分别是产自甘肃天水市的‘花牛与新疆维吾尔族自治区的‘阿克苏。每种苹果样本为20个,每个样本取4个不同时期分别进行试验测量,共进行160次数据测量。选取大小一致外表完好的苹果进行编号,将编好号的苹果放入750 mL的密闭容器内,常温平衡20 min,传感器阵列预热15 min,气泵流量进气和出气均设置为100 mL·min-1,样本测定时间为180 s。随着样本苹果散发的各种气体浓度的变化,得到不同种类散发气体原始浓度数据,如图4所示。

图4-A、图4-B为部分‘花牛的气体浓度响应曲线,图4-C、图4-D为部分‘阿克苏的响应曲线,由于TGS2602的灵敏度最大,故2种被测样品的最大响应曲线均来自硫化氢传感器。由图4可知,被测气体稳定时,‘花牛样品中的烷类气体与乙醇气体的差别较大,氢气含量转化为电压值高于2 V;‘阿克苏样品中烷类气体与乙醇气体相差则较小,氢气含量转化为电压值低于2 V。

1.3 单一模式识别算法模型研究

本文采用线性判别分析(Linear Discriminant Analysis,LDA)、逻辑回归(Logistic Regression,LR)、邻近算法(K-NearestNeighbor,KNN)、前馈神经网络(Back Propagation,BP)4种单一算法对测得的样本数据进行训练和测试。

LDA是一种有监督的学习算法[15]。LDA的思路为:找到一个最优的向量,将高维空间中的样本点(特征向量)都投影到这个最优向量的方向上,投影结果即为判断类别的依据。为了寻找一组数据集的最优投影方向,首先要考虑种类内的紧凑性和不同类别间的分离性,即‘花牛与‘阿克苏样本类内距离和类间距离,如图5所示。

类内距离和类间距离的计算公式分别为:

式中,a1和a2分别表示‘花牛和‘阿克苏响应数据特征向量集合;m1和m2表示2个类别的样本均值向量。

LDA求解的目标是最小化同类样本类内距离,最大化不同类样本类间距离。将高维特征记作x,投影后向量记作ω,2个类别的样本高维度特征均值向量分别记作μ1和μ2,投影后的两均值点则分别为ωTμ1和ωTμ2,投影后的一维特征为ωTx,将投影后的一维特征点带入上述由类内距离和类间距离组成的目标函数得到公式4,最大化类间距离从而对不同种类苹果的数据进行分类。

LR[16]是在线性回归的计算结果上加上一个Sigmoid函数,将线性回归的数值结果转化为0到1之间的概率。对2种苹果进行分类,建立如下线性方程:

式中,w为自变量系数矩阵;x为特征值,w0为偏置项。

将线性方程与Sigmoid函数相结合得出用于概率计算的归一化指数函数。

式中,ezk为类别K的得分经过指数函数转化后的值;∑l k =1 ezl表示所有类别得分经过指数函数转化后的值的总和。

每个类别的得分通过指数函数转化为正数,并对2个类别得分进行求和,类别K的得分除以总和获得类别K的归一化概率值。这样可以将‘花牛和‘阿克苏的分类问题转化为概率计算问题,方便进行概率预测和决策。

KNN算法是一个简单而经典的机器学习分类方法[17]。通过度量待分类样本和已知类别样本之间的距离(通常使用欧氏距离)或相似度,对样本进行分类。因为K最近邻算法在分类时只根据周围最近邻的一个或几个样本来对待测样本进行分类,根据计算出来的欧氏距离大小对样本进行递增排序,距离越小相似度越高。统计K个最近的邻居样本点分别属于每个类别的个数,采用投票法和少数服从多数的原则,将K个邻居样本点里出现频率最高的类别,作为该样本点的预测类别。适合苹果二分类中类域交叉重叠较多的样本。

BP神经网络是一种按照误差逆传播算法训练的多层前馈网络[18],能学习和存贮大量的输入—输出模式映射关系,其核心是使用梯度下降法,通过反向传播不断调整神经网络的权值和阈值,从而最小化网络的误差平方和。BP神经网络由输入层、隐藏层和输出层构成,在此结构中信号向前传播,误差向后传播。利用BP神经网络进行训练时,样本数据分为训练集和测试集,训练集用于发现和预测样本数据和分类之间的关系,测试集用于評估关系强度。图6是1层隐藏层的神经网络结构。数学表达式为:

式中,f为非线性单元,即模型中的sgn(·)函数;(ω11,b11)和(ω12,b12)分别为输入层连接到2个隐藏层节点的权重参数向量;(ω1,b2)为隐藏层到输出层的参数;h=(h1,h2)为隐藏层输出。

1.4 基于Stacking的融合算法模型研究

集成学习是建立在统计学习理论基础上的多算法融合的机器学习方法[19],可以克服单一模型识别准确率呈边际效用递减趋势的缺点。多模型融合时既要考虑每个基学习器的识别能力,也要考虑各学习器组合的效果。算法模型差异度较大时能够最大程度体现不同算法的优势。本文采用Person相关系数对各个模型的误差差异度进行计算[20],以此分析不同的基学习器之间的关联程度,二维向量的Person相关系数计算方法如下:

基于此研究,本文在对样本二分类的基础上提出了一种基于Stacking框架的算法融合方法,研究单一机器学习和集成学习在苹果气味样本二分类上的适用性。原理如图7所示。

基于Stacking框架的苹果二分类方法流程如图8所示。按照5折交叉验证思想将初始训练集分成5个训练子集记作S1、S2...S5,其中S1、S2、S3、S4用来训练第1层分类模型,S5用来测试第1层分类模型;每个训练子集均做1次测试集;初始化1个测试集预测结果矩阵,将第1层预测的结果放在该矩阵中作为第2层模型的输入,最后输出结果矩阵,即测试集上的分类结果。

2 结果与分析

2.1 单一分类算法的超参选择与关联度分析

为优化算法模型,首先对各个基学习器冗余信息进行筛选[21]。本文的特征信息为传感器采集的电压峰值数据,对于不同的算法传感器阵列输入的特征贡献度也不同。各个基学习器的特征贡献度如图9所示。系数既可以为正,也可以为负。正数表示预测类别1的特征,负数表示预测类别0的特征。由图9可知,传感器0、5和7对LDA算法的贡献度较大,在训练模型时5号传感器TGS2602应占比最重,0号TGS2603和7号TGS2602次之。LR、BP神经网络和KNN算法的贡献度同理。

LDA算法通过拉格朗日乘子法对输入的数据集进行特征值提取,使用hθ(x)=θ0+θ1 x1+θ2 x2+…+θ8 x8的8输入模型对其进行θ值计算。多次训练后得到θ1~θ8的值分别为2.076 949 46e-03、2.125 127 04e-04、-9.578 842 53e-05、-6.149 024 72e-04、-2.866 366 30e-04、-3.594 670 69e-03、-2.464 231 56e-04、2.270 187 30e-03,截距θ0的值约为-2.71。‘花牛和‘阿克苏的气味与传感器电压值的3D关系如图10所示,蓝色o代表‘花牛,红色x代表‘阿克苏。

LR模型采用准确率(Accuracy),召回率(Recall)和精确率(Precision)3项指标来评价分类结果。本次分类用到的数据共171组,从中随机选择120组作训练集,51组数据作测试集。其中正确率、召回率和准确率的值见表2。

K-近邻算法中的K值表示选择K个最近的邻居进行参考。K值较小时间模型的复杂度高,包容度也高,模型训练误差小,泛化能力弱;K值较大时模型复杂程度低,模型训练误差大,泛化能力强。本文中K值和模型精确度如图11所示。由图11可以看出,K值取1时,模型的精确度最高。本文仅对2种苹果进行分类,故K值取1时,模型拟合能力较强,此时决策只根据最近邻的训练样本给出结果,当训练种类过多,训练中包含噪声样本时,K值取3会获得更佳的拟合效果。

BP神经网络采用正确率、召回率和F1共3项指标来评价分类结果的好坏,其中F1=2×正确率×召回率/确率+召回率 用于综合反映整体的指标。对试验数据进行处理,第1列为标签列,将‘花牛种类标记为“0”,‘阿克苏种类标记为“1”,训练集和测试集的比例为7∶3,迭代次数设置为2 000次,训练后的结果如表3所示。

使用5折交叉验证的网格搜索法观测不同超参数在各模型上的预测效果,从而确定各模型的最优超参数组合。各单算法模型的超参数及模型准确率如表4所示,单个模型算法结果如图12所示。

2.2 基于Stacking框架的融合算法分析

Stacking多模型融合算法[24]需要在不同的数据空间角度和数据结构角度来观测数据,故第1层模型要选择差异度较大的模型作为基学习器。为选取最佳的基模型组合,首先对各个基学习器进行单独预测,综合比较单模型误差,采用二维向量的Person系数计算相关性指标,各单模型算法的误差相关性如图13所示,颜色越深表示相关度越高。

由图13可知,由于各算法学习能力较强,各个模型之间的误差相关性普遍较高,可以选择以上4种模型进行融合集成学习。为避免过拟合的情况,第2层选择结构简单且泛化能力强的LR模型作为元学习器。最终得到结果矩阵和测试集之间分类的准确率为97.14%。为进一步验证Stacking集成模型中基学习器对识别能力的影响,表5总结了不同基学习器组合的识别结果。结果表明,使用不同的基学习器对识别结果影响较大,使用相关性小的基学习器会使Stacking模型识别能力更加优异。

3 讨论与结论

以上研究表明,苹果种类与气味可以通过人工嗅觉系统建立联系。基于LDA、LR、KNN和BP神经网络4种单一分类算法对‘花牛和‘阿克苏进行分类其准确率分别为86.83%、85.33%、91.26%、85.00%;基于Stacking框架的二分类融合算法考虑到各基学习器之间的关联度,不同的基学习器融合后的效果各不相同,当基学习器为LDA、LR、KNN、BP,第2层模型为LR时融合模型的准确率最高,此时基于Stacking框架的融合模型的分类准确率为97.14%。其他3个单一模型融合后的分类效果则不如KNN单一模型,故在算法融合时需要考虑各个模型之间的协同作用,才能有效地解决单一模型泛化能力弱的问题。以上研究表明,基于多传感器人工嗅觉系统及机器学习模型的苹果种类识别系统可对苹果分类作出有效判断,可为受主观因素影响的感官评价提供客观参考,提高苹果种类判断的准确性。本研究提出的人工嗅觉系统有效地避免了检测过程中对水果样本的破坏,大幅度降低了检测成本和品种识别的难度。虽然本研究目前局限于二分类的判别,但当需要分类的苹果种类增加时,依然可以选择多传感器和机器学习组合的模式进行分类。

参考文献:

[1] MOSTAFA S, WANG Y, ZENG W, et al. Floral scents and fruit aromas: functions, compositions, biosynthesis, and regulation[J]. Frontiers in Plant Science, 2022, 13: 860157.

[2] 鲜义坤, 杨楠, 孔凌, 等. 圈养大熊猫所食苹果和胡萝卜的气味特点与香气成分研究[J]. 饲料博览, 2020(6): 1-9, 19.

[3] 何馥娴, 蒙庆华, 唐柳, 等. 高光谱成像技术在水果品质检测中的研究进展[J]. 果树学报, 2021, 38(9): 1590-1599.

[4] 凡建. 基于近红外光谱传感器的便携式食品检测器的设计与实现[D]. 南京: 南京邮电大学, 2019.

[5] 乜兰春, 孙建设, 陈华君, 等. 苹果不同品种果实香气物质研究[J]. 中國农业科学, 2006, 39(3): 641-646.

[6] 杨艳菊, 黄成钧. 人工神经网络的苹果气体识别算法研究[J]. 铜陵学院学报, 2010, 9(2): 76-78.

[7] 郭清乾, 马刘正, 孙海峰, 等. 电化学传感器水果成熟度检测技术的研究[J]. 河南农业大学学报, 2017, 51(6): 839-844.

[8] 张艳丽. 静宁县4种红富士苹果香气物质成分及含量检测与分析[J]. 安徽农业科学, 2019, 47(12): 207-209, 214.

[9] BAIETTO M, WILSON A D. Electronic-nose applications for fruit identification, ripeness and quality grading[J]. Sensors, 2015, 15(1): 899-931.

[10] VALENTE J, ALMEIDA R, KOOISTRA L. A compre-hensive study of the potential application of flying ethylene-sensitive sensors for ripeness detection in apple orchards[J]. Sensors, 2019, 19(2): 372.

[11] HAN J K, KANG M G, JEONG J, et al. Artificial olfactory neuron for an in-sensor neuromorphic nose[J]. Advanced Science, 2022, 9(18): e2106017.

[12] 王辰, 粟勇, 吴涛, 等. 一种传感器阵列的封闭气路设计方法及封闭气路: CN202111579090.0[P]. 2022-04-01.

[13] 宋婷婷. 基于MOS气体传感器阵列的混合气体检测方法研究[D]. 哈尔滨: 哈尔滨理工大学, 2022.

[14] 谢晓铮, 夏炎. 电子鼻的核心——气体传感器的研究与应用[J]. 大学化学, 2021, 36(9): 2012045.

[15] 付荣荣, 李朋, 刘冲, 等. 基于线性判别分析的决策融合脑电意识动态分类[J]. 计量学报, 2022, 43(5): 688-695.

[16] 王正存, 肖中俊, 严志国. 逻辑回归分类识别优化研究[J]. 齐鲁工业大学学报, 2019, 33(5): 47-51.

[17] XING W C, BEI Y L. Medical health big data classification based on KNN classification algorithm[J]. IEEE Access, 2020, 8: 28808-28819.

[18] 吴贵军, 范鹏生, 陈浩辰, 等. 基于深度学习的数据分类预测及应用[J]. 无线互联科技, 2022, 19(8): 126-127.

[19] 史佳琪, 張建华. 基于多模型融合Stacking集成学习方式的负荷预测方法[J]. 中国电机工程学报, 2019, 39(14): 4032-4041.

[20] 张露康, 王海蓉, 古可言, 等. 基于Pearson相关性分析的交通枢纽站客运量预测模型分析研究[J]. 黑龙江交通科技, 2023, 46(3): 137-139.

[21] 刘培江. 基于Relief-F学习算法的烟叶近红外光谱特征贡献度分析[J]. 科学技术创新, 2022(25): 49-53.

猜你喜欢
气体苹果分类
二维定常Chaplygin气体绕直楔流动
分类算一算
非等熵Chaplygin气体测度值解存在性
分类讨论求坐标
吃气体,长大个
数据分析中的分类讨论
拿苹果
会说话的苹果
铝合金三元气体保护焊焊接接头金相