基于电子鼻的深度卷积神经网络茯苓产地分类方法*

2023-12-13 12:12章检明王中鹏张丽娟
传感器与微系统 2023年12期
关键词:电子鼻茯苓准确率

徐 昊,章检明,王中鹏,张丽娟,迟 梁,何 成

(1.浙江科技学院信息与电子工程学院,浙江 杭州 310000;2.浙江省农业科学院食品科学研究所,浙江 杭州 310000)

0 引 言

市场上销售的茯苓初加工产品多为白色粉状或块状,并且气味相似,仅从外表难以区分。电子鼻(electronic nose,E-nose)作为一种模拟人类嗅觉系统的检测仪器,因其快速、无损、低成本的特点,目前在果蔬、肉类等各领域中已经有广泛的应用。

电子鼻的工作原理是通过气体传感器阵列来检测气体,再通过模式识别算法进行分类[1,2]。机器学习算法在电子鼻数据中也有广泛的应用,如支持向量机(support vector machine,SVM)、随机森林(random forest,RF)法[3~5]等。近几年,基于深度学习的算法开始应用于电子鼻数据中[6~8]。目前,卷积神经网络(convolutional neural network,CNN)可以从输入图像中提取更有效的隐含特征,并且减少参数的数量,但CNN是为高维图像数据设计,电子鼻数据通常为小规模的低维数据,不适合直接用于电子鼻数据。针对电子鼻数据来调整深度学习模型结构和参数是关键问题。最近,有学者将改进的CNN 用于电子鼻数据[9,10],Xiong Y W等人[11]将电子鼻采集的时间序列数据转化为图像输入到CNN 中;陈远涛等人[12]用CNN 模型提取特征,对样本鲜、水果腐败、蔬菜腐败、肉类腐败进行分类识别;Wang Y 等人[13]通过改进后的深度CNN(deep CNN,DCNN)对10个产地的石斛样本进行分类。长短期记忆(long short-term memory,LSTM)网络是一种基于时间递归的网络,多用于处理长时间序列的数据,能够自动学习并且获取数据中的时序相关特征[14,15],适合对电子鼻采集的时间序列数据进行处理。本文采用自研的电子鼻系统测定不同产地茯苓的气味信息,将电子鼻技术和深度学习模式识别相结合,提出了一种适用于茯苓样本分类的优化的DCNN-LSTM 模型,能够更快速、准确地对6个不同产地的茯苓进行分类。

1 材料与方法

1.1 实验材料和实验仪器

实验材料:实验所用的茯苓块由浙江省农科院食品科学研究所提供,品种为白茯苓,对每个产地样本茯苓块采集60个样本。茯苓样本信息如表1所示。

1.2 电子鼻检测系统

如图1所示,本文所设计的传感器阵列包含16 个金属氧化物半导体(metal oxide semiconductor,MOS)传感器。放置于密闭气室中,以排除外界气体干扰。表2 为选用的传感器阵列型号和敏感气体,其中,TGS813、TGS822、TGS2610和TGS2611分别选用2个有无滤罩的型号,滤罩用于去除酒精等干扰气体的影响。微型真空泵流速为1.5 L/min,通入纯净氮气(N2)清洗气室时打开2 个微型真空泵;通入茯苓气体前关闭2个微型真空泵,同时切换三通阀阀门。采集的原始实验数据如图2 所示,基线时间、响应时间、恢复时间均为600 s,共1 800 s,得到18 000个采样点。

图1 电子鼻系统框图

图2 电子鼻采集茯苓数据曲线

表2 传感器型号与响应气体

1.3 数据预处理

首先,对电子鼻数据进行小波变换降噪,减少了受传感器漂移和外界的影响,采集的每个数据样本大小为16 ×18 000,共360个样本。再进行数据标准化,具体方法为:将各传感器电压响应值减去基线值,能够减小传感器基线漂移和曲线波动对结果的影响;再将数据进行裁切,取传感器响应时间的6000个点作为数据;最后,将数据进行下采样,在时间维度上进行压缩,每隔60 个采样点取1 个点,最后每个样本数据大小为16 ×100,6 个茯苓产地共360 个样本。

1.4 深度学习模型搭建

1.4.1 CNN-LSTM模型搭建

本文建立的CNN-LSTM 混合模型网络结构如图3所示。

图3 CNN-LSTM模型网络结构

本文建立的CNN模型由3层卷积组成,第1 层卷积层由64个大小为2 ×2、步幅为2 ×2的卷积核组成,最大池化层大小为2 ×2、步幅为1 ×1,第2、3 层卷积层和第1 层相同,核数改为32,激活函数为ReLU,卷积公式如下

式中为第l-1 层的第i个输出,为第i个卷积核的第j个权值,为第l层的第j个偏置,⊗为卷积运算,为第l层第j个经过激活函数后的输出。

最大池化层公式如下

式中pl为经过最大池化层后的输出,Maxpool为最大池化规则,yl为池化层的输入。

LSTM由输入层、隐含层、输出层构成。通过在隐含层中引入输入门、遗忘门、输出门3 个门控开关,有选择地保留、丢弃和传递时间序列中的信息。输入门it给当前细胞状态Ct更新信息,将当前输入产生的新信息添加到单元状态

遗忘门ft选择记忆中的部分信息被丢弃

输出门ot决定要输出的信息,ht作为下一个循环的输入

W,b为各门的权重矩阵和偏置项;σ 为门提供非线性的Sigmoid 激活函数;tanh为激活函数。本文建立的LSTM模型有2层LSTM网络,隐含层神经元数分别为128 和64,Dropout比例为0.15。

1.4.2 CNN-LSTM模型优化

优化后的DCNN-LSTM 模型通过一维卷积提取特征,电子鼻数据预处理后,以二维时间序列输入,包含时间维度和传感器维度,各只传感器之间不相关,仅在时间维度相关,因此使用一维卷积核能够更有效提取时间维度的特征且保持各只传感器的独立性。

优化前后的CNN-LSTM网络结构对比如图4所示。

图4 优化前后CNN-LSTM网络结构对比

图4中,CNN第一层卷积层由64个大小为2 ×1、步幅为1 ×1的卷积核组成,激活函数为ReLU,提取输入的不同特征并增强特征映射的非线性,然后用大小为2 ×1、步幅2 ×1的最大池化层压缩时间维度数据,减少特征维数,保留主要的特征信息,第2、3层卷积层和第1层相同,仅核数改为32。通过卷积提取空间特征后,再输入到LSTM 网络,LSTM 部分采用双层结构,其中隐含层神经元数经过参数选择后分别为128 和64,LSTM 能够学习时序信息的时间特征。Dropout 比例为0.15,激活函数使用SoftMax 函数。使用交叉熵作为损失函数,网络参数优化使用Adam算法,根据损失函数梯度的一阶矩和二阶矩估算,初始学习率设置为0.000 5。

1.4.3 交叉验证

由于电子鼻的数据标量较小,本文将所有样本进行5倍交叉验证,将360 个数据随机分为5 组,在每次迭代中,其中4组用于训练模型,剩下1 组用于测试模型,确保整个数据集均参与到训练和验证中。在进行5 次迭代后,将得到模型的平均准确率作为评价指标。

2 结果与分析

2.1 多种算法模型总体性能比较

本文将建立的优化前后的CNN-LSTM 混合模型和CNN、LSTM单一模型以及SVM模型进行对比验证,结果如图5和表3所示。

图5 5 种模型训练集和测试集分类结果

表3 5 种模型分类结果%

与SVM模型相比,另外4种模型可以更加准确地提取特征,能够略微提高准确率,但没有考虑到电子鼻数据的特征,相较之下优化后的CNN-LSTM 算法针对电子鼻数据的时间序列进行特征提取,更适用于时间序列分类,对于电子鼻数据特征提取效果更好,准确率也更高。

表4为模型训练完成后的评价指标,由表可见,优化的CNN-LSTM分类模型的精确度和召回率均比较接近,F1 分数高,模型具有较好的泛化能力和鲁棒性。

表4 模型评价指标

2.2 优化前后CNN-LSTM模型比较

优化前后CNN-LSTM损失函数和准确率曲线如图6所示。从曲线中可以看出,在前200 个epoch之前,由于数据量较少,损失和准确率变化迅速,2 个模型区别不大;在后800个epoch中,显然优化后CNN-LSTM可以实现更低的损失和更高的准确率,损失值几乎为0,最终趋于稳定,未出现过拟合现象。

图6 优化前后CNN-LSTM损失函数和准确率曲线对比

由图7可见,5个产地的分类准确率中,除云南产地的准确率维持不变,优化后CNN-LSTM 均有不同程度的提升。

图7 优化前后CNN-LSTM对每个产地茯苓的分类准确率

3 结 论

本文将电子鼻技术和深度学习模式识别算法相结合,通过自研的16通道电子鼻系统检测6 个不同产地的茯苓气味信息,提出了一种根据电子鼻数据特点,对卷积核、池化层大小和步长进行优化的DCNN-LSTM 混合模型,实现了对茯苓样本产地的分类。并对5 种算法模型进行对比,结果显示优化后的DCNN-LSTM 模型的分类准确率最高,达到88.9%,表明本文所提出优化的DCNN-LSTM 模型能够更好、更快地处理小规模的电子鼻数据。

猜你喜欢
电子鼻茯苓准确率
Antihepatofibrotic effect of Guizhifuling pill (桂枝茯苓丸) on carbon tetrachloride-induced liver fibrosis in mice
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
健脾安神话茯苓
电子鼻咽喉镜在腔镜甲状腺手术前的应用
茯苓健脾 孩子健康
高速公路车牌识别标识站准确率验证法
桂枝茯苓透皮贴剂的制备
飞到火星去“闻味儿”——神奇的电子鼻