潘铭津,何家峰,骆德汉
(广东工业大学 信息工程学院,广东 广州 510000)
在现代社会中,室内的装修材料大多采用有机合成材料,这些材料所散发出来的甲醛、氨气等室内有害气体,造成室内环境污染,对居民的身体健康产生较大的恶性影响。研究[1]表明在中国家庭中,室内气体环境污染是“病态建筑综合征”的一个危险因素。在室内空气环境监测中,对有害气体定量分析有多种不同的方法,包括非分散红外法、气相色谱法、纳氏试剂比色法以及离子选择电极法。以上提到的方法所采用的仪器操作比较复杂且不能实时实地地进行空气质量检测。随着信息科学和传感器等技术的快速发展,仿生嗅觉系统凭借其快捷、简便和经济等优点,在医疗、食品加工、环境检测等领域已经得到了诸多应用。
仿生嗅觉系统中的传感器阵列是由多个金属氧化物半导体(Metal-Oxide Semiconductor,MOS)传感器组成,以此实现对不同目标气体信息的采集。同时因为MOS气体传感器中的气敏材料存在交叉敏感特性,因此对单一目标气体敏感的MOS传感器暂时不存在。因此,仿生嗅觉系统需要结合合适的模式识别方法对混合气体中的各种气体成分信息进行识别,为各类别的气体浓度提供信息。
本文将结合基于仿生嗅觉和卷积神经网络(Convolution Neural Network,CNN)[2]的方法对多元室内有害气体中的每种气体进行定量识别,从而降低因仿生嗅觉系统中MOS气敏传感器存在交叉敏感特性的影响,提高对目标气体识别的准确率。
仿生嗅觉系统是一个识别单种或多种气体的检测系统,通过利用一组气体传感器阵列的响应信号来识别气体的电子系统,其检测结果得到的是一种图谱,这种图谱又被称为气味指纹图谱,该图谱能描述该气体物质的唯一特征,类似于人类指纹的唯一性。仿生嗅觉系统一般由气体传感器阵列、信号处理和模式识别方法组成,它可以在几小时、几天甚至数月的时间内连续地、实时地监测特定位置的气体信息。仿生嗅觉系统与普通的化学仪器不同,如色谱仪、光谱仪等,不能直接得到被测样品各种成分的定性和定量结果,而是需要模式识别方法中不同的识别算法才能得到被测样本中的不同信息。仿生嗅流工作原理图如图1所示。
图1 仿生嗅觉工作原理图
在仿生嗅觉系统中的模式识别方法主要由对气体信息的特征提取和气体成分识别两个步骤组成。当今,被常用于仿生嗅觉系统的特征提取算法主要有基于线性的方法,例如主成分分析法(Principal Component Analysis,PCA)[3]和线性判别分析法(Latent Dirichlet Allocation,LDA)[4]。这两种算法在对单一气体的分类识别中效果较好,但是由于室内气体环境中存在多种气体,而MOS气体传感器阵列对混合气体的响应信号是非线性的,因此在一定程度上,难以通过基于PCA算法和LDA算法[5]的线性特征提取方法来提取混合气体信号中的非线性特征,从而导致气体识别准确率较低。在气体识别的过程中,一般是采用传统的BP神经网络、支持向量机(Support Vector Machine,SVM)等机器学习方法进行气味识别。但是由于传统的BP神经网络(Back Propagation Neural Network,BPNN)在处理气体数据时需要建立较多的权值,导致计算量太大和需要大量样本进行训练。虽然SVM能够处理小样本问题,但核函数的选取和参数的设置都直接关系到气体识别的结果。因此,在仿生嗅觉系统中模式识别方法的选择对系统的性能有着非常重要的影响。
因此,本文提出一种基于仿生嗅觉和卷积神经网络的算法用以识别室内空气中的有害气体成分。该方法利用卷积神经网络对MOS传感器阵列的多维响应信号进行特征提取以进行室内有害气体成分的识别,实现对室内空气中有害气体组成成分的高准确度识别。
卷积神经网络是由多层感知机(Multi-Layer Perception,MLP)演化而来的,由于CNN具有局部连接、权值共享、降采样的结构特点,使得卷积神经网络在图像处理领域取得了巨大的成功。CNN相对于传统的BP神经网络的主要区别在于权值共享和局部连结两个方面。权值共享使得卷积神经网络的结构更加贴合生物神经网络的结构。卷积神经网络的局部连接不像传统神经网络,等n-1层的每一神经元都与第n层的所有神经元连接,而是第n-1层的神经元与第n层的神经元部分连接。这两个特点的作用使得网络模型比传统的BP神经网络具有更低的模型复杂度,更少的权值数量。
1989年,LECUN Y[6]首次将方向传播算法与权值共享的卷积神经层结合起来发明了卷积神经网络,并将其用于美国邮局的手写数字识别系统中,取得了巨大的成功。CNN的基本结构由输入层、卷积层、池化层、全连接层以及输出层构成。卷积层用于提取数据的特征;池化层[7]用于对特征的抽样,可以在使用较少的参数同时还能减轻网络模型的过拟合程度;全连接层用于把提取的特征图连接起来,最后通过分类器获得最终的分类结果。
卷积层通过多卷积核对输入的数据进行卷积处理并提取出卷积后的特征,即特征图。即通过一个卷积核提取出对应的一类特征。因为在同一卷积核的操作中具有局部连接、参数共享和多卷积核特性,所以相比较于全连接层,卷积层在提取数据的特征时,能在参数较少的情况下提取出更加丰富的特征。由于卷积结构不受输入维度的影响且训练深度结构简单,因此能有效地对复杂的高纬度的输入进行特征提取。卷积层卷积公式为:
(1)
式中:i为第i个卷积核,g(i)为第i个卷积核提取得到的特征图,a为输入数据,β为卷积核的偏置,x、y、z为数据的维度,在处理一维时域信号时,对其中两个维度进行简化即可。
在完成对数据的卷积后需要对数据使用非线性激活函数进行非线性转换,CNN中常用的激活函数一般为ReLU,其公式为:
y(i)=f(g(i))=max{0,g(i)},i=1,2,…,q
(2)
池化层通过池化核对输入特征向量进行降采样(down sampling)处理,在对数据进行降维的同时更加突出提取的特征。
pl(i,j)=max(j-1)w (3) pl(i,j)=avg(j-1)w (4) 式中:al(i,t)为第l层中第i个特征图的第t个神经元,w为卷积核的宽度,j为第j个池化核。 本文基于一维卷积神经网络时序信号识别模型1D-CNN[8],针对仿生嗅觉PEN3电子鼻[9]的采集数据特性,提出室内有害气体成分识别算法。本算法模型框图如图2所示。模型框架包含两个一维卷积层、一个池化层、一个全局最大池化层[10]和一个输出层。该模型与传统的CNN模型相比,是通过加入全局最大池化层以代替传统的CNN模型中作为输出的全连接层。由于全局最大池化层参数较少,因此用以解决全连接层参数过多所导致计算量过大和过拟合的问题。同时较少的参数也可以降低模型的复杂度和模型对训练样本数据量的要求,适用于现阶段仿生嗅觉数据量较少的情况。 图2 本文所提出方法的算法结构图 室内有害气体一般包括甲醛、氨气、甲苯和甲醇。因此,本文分别使用三种浓度分别为0.02 mg/m3、0.08 mg/m3、0.16 mg/m3的甲醛气体,三种浓度分别为0.05 mg/m3、0.15 mg/m3、0.25 mg/m3的氨气气体,三种浓度分别为0.05 mg/m3、0.09 mg/m3、0.18 mg/m3的甲苯气体以及三种浓度为0.05 mg/m3、0.10 mg/m3、0.15 mg/m3的甲醇气体构成81个气体样本组,然后使用PEN3电子鼻分别对81个样本组进行混合气体数据的采集。对每个样本组采集10个数据样本,最后得到810个数据样本。 为了说明提出的基于一维卷积神经网络时序信号识别模型1D-CNN的室内有害气体成分识别算法的有效性,本文将4.1小节中通过PEN3电子鼻采集的数据样本集,分别利用PCA+ LDA算法、BP神经网络以及本文提出的CNN算法进行气体成分识别实验,实验结果如表1~表4所示。 表1 不同算法对混合气体中甲醛浓度识别率的比较 (%) 算法混合气体中甲醛浓度/(mg/m3)0.020.080.16PCA+LDA65.2362.5563.44BPNN85.1286.3188.52本文算法90.1293.3492.81 表2 不同算法对混合气体中氨气浓度识别率的比较 (%) 算法混合气体中氨气浓度/(mg/m3)0.050.150.25PCA+LDA68.8964.1669.92BPNN88.6389.4590.25本文算法93.4094.7696.25 表3 不同算法对混合气体中甲苯浓度识别率的比较 (%) 算法混合气体中甲苯浓度/(mg/m3)0.050.090.18PCA+LDA61.3659.5260.47BPNN78.9879.1278.54本文算法88.8987.3688.41 表4 训练参数数量的比较 (%) 算法训练参数数量BPNN587 373本文算法5 433 由表1~表3可见本文所处提出的室内有害气体成分识别算法对混合气体中各种气体具有较高的识别率。表4说明本文提出的室内有害气体成分识别算法在较高的识别率情况下,拥有较少的训练参数数量。 本文提出一种基于CNN与仿生嗅觉相结合的室内有害气体成分识别算法。该方法利用卷积神经网络权值共享和加入全局最大池化层,使得神经网络在拥有较少的训练参数数量的情况下,对室内有害气体具有较高的识别率。该算法的研究对仿生嗅觉系统后续浓度估计问题的解决具有重要意义。本文提出的算法在浓度回归实验上还没有得到很好的验证。在实验的过程中还没考虑到外界因素对实验结果造成的影响,这将是后续的研究方向。3 室内有害气体成分识别方法
4 实验结果
4.1 数据采集
4.2 有害气体成分识别实验
5 结论