马宏莉, 王 涛, 李泊龙, 曾 敏, 杨建华, 杨 志
(薄膜与微细技术教育部重点实验室 上海交通大学 电子信息与电气工程学院 微纳电子学系,上海 200240)
随着城市化进程的加快,室内环境常存在氨气(NH3)、甲醛(CH2O)、苯(C6H6)、甲苯(C7H8)等多种气体污染物。长期生活和工作在受气体污染的室内环境中,人体健康将受到严重威胁[1,2]。此外,在生产生活中,天然气与煤气等有害气体泄露的危险情况也时有发生。所以,研究室内环境中的有毒有害气体检测,对于人体的安全健康保障具有重要的意义。
传统的基于单一气体传感器的有毒有害气体检测方法,在应用过程中易受背景环境气体的影响而出现误报,这是因为现有气体传感器材料均具有交叉敏感特性,即无法达到只对某一种气体敏感。为提高复杂环境下特定气体组分的定量识别效果,结合了传感器阵列和机器学习算法的电子鼻系统被广泛应用。如Jia P等人[3]设计了基于金属氧化物半导体气体传感器的电子鼻系统,实现了室内C6H6、C7H8、CH2O和一氧化碳(CO)等四种常见的室内污染气体的检测。类似地,Zhang D等人[4]将气体传感器阵列与反向传播神经网络(back propagation neural network,BPNN)相结合,实现了CH2O和NH3混合时的组分识别。尽管电子鼻系统对于室内气体的检测技术取得了一定进展[5],但其针对多种单一气体及混合气体同时进行定量识别的研究还相对较少,文献[6]只实现了丙酮(C3H6O)和2—丙醇(C3H8O)两种气体的单一及混合情况下的定量识别。
本文设计了一种高效且低成本的电子鼻系统,可同时实现6种常见室内有毒有害气体,包括硫化氢(H2S)、NH3、CO、C7H8、CH2O和C3H6O,在单一及二元气体混合情况下的组分识别及体积分数估计。设计的传感器阵列采用4种商用金属氧化物型气体传感器,降低了设备成本;采用先识别再估计的方法,保证了少量训练样本情况下电子鼻系统较好的体积分数估计性能;提出的层次分类器(hierarchical classifier,HC)很好地避免了分类器训练过程中的样本不平衡问题,进而提高了对未参与训练浓度样本的识别率。
为实现H2S,CO,NH3,C7H8,CH2O,C3H6O等6种气体在单一及混合情况下的组分识别,本文选取日本Figaro公司生产的TGS2620、TGS2603、TGS2600以及TGS2602等四种成熟的商用金属氧化物型气体传感器以构成传感器阵列,将其集成于自制的PCB。此外,为实现传感器阵列信号的采集,该PCB还包括:基于AD620的多路模数转换采样模块、基于RS—232串口的上位机通信模块、基于STM32单片机的程序控制模块、以及电源开关等其他相关外围电路。
假设单一气体和混合气体H2S,CO,NH3,C7H8,CH2O,C3H6O,H2S+CO,NH3+C7H8,CH2O+C3H6O的类标签分别为1~9,则训练集和测试集中样本的数量及样本体积分数分布如表1所示。
表1 训练集与测试集样本数量及体积分数分布
单一气体的体积分数以5×10-6的间隔在(5~30)×10-6之间变化,每个体积分数实验重复3次。混合气体中的每种气体组分的体积分数变化与单一气体相同。
传感器阵列响应的时域特征具有获取快速简单的特点,无需复杂的信号处理算法,适用于微小便携式气体传感器阵列系统。因此,本文采用式(1)所示差分时域特征[7],用于实现多组分气体的定量识别
f=Rgas-Rair
(1)
式中f为提取的时域特征,Rair和Rgas分别为传感器在洁净空气中的基线值和在待测气体氛围中的稳态响应值。
HC通常由类别层次和基分类器两部分组成[8],本文设计的HC的类别层次示意图如图1所示。
图1 类别层次示意
为实现每个层次的类识别,本文采用BPNN模型作为基分类器。BPNN模型主要由输入层、隐含层和输出层组成,隐含层激活函数常采用Sigmoid模型函数,典型单隐含层BPNN结构如图2所示[9]。
图2 典型单隐含层BPNN模型结构
单隐含层BPNN的输入层与输出层节点数主要由特征输入x=[x1,x2,…,xm]和目标输出y=[y1,y2,…,yn]的维数决定,隐含层节点数可通过经验公式(2)进行选取
(2)
式中m,n变量为输入层与输出层节点数;N为隐含层节点数;a为1~10之间的常数。
此外,wij为第i个输入层节点xi到第j个隐含层节点netj的权系数,w′jk为第j个隐含层节点netj到第k个输出节点的权系数。θj为第k个隐含层节点netj的阈值。
假设有p个自变量X={x1,x2,…,xp}和q个因变量Y={y1,y2,…,yq},用于研究因变量Y和自变量X之间统计关系的多元线性回归模型可表述如下
Y=XB+Eγ
(3)
式中B和Eγ分别为常系数矩阵和残差矩阵。
将多元线性回归模型用于体积分数估计的优点在于利用少量样本即可得到传感器阵列响应与气体体积分数的关系函数。同时,建立的多元回归单输出和多输出模型,可分别用于实现单一气体和二元混合物中对应组分的体积分数估计。
偏最小二乘(partial least-squares,PLSR)回归在多元线性回归的基础上,利用主成分分析(PCA)算法对输入和输出向量同时进行分析,充分利用自变量与因变量间的相关关系,提高多元回归模型的预测性能。
为减少传感器阵列中的冗余信息对分类效果的影响,本文采用PCA降维后的差分时域特征作为分类器的输入,其对应的主成分得分图如图3所示。
图3 差分时域特征的主成分得分
为验证本文提出的基于类别层次的气体识别方法的优越性,分别将BPNN和基于反向传播神经网络的层次分类器(back propagation neural network-based hierarchical classi-fier,BPNN-HC)用于多组分气体的识别。对表1中的训练和测试样本进行多次重复试验后,BPNN及BPNN-HC的分类性能对比结果如表2所示。其中,准确率、精确率以及召回率的微平均和宏平均是多分类中常用的性能评价指标。其中,宏平均主要用于评价分类器对训练样本数量少的类别的识别效果,微平均则相反。
表2 BPNN与BPNN-HC多分类性能对比 %
从表2中可以看出,本文设计的电子鼻系统对未参与训练的体积分数样本的识别准确率达到96.81 %。此外,对比宏平均精确率结果可以发现,BPNN-HC相比于BPNN能更有效地识别具有少量样本的单一气体。
在实现6种单一气体和3种混合气体的模式识别后,针对每个模式分别建立回归模型以实现体积分数估计。以H2S和CO为例,其在单一和混合情况下体积分数估计结果分别如图4和图5所示。
本文6种有毒有害气体在单一和混合情况下,测试样本的体积分数预测结果如表3所示。其中,平均绝对误差(mean absolute error,MAE)、均方根误差(root mean square error,RMSE)以及决定系数(R-square,R2)等是常见的回归模型评价指标。
图4 单一气体H2S和CO的体积分数预测结果对比
图5 混合气体H2S+CO中H2S和CO体积分数预测结果对比
表3 测试样本的体积分数预测结果
从图5和表3可以看出,针对不同模式建立的PLSR模型能够较好地预测单一气体和混合气体对应组分的体积分数,其未训练样本体积分数预测的平均绝对误差均小于2.5×10-6。
本文设计的电子鼻系统,有效地实现了多种室内有毒有害气体的识别与体积分数估计。提出的基于BPNN-HC具有良好的泛化性能,并对6种单一气体及3种混合气体的识别准确率达到了96.81 %。针对每个模式分别建立的回归模型,其决定系数R2均大于0.91,有效地实现了单一及混合情况下的气体组分体积分数估计。因此,本文所设计的高效且低成本的电子鼻系统,将使得室内环境气体检测的大规模推广成为可能。