王 茜孟庆浩靳荔成
(天津大学机器人与自主系统研究所,天津市过程检测与控制重点实验室,天津大学电气自动化与信息工程学院,天津300072)
我国是白酒生产和消费的大国。 根据香型、品牌及制作工艺的不同,我国白酒可有几千种之多。近些年,白酒市场中以次充好、以假乱真的现象时有发生,如何快速鉴别白酒的品质困扰着普通消费者。现有用于白酒鉴别的方法包括感官法、色谱法、光谱法和传感器阵列等方法。 感官法主要通过有经验的品酒师完成,具有较强的主观性,受影响因素较多。色谱法和光谱法依赖昂贵的分析仪器,成本高、耗时长,且仪器的体积普遍偏大,不便于日常使用[1-2]。电子鼻[3]作为一种新兴检测技术,已在食品鉴别、生物检验、医疗诊断、环境监测、烟草检测等[4-8]多个领域有成功应用的案例。
电子鼻在酒类识别方面也有了一些研究案例。Pornpanomchai 等[9]将电子鼻技术和神经网络技术相结合实现了10 种啤酒品牌的分类。 Qi 等[10]研制了一种由采样模块、气室和ARM(Advanced RISC Machines)处理器组成的便携式电子鼻,采用仿生分段呼吸采样方法实现快速采样,并用优化后的支持向量机(Support Vector Machine,SVM)算法对六种白酒进行识别,准确率高达90.8%。 商业化便携式电子鼻Cyranose320[11]已被广泛应用在多个领域。Li 等[12]研制了用于检测猪肉新鲜度的手持式电子鼻系统。 Li 等[13]利用手持式电子鼻研究了检测白酒方法,能够很好的实现白酒分类。 目前,针对于酒类检测的电子鼻系统提取的特征[14-15]可分为静态特征和动态特征。 静态特征包括基线值、峰值、均值、稳态响应时间等,动态特征包括响应曲线在某点的积分值、微分值、瞬态响应值等[16-21]。
为提升白酒识别的准确率,除常用的时域特征提取方法外,本文将基于小波包分析的时频域特征及基于一对多共同空间模式(One Versus Rest Common Spatial Pattern,OVR-CSP)分析的空域特征[22]引入到手持式电子鼻的白酒识别研究,并通过可分度加权的方式对时域、时频域和空域三种特征进行融合。 利用实验室自制的手持式电子鼻对6 种白酒进行检测与识别,实验结果表明本文所提的多域特征融合提取方法提高了分类的平均准确性。 在此基础上,比较了SVM、K 近邻(K-Nearest Neighbour,KNN)和BP 神经网络(Back Propagation Artificial Neural Network,BP-ANN)三种分类器的实时性和分类效果。
本文所采用的实验室自制手持式电子鼻如图1所示,左侧为电子鼻展开结构图,主要包括Arm 系统板、系统扩展板、气室、气路、LCD 触摸屏等部件,右侧为电子鼻整体结构图,该电子鼻系统总重283 g,长11 cm,宽9 cm,高3 cm,平均功率小于5 W。
图1 用于白酒检测的手持式电子鼻实物图
传感器阵列是电子鼻系统的气味感知部件,传感器阵列的选择是根据不同传感器对白酒气味物质的响应特点,并以较少的传感器数量获取更多的气味信息,以及基于传感器之间对不同气味信息交叉敏感为原则进行阵列优化。 本文所用的手持式电子鼻的传感器阵列包含6 种金属氧化物半导体(Metal Oxide Semiconductor,MOS)型传感器和一个温湿度传感器,MOS 型气体传感器型号分别为CCS801、CCS803、TGS8100、MiCS-5914、MiCS-5524、MiCS-4514,其中MiCS-4514 输出两路信号,传感器具体信息如表1 所示。
表1 传感器阵列的传感器型号
1.2.1 实验材料与数据采集
本文选取六种白酒进行实验,分别为国窖1573、西凤、汾酒、剑南春、五粮液和飞天茅台。 六种白酒的具体信息如表2 所示。
表2 六种白酒的具体信息
在实验室中进行白酒样本数据采集,室内温度为28 ℃,空气相对湿度为30%。 手持式电子鼻实验采样参数设置:采样频率400 Hz,采样时间40 s,其中吸气时间1 s,吸气等待时间3 s,呼气时间35 s,呼气等待时间为1 s,气室清洗时间为30 s。
1.2.2 数据预处理
采用气泵将洁净空气吹入白酒样本瓶,吹入空气携带挥发的白酒样本从气路系统进入气室中,与传感器阵列发生反应,其中吸气-吸气等待-呼气-呼气等待过程为采样周期,完成气体采样,采样结束后进行气室清洗。 TGS8100 传感器原始响应曲线如图2 所示。
图2 TGS8100 传感器原始响应曲线
电子鼻获取的数据是经过RC 电路消除工频干扰噪声后的结果,但此时响应曲线依旧存在一些噪声和波动,为便于后续数据处理,应进一步对数据进行滤波。 本文先采用中值滤波去噪,中值滤波对去除硬件电路中的孤立脉冲噪声具有较好效果,同时也能使曲线更加平滑。 中值滤波算法的思想是用某一点邻域窗口内所有响应值的中位值去代替这一点的真实值,如式(1)所示:
式中:x(i)为位于窗口中心的采样值,窗口中心采样值邻域窗口长度L=2n+1,其中n为正整数,本文中n取值为51,y(i)为滤波后的响应值。
经过中值滤波后可以得到较为平滑响应曲线,但仍有一些波动,为减少这些波动对后续数据处理的不利影响,继续使用局部回归加权算法进行平滑滤波,得到波动更小、更平滑的响应曲线。 局部回归加权滤波算法的具体方法如下:
在采样点处建立一个L=2n+1 的滤波窗口,n为窗口半径,本文中n取31,设各个测量点为X=[-n-n+1 …n]T,每点对应的响应值Y=[x(-n)x(-n+1) …x(n)]T。 对位于窗口内的数据用权值函数进行加权线性回归,取回归线的中心值作为该采样点滤波后的值。 因为权值公式选取并不固定,满足一定规则即可,本文所采用的局部回归权值公式如式(2)所示,并利用式(3)求取加权回归模型。
式中:x为当前传感器响应值,x(i)为位于平滑窗口内的相邻点,d(x)为x到窗口内紧邻点距离最大值,g(i)为窗口内每点的权值,G为权值矩阵,G=diag[g(-n)g(-n+1) …g(n)],其中g(-n)~g(n)窗口内每个点对应的权值,^Y为求取的加权回归模型。
图3 为TGS8100 传感器滤波去噪后曲线响应图,经过中值滤波和平滑滤波后,获得了更加平滑的曲线。
图3 TGS8100 传感器滤波后响应曲线
本文提出的用于白酒检测的手持式电子鼻多域特征融合方法包括:提取基于统计学方法传感器响应曲线的时域特征,提取基于小波包分解和重构的时频域特征,提取基于OVR-CSP 的空域特征,对所有特征进行归一化处理以及利用特征加权方法进行特征融合。
基于统计学分析对响应曲线进行时域特征提取,计算时域波形数据的统计指标,提取其静态特征和动态特征。 通过对手持式电子鼻采样方式和响应曲线特点的分析,选取了6 个时域特征,分别为一阶微分最大值M1,一阶微分最大值时刻对应的响应值M2,采样时间内的响应曲线的积分值M3,采样时间内微分平均值M4,最大响应值与响应初始时刻对应响应值的差值M5,二阶微分最大值M6,提取的时域特征表达如下:
式中:St-1、St、St+1分为t-1、t、t+1 时刻响应值,Δt为采样间隔时间,td代表一阶微分最大值对应的时刻,T为采样周期,t0为响应初始时刻,ts为曲线稳态响应时刻。
对手持式电子鼻的6 个传感器输出的7 条响应曲线分别提取上述的6 个时域特征,将其整合成单个样本时域特征向量f1∈Rm1×1,其中m1表示时域中提取的特征总个数,本文中m1=42。
小波分析是时频分析的一种,是对短时傅里叶变换局部化思想的继承和发展,不仅克服了傅里叶分析中窗口大小不能跟随频率改变的缺点,而且提供了一个随频率变化的时间频率。 窗口应用多分辨率分析,通过尺度函数进行伸缩和平移,对信号进行多频带分解。 小波分析将时间序列分解为低频和高频两部分,并对低频信息部分进一步分解,高频部分则不再处理。 小波分析可以很好地表征信号低频信息,但会忽略高频的大量细节信息。 小波包分析在小波分析的基础上,同时进一步分解低频和高频两部分,以获取更全面的信号特征。
由于Daubechies 小波的正交性、高阶连续可导、对称性、小时频窗口和高消失矩的特性,本文选取3阶的Daubechies 进行分解,经过多次验证,当分解尺度为3 时既有良好的去噪效果,且信号不失真,同时计算量较小。 本文中选取db3 小波函数对各个传感器响应信号进行3 层小波包分解与重构,将传感器时间响应序列S 分解为低频信息a 和高频信息d 两部分,下一层分解中,继续将低频信息a 和高频信息d 部分分解为aa,ad,da,dd 四部分,以此类推,经过三层分解后可得到aaa、aad、ada、add、daa、dad、dda、ddd 共8 个频带,图4 为在各个尺度上分解与重构后得到的小波树图,分别提取第三层小波重构后能量的最大值及小波包能量熵值作为白酒类别的时频域特征。 其中小波包能量熵值是基于小波包分解系数计算得到熵值,该值是对信号中小波分解重构后能量分布的平均复杂度表征。
图4 传感器响应信号3 层小波包分解重构结果
基于小波包分析的小波包能量特征和小波包能量熵特征的提取步骤如下:
①选择db3 小波函数对预处理后传感器响应曲线进行3 层小波包分解,获取第三层各个节点对应的小波包系数,分别为d3k,其中k=1,2,…8。
②利用所求的第3 层各节点小波包系数重构各节点信号S3k,k=1,2,…8。
③利用小波包重构信号计算第三层小波包各节点能量E3k和总能量E,其中:
式中:S3k(t)为第3 层第k个节点重构信号的第t个数据,t=1,2,…n,n为重构节点的数据个数。
④计算小波包总能量熵值WEE:
式中:P3k为各节点小波归一化能量。
⑤获取时频域特征小波包能量最大值Emax:
对手持式电子鼻的6 个传感器输出的7 条响应曲线分别提取上述的2 个时频域特征,将其整合成单个样本时频域特征向量f2∈Rm2×1,其中m2表示时频域中提取的特征总个数,本文中m2=14。
CSP 是一种用于两分类任务下的空间滤波算法,目前在脑电领域尤其是运动想象特征提取方面已广泛应用,但在电子鼻的分类识别领域应用较少。CSP 的原理是构造一个空间滤波器,两类信号通过这个滤波器后,一类信号的方差最大,另一类信号的方差最小,从而实现对两种不同类别信号的区分。然而对于白酒种类多样的问题,CSP 无法完成分类任务,因此本文采用OVR-CSP 方法实现多种白酒种类的识别。 对于文中的6 种白酒分类而言,OVRCSP 是将其分成6 个一对一的两分类问题,依次计算每个滤波器,共需要构建6 个空间滤波器。 基于OVR-CSP 的空域特征提取步骤如下:
①将其中某一类白酒视为一类信号,其余白酒种类视为另一类信号,求取两种信号的空间滤波器。计算两类白酒信号矩阵的空间协方差均值矩阵:
计算两类白酒混合空间的协方差矩阵R,并进行特征值分解:
求取混合协方差矩阵的白化矩阵W:
利用求取的白化矩阵对两类白酒的协方差均值矩阵进行白化处理:
对白化后的矩阵进行特征值分解:
式中:Us是S1和S2的共同特征向量,λ1和λ2对应S1和S2的特征值,且λ1和λ2的和为单位矩阵。 因此,当S1的特征值最大时,S2特征值最小,两类信号的协方差区别最大,因此可构造出空间滤波器:
按照此种方法构造出所有白酒类别的空间滤波器族Qc,c=1,2,…,6。
②空域特征信号提取。
将白酒样本矩阵经过空间滤波投影得到特征矩阵:
式中:Xj是第j个白酒样本,Zj第是j个白酒样本经过空间滤波器Qc滤波投影得到的特征矩阵,N为白酒样本个数。
取特征矩阵Zj的所有行的方差作为信号矩阵的空域特征值:
式中:Zj(i)表示特征矩阵Zj的第i行,k为特征矩阵Zj的总行数,即电子鼻传感器阵列输出响应曲线条数,本文中k=7。
按照上式分别求取白酒样本在不同滤波器下的特征值,将其整合成单个样本的空域特征向量f3∈Rm3×1,其中m3表示空域中提取的特征总个数,本文中m3=42。
提取全部白酒样本的时域特征、时频域特征和空域特征,生成时域特征、时频域特征和空域特征矩阵F1、F2、F3:
式中:f1,j、f2,j和f3,j分别为时域、时频域和空域下提取的第j个白酒样本的特征向量,其中j=1,2…N,N为白酒样本个数。
将时域特征、时频域特征和空域特征矩阵组合生成多域特征矩阵F:
式中:m为多域特征矩阵所含特征个数,本文中m=m1+m2+m3=98,N为白酒样本个数。
在进行特征加权融合前,为减少各个特征值量纲不统一对后续数据处理的影响,对特征矩阵进行归一化处理,归一化公式如下所示:
式中:ai表示特征矩阵中的某个特征的一个特征值,amin为这个特征值中最小的值,amax为特征值中最大的值。
特征加权融合方法的原理是根据一定的准则去评价每个特征值的重要程度,并根据他们的重要程度去赋予不同的权值,求取其权值矩阵。 本文中采用样本特征的可分度函数去计算特征权值,对特征以及不同类间的相关性进行量化。 某个特征的可分度越大,则赋予其更高的权重值,否则则赋予其更低的权重值。 定义特征的可分度函数为:
式中:μij表示样本中所有属于j类白酒的第i个特征值的均值,μik表示样本中所有属于k类白酒的第i个特征值的均值,σip表示样本中所有属于第p类白酒的第i个特征值的方差,c表示白酒种类数量,文中c等于6。
Di值越大,表示第i个特征值对区分各类白酒样本集的作用越大,通过可分度函数,对特征矩阵中的所有特征分量进行计算,定义特征的权重系数:
式中:α为常量,m为特征矩阵维数,wi为第i个特征值的权重系数。
则特征权值对角矩阵P和特征加权矩阵FW为:
式中:w1~wm为根据式(29)求得的各个特征值的权重系数。
基于上述可分度函数,计算每个特征值的归一化权值,最终得到所有特征值可分度权值,并按照权值大小降序排列。 表3 给出按照降序排列后的前12 个特征及对应的权值,符号fa_b及其下面的数字分别表示特征及对应权值。 其中,下角标a取1、2、3,分别对应时域、时频域和空域下提取的特征;下角标b对应a值为1、2 和3 时的取值范围分别是1~42、1~14 和1~42,表示为时域、时频域及空域下的第b个特征。 通过相关性分析,可以直观地看出不同特征值对白酒类别识别的重要程度,为每个特征值赋予不同权值。
表3 按可分度函数权值大小降序排列的前12 个特征
为验证本文所述方法的有效性,采集6 种白酒共395 个样本,其中每种白酒样本60~70 个。 由于样本数量有限,所以采用交叉验证的方式进行分类器的性能评估。 每次随机选择35 个样本作为测试样本,其余为训练样本,迭代次数20 次,取20 次模型下识别结果的平均值作为识别准确率。 选取SVM 分类器作为分类器,单一特征和多域特征下的平均分类准确率如表4 所示。
表4 不同特征的平均准确率
从表4 中可以看出,使用本文的多域融合特征FW时,能达到97.33%的平均正确率,与单一的时域、时频域和空域特征相比,平均识别正确率分别提高了9.83、8 和1.5 个百分点。 因为与单一域特征相比,多域特征加权融合实现了信号不同域下特征的互补,同时根据可分度函数计算每个特征值对白酒分类的不同重要程度设置特征权值,从而获得了更好的分类识别效果。
选取三种常用的分类识别算法SVM、KNN 和BP-ANN 进行多域特征下的白酒种类识别,由于多域特征加权融合后的特征维数仍然较大,因此选取核主成分分析(Kernel Principal Component Analysis,KPCA)对特征空间进行降维,减少特征冗余的不利影响,提高分类器的效率。 表5 所示为不同分类器下各类白酒的分类结果。
表5 不同分类算法的平均准确率
从表5 中可以看出,多域融合特征经KPCA 降维后,BP-ANN 的准确率最高,比SVM 和KNN 分别多1.9 和0.52 个百分点。 但在训练样本、测试样本数量相同、迭代次数相同的情况下,BP-ANN 的识别时间为77.48 s,SVM 的识别时间为4.19 s,KNN 的识别时间为2.57 s,考虑到白酒用手持式电子鼻的在线快速识别要求,虽然BP-ANN 识别准确率最高,但运行时间比其他两种分类算法长很多,而KNN 的识别准确率也很高,运行时间最短,所以建议选择KNN 作为分类识别算法。
本文综合考虑了白酒识别用电子鼻传感器响应曲线的时域、时频域和空域特征,基于多域特征提取方法和自制的用于白酒检测的手持式电子鼻完成了6 种白酒的采样和识别。 在特征提取方面,分别基于统计学方法、小波包分析方法和OVR-CSP 法提取了每个传感器响应曲线的时域、时频域和空域特征,并运用特征加权融合方法对三类特征进行了融合。实验结果表明,在相同分类算法的前提下,本文提出的多域特征加权融合方法相较于单一域方法的平均准确率更高。 最后,分析比较了SVM、KNN、BPANN 三种分类算法对多域融合特征的分类性能,实验表明,三种分类算法的识别率均能达到95%以上,其中BP-ANN 准确率最高,但运行时间最长。KNN 算法运行时间最短,且识别准确率很高。 针对本文的实验结果,建议选择KNN 作为分类器用于白酒的在线识别。