基于正交线性判别分析和电子鼻技术的食醋分类

2020-04-13 13:34:00武斌王大智嵇港黄大鹏武小红陈开兵贾红雯

食品与发酵工业 2020年6期

武斌，王大智，嵇港，黄大鹏，武小红，陈开兵，贾红雯

1(滁州职业技术学院信息工程系，安徽滁州，239000)2(江苏大学京江学院, 江苏镇江， 212013)3(江苏大学电气信息工程学院, 江苏镇江， 212013)

食醋是人们日常饮食中常用的酸性调味品。由于食醋酿造的地理位置、气候和水源环境、原材料以及酿造工艺流程的各有千秋，因此酿造出来的食醋风味不同[1]。市场上有多种品牌的食用醋，醋的质量良莠不齐，还存在以次充好的现象，而普通消费者凭主观判断选择食醋难以确定食醋品质。

电子鼻技术包含了传感器，模式识别，信号处理等多个学科的技术。随着物联网和人工智能的发展，电子鼻技术将成为新的研究热点[2]。电子鼻利用传感器阵列对气体反应灵敏来检测混合气体，被广泛用来分析各种有机挥发性有机化合物的气体成分[3-5]。由于电子鼻具有无损检测，速度快，智能化，灵敏度高等优点，在食品及食品安全行业领域得到应用[6]。目前，电子鼻技术在有毒气体检测[7-9]、中药检测[10-13]和食品安全检测[14-18]上都有应用。特别在食品检测上，已经成为研究热点。例如电子鼻已经成功应用于对碳酸饮料[14]，鳕鱼[15]，猪肉冷冻储藏期[16-17]，不同产地名优红茶和绿茶[18]等的检测。WU等使用自制电子鼻设备，提出模糊鉴别主成分方法，快速准确判别不同品牌的白酒[19]。成剑峰等使用PEN3电子鼻判断食醋是否变质，使用主成分分析(principal component analysis，PCA)和线性判别分析(linear discriminant analysis，LDA)进行对比分析，获得很好的效果[20]。黎新荣使用PEN3电子鼻对不同贮藏时间沃柑的气味进行判别，分别采用PCA和LDA对气味进行特征值提取，最后比较发现使用LDA具有更好的准确率[21]。食醋的香气成分多达65种，其中酸类，酯类和酮类共占79.15%，乙酸乙酯，苯乙醇，苯乙醛，3-羟基2-丁酮，乙醛-3-甲基1-丁醋，2-甲基丁酸，2, 3-丁二酮，二氢-5-戊基-2(3H)呋喃酮共8种特征香气[22]是区分食醋的关键物质。不同品种的食醋其8种特征香气存在差异，这些差异有利于食醋品种的分类。

综上所述，电子鼻技术可实现对食醋的分类。目前，电子鼻技术的应用存在两个问题，第一，大部分采用的电子鼻都不是自制的，使用的德国的PEN3比较多，价格昂贵，不利于市场推广使用，操作起来也很复杂；第二，分类方法仍然有待进一步研究和优化。本研究设计一种用于食醋检测的电子鼻系统，用主成分分析(PCA)+线性判别分析(LDA)和正交线性判别分析(orthogonal linear discriminant analysis，OLDA)[23]来处理电子鼻信号而实现食醋品种的快速无损检测。

1 材料与方法

1.1 材料与仪器

实验所用食醋品种共有5种，分别是镇江香醋、恒顺香醋、镇江陈醋、山西陈醋和保宁醋。5种食醋的详细信息见表1。

表1 食醋的详细信息

实验所用的食醋电子鼻系统主要包括气体传感器阵列、数据采集卡、PC机、气室、电源模块和样品瓶等组成。如图1所示。

图1 食醋电子鼻系统

采用TGS813、TGS822、TGS822TF、TGS2620、TGS2610、TGS2611、TGS2602、TGS2600、MQ135、MQ3十个半导体气体传感器。传感器的基本信息见表2。本文的自制电子鼻针对食醋的特征香气选取电子鼻传感器，用于食醋品种分类。电子鼻传感器对所测样品的气味类别和气味浓度敏感，工作环境温度在20 ℃和湿度在35%～70%。

表2 传感器的基本信息

1.2 实验方法

1.2.1 环境温度与湿度

实验采用了静态测试法，在室温约20 ℃和湿度40%左右的环境下进行采样。

1.2.2 电子鼻系统

首先打开样品瓶盖，将电子鼻各部分器件连接起来，电源模块接传感器阵列，传感器阵列信号输出端接数据采集卡的输入端，数据采集卡的输出端通过USB线连接到PC机。将电子鼻通电10 min进行预热。

1.2.3 食醋样本

量取10 mL样品放入样品瓶中，将样品瓶的气管与气室连接，伸入气室的气管位置正好位于传感器阵列中心，目的是对各个传感器响应时间保持大体一致，然后连接好数据采集卡与传感器阵列和PC，并计时。让传感器静置60 min，待气体挥发完全[23]。

1.2.4 电子鼻信号采集

编写控制PC端Labview程序，设置好数据采集卡参数，分别在60 min采集数据1次，然后每隔5 min采集1次，总共采集3次，最后计算3次结果的平均值作为最终结果，将结果通过USB传输并保存到PC机。采集1次完成后，打开样品瓶的瓶盖，开启出气的气泵，清除整个系统的气味10 min，使传感器恢复初始状态[23]。将采集的数据结果按食醋品种分类保存，每个品种食醋的样本数为51，每个样本10 mL，共255个样本。

1.3 正交线性判别分析(OLDA)

与线性判别分析相比，正交线性判别分析(OLDA)[24]无需事先运行PCA对数据进行降维。OLDA的判别投影向量之间的正交关系以消除投影中的冗余信息，OLDA要计算的新投影向量与所有先前获得的投影向量正交，解决了LDA小样本问题。

假设有一组样本的集合IR，令训练样本矩阵A={A1,A2,…,Ak}，其中Ai∈IR。类内方差矩阵为Sw，类间方差矩阵为Sb和总体方差矩阵别为St定义公式(1)、(2)、(3)、(4)如下：

(1)

(2)

(3)

(4)

式中：e(i)=(1,1,...,1)T∈Rni,e=(1,1,...,1)T∈Rn，c(k)是第k类样本均值，c为总体样本均值。

2 结果与分析

实验获得5种食醋总样本共255个数据，每种食醋有51个样本数据，将51个样本数据里的20个数据作为训练样本，其余的31个数据作为测试样本。也就是总样本255个数据分成100个训练样本数据集和155个测试样本数据集。所有的样本都是1×10的向量，则100个训练样本数据可得到100×10的数据矩阵；同理155个测试样本数据可得到155×10的数据矩阵。用100个训练样本数据进行模式训练学习，建立食醋的预测分类模型，再用155个测试样本数据来检验该模型的分类准确率。

2.1 五种食醋的预处理

对采集的255个食醋样本数据进行标准正态变量变换处理。标准正态变量变换也称为标准归一化，它是一种预处理方法，能降低电子鼻采集数据中产生的噪声影响，有效地优化了原始数据，减少冗余信息。标准正态变量变换就是将数据按照对于一组实验获得的原始样本，求出它的标准差、方差和均值，通过标准归一化变换得到一个新变量。标准正态变量变换能够按照比例把样本数据进行平移和缩放，使数据落入到一个特定的小区间中。

2.2 五种食醋的PCA+LDA分析

PCA是一种基于Karhunen-Loeve变换思想的方法[25]，它主要是用于简化变量结构并提取训练数据样本空间的特征，把样本空间从高维降到低维。使用PCA得到的样本数据不仅能降低各特征信息相关性和减少冗余信息，还能使得训练算法的运行效率得到提高。线性判别分析[26]计算得到一个最优的线性变换，通过这个变换，高维空间中的原始数据被转换为一个更低维的特征空间，在减小维数的同时保留尽可能多的分类信息。

首先使用PCA算法对预处理后的数据进行第1次降维，其中降维是通过针对数据矩阵求取特征向量和特征值然后选取合适的维数。定义其特征向量数为6，得到其特征值见表3。其对应的特征向量为表4所示。用PCA降维后，根据前2个特征向量投影形成的测试样本的两维散点图如图2所示。图2中PC1和PC2为PCA的前2个特征向量。由图2可知，镇江香醋和山西陈醋重叠在一起难以区分开，而保宁醋和其他4种醋间隔远，易于和其他4种醋区分开。

表3 用PCA计算得到的特征值

表4 用PCA计算得到的特征向量

图2 主成分分析处理后的测试样本两维散点图

在通过PCA降维处理后得到了255×6的样本集，其中训练集数据为100×6，余下所有数据均为测试集数据。通过线性判别的方法提取鉴别特征向量。经过LDA算法的计算后，最终将PCA算法降维得到的155×6的测试数据样本转换成155×4的新的测试集。完成了从PCA特征空间向LDA特征空间的空间转换，达到了降维和提取分类信息的目的。

经过LDA计算后得到的测试样本的两维散点图见图3。由图3可知，食醋电子鼻信号经过PCA+LDA后完成了数据维数从10维到4维的减少，从测试样本的两维散点图可以看出，镇江香醋和山西陈醋这2类醋数据点很靠近给分类造成一定难度，容易造成误分类现象。恒顺香醋、镇江陈醋和保宁醋这3种醋彼此之间以及与其他2种醋的间隔较大，比较容易区分开。

经过OLDA处理后的测试样本的两维散点图见图4。图4和图3情况类似，镇江香醋和山西陈醋两种醋的数据点很靠近，不利于分类器进行分类。另外，在本文中OLDA处理后的测试样本是4维数据，无法可视化看到4维数据分布情况，所以也就无法进一步比较PCA+LDA和OLDA处理后测试样本的4维数据分布。

图3 线性判别分析处理后的测试样本两维散点图

图4 正交线性判别分析处理后的测试样本两维散点图

PCA将数据降为不同特征维数时再用LDA计算降为4维后，用最近邻分类器得到的食醋识别准确率见图5。由图5可知，当特征维数为9时，PCA+LDA分类准确率最高。在其他特征维数时，分类准确率保持在85%以上。

图5 特征维数与识别准确率的关系

2.3 食醋的正交线性判别分析

在PCA以后再用LDA，这种方法是在降维的另一阶段之后执行LDA。由于类内散布矩阵Sw的秩以m-c为上限，所以PCA的最大维数可以减少到m-c，其中m是训练集的大小，并且c表示类的大小。然而，PCA + LDA存在一个严重的问题，那就是分类信息可能会丢失。

OLDA强制判别投影向量之间的正交关系以消除投影中的冗余信息，从而在识别率方面实现比传统判别投影向量更强的判别投影向量。OLDA算法在处理数据时无需先用PCA对数据进行降维，其计算的新投影向量与所有先前获得的投影向量正交。针对PCA+LDA方法的不足，用正交线性判别分析对食醋电子鼻信号进行处理，再用最近邻分类器进行分类。表5列出了样本在不同划分情况下的分类准确率。

由表5可知，当每类食醋电子鼻信号的训练样本个数为20，测试样本个数为31个时，主成分分析与线性判别分析的分类准确率达到最高(90.32%)。对于不同的训练样本与测试样本划分情况，基于正交线性判别分析的分类准确率始终保持在90%以上，高于PCA+LDA方法的分类准确率。

表5 样本不同划分情况下的分类准确率

由图6可知，当每类的食醋电子鼻信号的训练样本个数变化时，基于正交线性判别分析的分类准确率要明显高于基于PCA+LDA方法的分类准确率。

当总样本数较少时，例如总样本数是75个数据样本(即每种15个样本数)，当训练样本每种6个样本数，共30个训练样本，测试样本每种9个样本数，共45个测试样本。用PCA将数据降维到6维，再用LDA降维到4维，最后用最近邻分类器进行分类，分类准确率为82.22%。用OLDA将数据降维到4维，用最近邻分类器进行分类，可得分类准确率为82.22%。

图6 训练样本个数变化时两种算法分类准确率

3 结论

采用主成分分析与线性判别分析(PCA+LDA)方法对食醋电子鼻信号进行处理会存在分类信息丢失现象。为了克服这一缺陷，引入正交线性判别分析方法对食醋电子鼻信号进行处理，分类准确率得到了提高。对训练样本和测试样本进行了不同划分，当训练样本为20，测试样本为31时，PCA+LDA方法识别准确率达到最高90.32%。而且，在训练样本和测试样本划分变化时，使用正交线性判别分析方法的食醋电子鼻信号分类准确率明显高于使用PCA+LDA方法的分类准确率，即基于正交线性判别分析的电子鼻食醋信号分类是切实可行的一种方法。当总样本数较少，训练样本较少时，分类准确率不高，此问题有待以后的进一步研究和探索。