李 培,牛智有,2,谭鹤群,2,张伟健,皇甫季璇
鱼粉品质检测电子鼻传感器阵列的多特征数据融合优化
李 培1,牛智有1,2※,谭鹤群1,2,张伟健1,皇甫季璇1
(1. 华中农业大学工学院,武汉 430070;2. 农业部长江中下游农业装备重点实验室,武汉 430070)
为了提高基于仿生嗅觉的鱼粉品质检测装置的鉴别能力,该文利用自主设计的仿生嗅觉鱼粉品质检测装置,提取鱼粉样本的响应特征信息,对其传感器阵列进行多特征数据融合优化。依据各传感器对样本的响应曲线,提取传感器特征值(10×6个)构成原始特征矩阵,后对传感器阵列特征值进行归一化处理,以紧凑性作为评价特征选择方法合理性的标准,采用了3种单特征排序方法(MIC、2、-test),3种多特征排序方法(RF、LR、SVM),4种特征递减消除方法(RFRFE、SVMRFE、DTRFE、LRRFE)对不同品质的鱼粉进行分类准确率检验,得到基于随机森林的特征递减消除算法(RFRFE)的紧凑性最好,此时最佳的分类准确率为98.3%,特征数目为33个。优化后的传感器阵列特征发生了明显的变化,传感器阵列由原来的10个变为了8个,去掉了传感器TGS2620和传感器TGS2600,特征值也减少了45%。为了避免选择偏差,采用了10折交叉验证方法,再次得到了RFRFE算法具有更佳的紧凑性。该特征选择方法为利用仿生嗅觉技术鉴别其他动物源性原料样本的特征优化提供了新的方法和参考。
品质控制;无损检测;饲料;鱼粉;归一化;随机森林;特征递减消除
鱼粉(fish meal)是优质的蛋白质饲料,不但蛋白质含量高,而且氨基酸种类齐全,磷、钙含量高,并含有丰富的维生素A、维生素D、维生素B12和未知生长因子,是饲料工业主要的动物源性饲料原料,因此其品质直接影响饲料产品的质量[1-2]。在鱼粉储藏过程中,由于储藏环境和储藏方法等因素影响,鱼粉品质会随之发生变化,这将直接使鱼粉营养价值降低,从而影响动物的消化与免疫能力[3]。因此鱼粉品质的检测是确保饲料产品质量的重要技术环节和手段。目前,鱼粉品质检测主要是采用化学检测、感官评定、光谱分析[4]等传统方法。传统的检测方法存在操作繁琐、耗时、主观性强等缺点,已难以满足现代饲料生产的需要。虽然有学者将电子舌应用在鱼粉品质检测当中,但检测结果并不理想[5]。电子鼻则应用广泛并具有很好的应用效果,沈飞等[6]将该检测系统应用在花生有害霉菌种类识别当中,鉴别正确率高达100%,Sanaeifar等[7]将检测系统应用在香蕉品质检测当中。所以,电子鼻系统作为一种样本品质的检测工具,具有非常大的潜力。
在电子鼻系统中,气体传感器阵列是尤为关键的一部分,同时,传感器之间的交叉响应所产生的冗余信息,对鉴别结果也极为不利[8]。因此,采用该检测系统进行鱼粉样本品质检测鉴别时,传感器特征的提取与表征特征的优化尤为重要。
常用的电子鼻系统优化特征方法有相关性分析[9-10]、聚类分析[11]、因子载荷分析[12]、方差分析[13-14]、Wilks统计量[15-16]等。徐克明等[17]通过基于非搜索性特征优化方法,对用于山核桃陈化时间的仿生嗅觉系统传感器阵列进行优化,优化后的山核桃组内聚集度增大,组间更易区分;殷勇等[18]通过基于多种变量的分析方法对用于食醋种类区分的仿生嗅觉系统传感器特征值进行筛选,获得了最佳的传感器阵列;尹芳缘等[19]利用随机共振非线性信号分析方法对区分霉变燕麦的检测系统进行传感器阵列优化。但这些方法的实用性皆因不同的鉴别目标而存在应用效能上的差异,且这些方法基本上都是单特征变量选择方法,与多特征变量选择方法和特征递减消除特征选择方法相比在应用效能方面有一定的局限性。目前,在基于电子鼻的鱼粉品质检测装置研究中,由于缺少对传感器阵列的优化,导致系统检测数据冗余,从而影响后续建模及检测结果[20]。所以,针对基于电子鼻技术的鱼粉品质检测方面,对传感器阵列进行优化显得尤为重要。
在实际应用中,常用积分值、平均微分值、稳定值用来表征样本信息[21]。本文在常用的特征值基础上增加了能量值、最大梯度值、方差值。在提取了不同储藏时间鱼粉样本的多个特征值构成初始特征矩阵的基础上,以特征子集的紧凑性为评价标准,采用4种递归特征消除(RFE,recursive feature elimination)的算法对传感器特征值进行提取,且将该方法与以卡方、方差分析、最大信息系数为主的单特征变量排序方法(SFR,single feature ranking)和以SVM、RF、Logistic regression为主的多特征变量排序方法(MFR,multi-feature ranking)相比较,为传感器阵列多特征融合的鱼粉品质检测提供一种新的优化方法。
试验采用不同储藏时间等级的鱼粉样本,该样本经过气候箱的高温高湿环境逐渐腐败变质,总共获得了6个不同储藏时间的样本。每种样本平均分成30份,每份质量为80 g,总共进行180次试验。其中,126个样本为训练集用于建立模型,其余54个样本为测试集用于对模型的验证。
采用自行研制的基于仿生嗅觉的的鱼粉品质检测装置,如图1所示。该装置主要由气体采集与传输模块、以树莓派为核心的控制处理存储模块、ARPI600数据采集模块、传感器阵列模块组成。传感器阵列模块为该装置的核心部件,主要由10个气体传感器组成,即传感器1(TGS822)、传感器2(TGS2602)、传感器3(TGS813)、传感器4(TGS2620)、传感器5(MQ136)、传感器6(TGS2600)、传感器7(MQ139)、传感器8(TGS2610)、传感器9(MQ137)、传感器10(TGS2611)。
首先对该检测装置进行预热,再经活性炭过滤之后的纯净空气对装置进行清洗,由于清洗时间对装置的影响较大,即清洗时间若较短,则吸附在传感器上的样品气体无法全部被清洗干净,残留的气体分子会影响下一个样品的测试结果,导致不同品质样品的区分度不大;若清洗时间太长,则会造成能量的浪费以及仪器的损耗,经试验优化得到清洗时间为77 s;然后将鱼粉样本置于250 mL的高硼硅采样瓶中,由微型气泵将样本产生的顶空气体抽至检测装置的气体采样室中,与位于采样室中的气体传感器发生化学反应,进而引起传感器的阻值发生变化。当采样时间较短时,电子鼻传感器响应值未达到最大值且保持稳定,导致检测结果无法全面正确地反映样品的所有气味特征;当采样时间过长时,样品瓶中的气体被抽空后,空气会被继续抽进反应室,此时传感器的响应值逐渐下降,致使检测结果产生误差,经试验优化得到该装置的检测时间为39 s,数据采样间隔为1 s。最后每次采样完之后对装置进行清洗复原,进行下一个样本的测试。通过测试,获得各个传感器对腐败样本的响应曲线如图2所示。从图2可以看出,每个传感器对鱼粉样本都有响应,响应趋势大致相同,且随着传感器表面富集样本气体的不断增大,电导比值呈现先增大后趋于平缓,达到一个相对稳定的状态。所以在后期特征值优化中,每一个传感器的特征值都将作为初始特征值。
注:电导比G/G0即R0/R,也就是处于经活性炭过滤之后的空气当中气体传感器的电阻值与处在样品气体中气体传感器的电阻值之比, 1~10为传感器编号。
1.4.1 预处理
采用Savitzky-Golay进行5点滤波平滑处理[22],用来消除噪声信号的影响,提取积分值(integral value,INV)、能量值(wavelet energy value,WEV)、最大梯度值(maximum gradient value,MGV)、平均微分值(average differential value,ADV)、相对稳定均值(relation steady-state response average value,RSAV)、方差值(variance value,VARV)6种特征作为鱼粉样本特征信息的特征参量,共提取10×6个特征参数,构成60维特征矩阵。由于6种特征值的量纲不同,需对各特征值进行数据归一化处理。各特征编号与传感器编号的对应关系如表1所示。
表1 各特征编号与传感器编号的对应关系
1.4.2 算 法
SFR算法:本文采用卡方(2)、-test(-value)和最大信息系数[23-24](MIC,maximum information coefficient)3种单特征排序(SFR,single feature ranking)方法。由于单特征选择方法并不能直接得出分类结果,必须与分类器结合,因此选择了随机森林分类器对鱼粉样本品质进行分类。其方法为:根据计算各个特征与分类标签之间的卡方、值、最大信息系数,按从大到小的顺序进行排列,并依据特定的分类器,依次去掉值较小的特征,最终得到最佳的特征子集以及最佳分类正确率。
MFR算法:在进行特征选择方法之前,采用网格搜索方法对各分类器下的参数进行优化,并得出最优参数。在最优参数下分别采用RF分类方法[25-26]、SVM分类方法(线性核)[27-28]和Logistic Regression[29]方法建立分类器,并得到各个特征的重要性得分或系数的绝对值,得分越高或系数绝对值越大,则该特征的贡献越大,此为多特征排序方法(MFR),且这些算法都可以用来处理非线性问题。
RFE算法:递归特征消除(RFE,recursive feature elimination)的主要思想是反复构建模型,通过重要性得分或系数绝对值对特征按从大到小排列,删除最差的特征,在剩余的特征上重复上述过程,直到只剩下一个特征或达到用户设定的特征数[30]。因此,这是一种寻找最优特征子集的贪心算法。本文选择了RFRFE、DTRFE、SVMRFE、LRRFE4种基于RFE的特征选择方法,通过得到最佳的分类正确率得到最优子集,各种特征选择方法的选择过程如下:
输入:训练数据集(个样本,个特征),类标签(,1)。
1)初始化当前特征集合now为原始数据集,最优特征集合best为空,最优特征子集分类正确率best为0;
2)由now分别建立RF、DT、SVM、Logistic Regression分类模型,分别得到正确率评估值now以及按特征评分的绝对值降序排列now中的特征;
3)分别删除当前子集now中排名靠后的个特征直至当前特征集合now为空。若当前特征子集now的正确率now大于best:best=now,否则执行2)~3);
输出:最优特征子集best。
1.4.3 评价指标
本文以特征子集的紧凑性[31]作为评价指标。给定一个训练集,如果和是2种不同的特征选择方法,其中1和1分别是由和在上创建的特征子集,2和2分别是和在特征子集1和1上得到的最大识别精度,如果2>2或者2=2且|1|<|1|,则认为特征子集比特征子集更紧凑。如果|22<1%,则采用比值的方法进行评价,若2/12/1,则认为特征子集比特征子集更紧凑。
特征选择的目的是获得一组有较强识别能力且有较少特征的特征子集。从某种意义上来说,一个更紧凑的特征子集可以减少由原始特征中冗余信息和不相关信息产生的学习过程的复杂性,增强学习速度和提高泛化能力。
由于每种特征值的量纲不同,为了消除数据属性间的差别,避免大数值的数据变化掩盖掉小数值的变化,需对数据进行归一化处理[32-34]。归一化处理是一种无量纲处理手段,可减小计算量和训练时间,便于数据处理。本文所采用的归一化方法为正规化方法,该方法将传感器特征数据映射到0~1的范围内,计算公式如式(1)所示。
式中x'为归一化后的特征值;x为原始数据特征值;max为原始特征最大值;min为原始特征最小值。
2.2.1 SFR算法分类准确率检验
以RF作为分类器构建分类模型,采用单特征排序方法,得到了最终状态下不同单特征选择方法准确率,如图3所示。从图3可以看出,采用较少特征值进行鱼粉品质等级分类时,MIC算法具有最佳的分类准确率,随着选择的特征数目的增加,分类准确率呈现先增加后稳定的趋势,当选择超过3种特征数量时,MIC特征选择方法的分类精度达到了90%以上,当选择超过12个特征值时,卡方特征选择方法的分类精度达到90%以上,当选择超过6个特征值时,-test特征选择方法的分类精度达到90%以上。可能是由于刚开始时卡方检验会选择一些小众数据,覆盖率不好,噪音较大,所以效果不如MIC算法,但从38个特征值开始会选择一些较好的特征,整体效果有所上升,因此就最佳的分类精度以及最佳状态下的特征值来说,卡方算法是单特征选择方法中最好的特征选择方法。但单特征选择方法的缺点是忽视了特征之间的相关以及非线性关系,一个理想的特征选择方法需要考虑特征之间的联系,这样才能检测出对分类结果具有冗余信息的特征,因此单特征选择方法并不能得到最优的情况。
图3 不同单特征选择方法准确率比较
2.2.2 MFR算法分类准确率检验
与单特征排序方法相比,多特征排序方法在某种程度上考虑了特征之间的关系。图4为不同的多特征选择方法的准确率。从图4中看出,无论选取多少个特征值,RF算法的分类准确率总是高于SVM和LR算法。可能是由于随机森林算法是一种基于决策树分类器的集成学习算法,且该算法通过在分类的过程中获得各个特征的重要性对特征进行排序,考虑了特征之间的关系,因此具有更强的紧凑性。另外,当选择的特征数目较少时,分类器分类准确率波动较大,这是因为用于分类器分类的信息太少,随着特征数量的增加,用于分类的信息增多,使分类器性能得到了提高,从而分类准确率增加。当特征达到一定数量,分类准确率随特征数量的增加不再升高甚至降低,这是因为随着特征子集中重要性较低的特征的加入,分类器中不相关和冗余信息增多,导致分类器性能降低,分类准确率下降。
图4 不同多特征选择方法准确率比较
2.2.3 RFE算法分类准确率检验
特征递减消除是发生在递归循环过程中的反向选择过程。该算法的优势是不断地消除对分类无关的特征,并保留对分类具有重要性的特征,更容易得到较少的对分类重要的特征RFE算法间接使用了启发式的特征排序标准来确保算法的执行。图5为不同RFE特征选择方法下准确率。从图5中可以看出,RFRFE方法不管选择的特征数目为多少,其分类准确率都大致大于其他特征选择方法。
图5 不同RFE特征选择方法下准确率比较
表2为3种单特征排序方法(MIC、2、-test)、3种多特征排序方法(RF、LR、SVM)、4种特征递减消除方法(RFRFE、SVMRFE、DTRFE、LRRFE)对不同品质等级的鱼粉进行分类的检测结果。若特征选择方法的精度较高,则性能较好,如果2种或2种以上的特征选择方法具有相同的分类精度,则特征数较少的选择方法性能较好。
表2 不同特征选择方法紧凑性比较
从表2可以看出,单特征选择方法中卡方特征排序方法具有最高的分类准确率,达到98.9%,但此方法选择的特征数目为40个。选择特征数目最少的特征选择方法为DTRFE和LR,但分类准确率相对比较低,因此不能作为最佳的特征选择方法。对于多特征选择方法来说,随机森林(RF)特征选择方法具有最高的分类正确率,但特征数目相对较多。与多特征选择方法相比,递归特征消除方法具有较少的特征数目,大大减少了冗余信息。按照本文的评价指标,具有最好紧凑型的分类方法是RFRFE方法。因为RF是集成分类器,可以解决数据的微小变化导致生成不同的树的问题,集成分类器性能在整体上强于决策树(decision tree,DT)分类器。RFRFE方法的分类准确率虽然为98.3%,低于卡方特征选择方法,但它们之间的误差仅为0.6%,此时已经满足采用比值方法进行评价的条件,卡方特征选择方法中比值为2.472 5,而RFRFE算法中比值为2.978 8,高于卡方特征选择方法的比值,所以RFRFE算法具有更佳的紧凑性。
从以上对传感器特征值的特征选择结果来看,RFRFE特征选择方法具有最好的紧凑性。因此,选择RFRFE特征选择算法作为鱼粉传感器阵列特征选择方法,并对传感器阵列特征值重要性排序,排序结果如表3所示。从表3中可以看出,对分类贡献最大的特征值是2和5,对分类贡献最小的特征值是4。
表3 RFRFE方法下传感器阵列特征值重要性排序
为了验证RFRFE算法的紧凑性和避免选择偏差,采用最常用和最典型的10折交叉验证的方法对选择的4种RFE特征选择算法进行准确率检验,并得到4种RFE算法的准确率和特征子集所对应的箱线图,如图6所示,且为了公平比较,所有特征选择方法都采用由10折交叉验证随机产生的训练集和验证集,并记录下每次的最大识别率以及所对应的特征子集。图6a为4种RFE算法的准确率对应的箱线图,从图中可以看出,RFRFE算法的准确率最高,分离程度最小。图6b为4种RFE算法的特征子集对应的箱线图,从图中可以看出,RFRFE算法相比于其他几种算法而言,准确率最高,依据紧凑型评价标准,当特征选择方法具有最高的准确率时,则性能最好,因此RFRFE算法具有更好的紧凑性。故本文选择RFRFE算法作为最佳的特征选择方法是比较合理的。
图6 10折交叉验证下4种RFE算法准确率和特征子集箱线图
表4为特征优化后各传感器的型号、特征值与特征编号的对应关系。从表4中可以看出,优化后的传感器阵列特征发生了明显的变化,传感器阵列由原来的10个变为了8个,去掉了传感器4(TGS2620)和传感器6(TGS2600)这2个传感器,说明这2个传感器对采用RF分类器对鱼粉品质进行分类的贡献率较小。在选择的6种特征值中,只有传感器1(TGS822)、传感器3(TGS813)、传感器5(MQ136)选择了全部的特征值,说明这3个传感器在采用RF分类器对鱼粉品质进行分类中具有重要的作用。通过RFRFE特征选择方法,特征数目由原始的60个特征值缩减为33个,减少了45%的特征数目,大大减少了与鱼粉品质分类不相关和冗余的信息。
表4 特征优化后的各传感器的型号、特征值与特征编号的对应关系
注:传感器型号从上至下依次对应图2中1、2、3、5、7、8、9、10。
Note: Sensor model from top to bottom corresponds to 1, 2, 3, 5, 7, 8, 9, 10 in Fig.2.
利用基于仿生嗅觉的鱼粉品质检测装置,对不同储藏时间的鱼粉样本进行检测,根据获得的响应曲线,提取6种特征值组成初始特征矩阵,并对响应特征进行正规化处理。以紧凑性为评价指标,通过单特征排序方法(SFR)、多特征排序方法(MFR)、特征递减消除方法(RFE)对特征进行选择,得到以下结论:
1)通过单特征排序方法得到,以随机森林作为分类器,采用卡方特征选择方法具有更好的分类准确率。因为该方法更易剔除冗余信息,选取对分类结果更有效的特征,采用此方法进行特征选择的最佳分类正确率为98.9%,此时的特征子集为40个。
2)通过多特征排序方法得到,随机森林特征选择方法具有最佳的分类准确率,且最佳分类准确率为98.3%,此时选择的特征值为38个。
3)通过RFE算法进行特征排序得到采用RFRFE方法特征紧凑性更强,并得出了对分类贡献最大的特征值是传感器2(TGS2602)的积分值和传感器5(MQ136)的相对稳定均值,对分类贡献最小的特征值是传感器4(TGS2620)的相对稳定均值。此方法下的最佳分类准确率为98.3%,特征个数为33个。因此本文采用基于随机森林的递归特征消减方法对检测鱼粉品质的传感器阵列特征值进行提取,特征个数由原始的60个缩减为33个,且去掉了传感器4和传感器6,大大减少了冗余信息和不相关信息,并采用10折交叉验证得到RFRFE特征选择方法具有更佳的紧凑性。该特征选择方法为利用仿生嗅觉技术鉴别其他动物源性原料样本的特征优化提供了新的方法和参考。
[1] 王铵静. 不同储存方法对鱼粉的影响及养殖效果评价[D]. 湛江:广东海洋大学,2017. Wang Anjing. Effects of Different Storage Methods on Fish Meal and the Assessment of Culture Efficiency[D]. Zhanjiang: Guangdong Ocean University, 2017. (in Chinese with English abstract)
[2] 陈星,吴大伟,周岩民. 肉粉替代鱼粉对肉鸡生产性能、血清生化指标和抗氧化性能的影响[J]. 粮食与饲料工业,2012(10):53-56. Chen Xing, Wu Dawei, Zhou Yanmin. Influence of meat meal instead of fish meal on growth performance, serum biochemical indices and antioxidant function of broilers[J]. Cereal &Feed Industry, 2012(10): 53-56. (in Chinese with English abstract)
[3] 刘辉,牛智有. 基于电子鼻的鱼粉中挥发性盐基氮检测模型比较[J]. 农业工程学报,2010,26(4):322-326. Liu Hui, Niu Zhiyou. Comparison of total volatile basic nitrogen detection models in fishmeal based on electronic nose[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2010, 26(4): 322-326. (in Chinese with English abstract)
[4] 曹小华,蔡懋成,余维三,等. 近红外光谱分析技术在鱼粉新鲜度检测中的应用研究[J]. 广东饲料,2018,27(3): 42-45. Cao Xiaohua, Cai Maocheng, Yu Weisan, et al. Near infrared spectroscopy analysis technology in study on application of fish meal freshness detection[J]. Guangdong Feed, 2018, 27(3): 42-45. (in Chinese with English abstract)
[5] 王莉,牛群峰,赵红月,等. 基于电子舌的不同储藏期红鱼粉区分与新鲜度评价[J]. 饲料工业,2015,36(3):52-55. Wang Li, Niu Qunfeng, Zhao Hongyue, et al. Discrimination and freshness evaluation of fishmeal based on electronic tongue[J]. Feed Industry, 2015, 36(3): 52-55. (in Chinese with English abstract)
[6] 沈飞,刘鹏,蒋雪松,等. 基于电子鼻的花生有害霉菌种类识别及侵染程度定量检测[J]. 农业工程学报,2016,32(24):297-302. Shen Fei, Liu Peng, Jiang Xuesong, et al. Recognition of harmful fungal species and quantitative detection of fungal contamination in peanuts based on electronic nose technology[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(24): 297-302. (in Chinese with English abstract)
[7] Sanaeifar A, Mohtasebi S S, Ghasemi-Varnamkhasti M, et al. Application of MOS based electronic nose for the prediction of banana quality properties[J]. Measurement, 2016, 82: 105-114
[8] 张红梅,邹光宇,王淼森,等. 基于传感器阵列多特征优化融合的茶叶品质检测研究[J]. 传感技术学报,2018,31(3):491-496. Zhang Hongmei, Zou Guangyu, Wang Miaosen, et al. Detection method for tea quality using sensor array coupled with multi-feature optimization fusion[J]. Chinese Journal of Sensors and Actuators, 2018, 31(3): 491-496. (in Chinese with English abstract)
[9] 刘晶晶,孙永海,丁健峰,等. 玉米汁辨识中的传感器阵列优化[J]. 吉林大学学报:工学版,2013,43(2):538-543. Liu Jingjing, Sun Yonghai, Ding Jianfeng, et al. Optimization of sensor array for identification of corn juice[J]. Journal of Jilin University: Engineering and Technology Edition, 2013, 43(2): 538-543. (in Chinese with English abstract)
[10] 周显青,暴占彪,崔丽静,等. 霉变玉米电子鼻识别及其传感器阵列优化[J]. 河南工业大学学报:自然科学版,2011,32(4):16-20. Zhou Xianqing, Bao Zhanbiao, Cui Lina, et al. Recognition of moldy corn using electronic nose and optimization of sensor array[J]. Journal of Henan University of Technology: Natural Science Edition, 2011, 32(4): 16-20. (in Chinese with English abstract)
[11] 傅润泽,沈建,王锡昌,等. 基于神经网络及电子鼻的虾夷扇贝鲜活品质评价及传感器的筛选[J]. 农业工程学报,2016,32(6):268-275. Fu Runze, Shen Jian, Wang Xichang, et al. Quality evaluation of live Yesso scallop and sensor selection based on artificial neural network and electronic nose[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(6): 268-275. (in Chinese with English abstract)
[12] 王虎玄,胡仲秋,龙芳羽,等. 苹果汁中鲁氏接合酵母早期污染的电子鼻识别研究[J]. 农业机械学报,2016,47(1):209-214. Wang Huxuan, Hu Zhongqiu, Long Fangyu, et al. Research on identification of spoilage in apple juice caused byat early stage using electronic nose[J]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(1): 209-214. (in Chinese with English abstract)
[13] Wei Z, Wang J, Jin W. Evaluation of varieties of set yogurts and their physical properties using a voltammetric electronic tongue based on various potential waveforms[J]. Sensors and Actuators B: Chemical, 2013, 177: 684-694.
[14] Hui G, Jin J, Deng S, et al. Winter jujube (Mill.) quality forecasting method based on electronic nose[J]. Food Chemistry, 2015, 170: 484-491.
[15] Bekker A, Roux J J J, Arashi M. Exact nonnull distribution of Wilks’ statistic: The ratio and product of independent components[J]. Journal of Multivariate Analysis, 2010, 102(3): 619-628.
[16] Yin Y, Yu H, Chu B, et al. A sensor array optimization method of electronic nose based on elimination transform of Wilks statistic for discrimination of three kinds of vinegars[J]. Journal of Food Engineering, 2014, 127: 43-48.
[17] 徐克明,王俊,邓凡霏,等. 用于山核桃陈化时间检测的电子鼻传感器阵列优化[J]. 农业工程学报,2017,33(3):281-287. Xu Keming, Wang Jun, Deng Fanfei, et al. Optimization of sensor array of electronic nose for aging time detection of pecan[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(3): 281-287. (in Chinese with English abstract)
[18] 殷勇,赵玉珍,于慧春. 基于多种变量分析方法鉴别食醋种类电子鼻信号特征筛选[J]. 农业工程学报,2018,34(15):290-297. Yin Yong, Zhao Yuzhen, Yu Huichun. Feature selection of electronic nose signal for vinegar discrimination based on multivariable analysis[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(15): 290-297. (in Chinese with English abstract)
[19] 尹芳缘,黄洁,王敏敏,等. 用电子鼻区分霉变燕麦及其传感器阵列优化[J]. 农业工程学报,2013,29(20):263-269. Yin Fangyuan, Huang Jie, Wang Minmin, et al. Discrimination of mildewed oats using electronic nose and optimization of its sensor array[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(20): 263-269. (in Chinese with English abstract)
[20] 张婷婷,孙群,杨磊,等. 基于电子鼻传感器阵列优化的甜玉米种子活力检测[J]. 农业工程学报,2017,33(21):275-281. Zhang Tingting, Sun Qun, Yang Lei, et al. Vigor detection of sweet corn seeds by optimal sensor array based on electronic nose[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(21): 275-281. (in Chinese with English abstract)
[21] 程绍明,王俊,王永维,等. 基于电子鼻技术的不同特征参数对番茄苗早疫病病害区分效果影响的研究[J]. 传感技术学报,2014,27(1):1-5. Cheng Shaoming, Wang Jun, Wang Yongwei, et al. Research on distinguishing tomato seedling infected with early blight disease using different characteristic parameters by electronic nose[J]. Chinese Journal of Sensors and Actuators, 2014, 27(1): 1-5. (in Chinese with English abstract)
[22] 郝银凤. 霉变玉米电子鼻检测中信号降噪及特征提取方法研究[D]. 洛阳:河南科技大学,2017. Hao Yinfeng. Study on Signal Denoising and Feature Extraction of Electronic Nose to Moldy Maize[D]. Luoyang: Henan University of Science and Technology, 2017. (in Chinese with English abstract)
[23] 张俐,袁玉宇,王枞. 基于最大相关信息系数的FCBF特征选择算法[J]. 北京邮电大学学报,2018,41(4):86-90. Zhang Li, Yuan Yuyu, Wang Cong. FCBF feature selection algorithm based on maximum information coefficient[J]. Journal of Beijing University of Posts and Telecommunications, 2018, 41(4): 86-90. (in Chinese with English abstract)
[24] Bennasar M, Hicks Y, Setchi R. Feature selection using joint mutual information maximization[J]. Expert Systems With Applications, 2015, 42(22): 8520-8532.
[25] 陈元鹏,罗明,彭军还,等. 基于网格搜索随机森林算法的工矿复垦区土地利用分类[J]. 农业工程学报,2017,33(14):250-257. Chen Yuanpeng, Luo Ming, Peng Junhuan, et al. Classification of land use in industrial and mining reclamation area based grid-search and random forest classifier[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(14): 250-257. (in Chinese with English abstract)
[26] 杜学惠,孟春,刘美爽. 基于单个特征分类准确率的特征选择研究[J/OL]. 南京林业大学学报:自然科学版,2019,43:1-10. Du Xuehui, Meng Chun, Liu Meishuang. Remote sensing classification research of feature selection based on single feature classification accuracy[J/OL]. Journal of Nanjing Forestry University: Natural Sciences Edition, 2019, 43: 1-10. (in Chinese with English abstract)
[27] 叶小泉,吴云峰. 基于支持向量机递归特征消除和特征聚类的致癌基因选择方法[J]. 厦门大学学报:自然科学版,2018,57(5):702-707. Ye Xiaoquan, Wu Yuanfeng. Cancer gene selection algorithm based on support vector machine recursive feature elimation and feature clustering[J]. Journal of Xiamen University: Natural Science Edition, 2018, 57(5): 702-707. (in Chinese with English abstract)
[28] Guyon I, Weston J, Barnhill S, et al. Gene selection for cancer classification using support vector machines[J]. Machine Learning, 2002, 46 (3): 389-422.
[29] 蔡骋,李永超,马惠玲,等. 基于介电特征选择的苹果内部品质无损分级[J]. 农业工程学报,2013,29(21):279-287. Cai Cheng, Li Yongchao, Ma Huiling, et al. Nondestructive classification of internal quality of apple based on dielectric feature selection[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(21): 279-287. (in Chinese with English abstract)
[30] 冯建奎,金晶,王蓓,等. 基于SVM_RFE的多任务导联选择算法建模[J]. 系统仿真学报,2018,30(12):4506-4512. Feng Jiankui, Jin Jing, Wang Bei, et al. Multi-tasks Channel Selection Algorithmic Modeling Based on SVM-RFE[J]. Journal of System Simulation, 2018, 30 (12): 4506-4512. (in Chinese with English abstract)
[31] You W, Yang Z, Ji G. PLS-based recursive feature elimination for high-dimensional smallsample[J]. Knowledge-Based Systems, 2014, 55: 15-28.
[32] 潘磊庆,刘明,詹歌,等. 数据预处理在电子鼻评价鸡蛋新鲜度中的应用研究[J]. 上海理工大学学报,2010,32(6):584-588. Pan Leiqing, Liu Ming, Zhan Ge, et al. Data processing for egg freshness evaluation by use of electronic nose[J]. Journal of University of Shanghai for Science and Technology, 2010, 32(6): 584-588. (in Chinese with English abstract)
[33] 闫嘉. 基于电子鼻技术的人体伤口感染检测系统构建及算法研究[D]. 重庆:重庆大学,2012. Yan Jia. System Construction and Algorithm Research in Human Wound Infection Detection Based on Electronic Nose Technology[D]. Chongqing: Chongqing University, 2012. (in Chinese with English abstract)
[34] Radi, Ciptohadijoyo S, Litananda W S, et al. Electronic nose based on partition column integrated with gas sensor for fruit identification and classification[J]. Computers and Electronics in Agriculture, 2016, 121: 429-435.
Multi-feature data fusion optimization of sensor array of electronic nose for fish meal quality detection
Li Pei1, Niu Zhiyou1,2※, Tan Hequn1,2, Zhang Weijian1, Huangfu Jixuan1
(1.,,430070,; 2.,,430070,)
In order to improve the identification ability of fish meal quality detection device based on bionic olfaction, in this paper, we used the developed fish meal quality detection device based on bionic olfaction to extract response characteristic information of fish meal samples, and performed multi-characteristic data fusion optimization on its sensor array. Firstly, according to the response curve of each sensor to the sample, the sensor features (10×6) were extracted to form the original feature matrix, then the normalization method was adopted to normalize the sensor features, and after that, compactness was taken as the standard to evaluate the rationality of the feature selection methods. Three single feature ranking methods (MIC,2、-test), three multi-feature ranking methods (RF, LR, SVM) and four recursive feature elimination methods (RFRFE, SVMRFE, DTRFE, LRRFE) were selected to carry out classification accuracy tests on fish meal with different quality. The experimental results showed that in the single feature ranking method, the MIC method had the best classification accuracy of 98.3 %, the number of features was 55, the Chi - square method had the best classification accuracy of 98.9 %, the number of features was 40, the-test method had the best classification accuracy of 98.3 %, and the number of features was 50, thus the Chi - square feature selection method was more compact than the other two single feature selection methods. In the multi-feature ranking methods, the best classification accuracy rate of RF method was 98.3 %, the number of features was 38, the best classification accuracy rate of LR method was 83.3 %, the number of features was 24, the best classification accuracy rate of SVM method was 92.2%, and the number of features was 33. Therefore, RF feature selection method was more compact than the other two multi-feature selection methods. In recursive feature elimination, the best classification accuracy rate of RFRFE method was 98.3 %, the number of features was 33, the best classification accuracy rate of SVMRFE method was 92.2%, the number of features was 34, the best classification accuracy rate of DTRFE method was 95.6 %, the number of features was 22, the best classification accuracy rate of LRRFE method was 83.9 %, and the number of features was 37. From this, it could be seen that DTRFE and LR feature selection methods had the least number of features, but the classification accuracy rate was low. However, the RFRFE feature selection method was relatively more compact. The random forest-based recursive feature elimination algorithm (RFRFE) was adopted to select the original features, and the best classification accuracy was 98.3%, at this time, the number of features was 33. The idea of this feature selection method was to repeatedly build the model, then select the worst features, put the selected features aside, and then repeat the process on the remaining features until all features had been traversed. The order in which features were eliminated in this process was the order of features. Therefore, this was a greedy algorithm to find the optimal feature subset, while the RFRFE method selected the random forest (RF) as the base model, and obtained the optimal subset by obtaining the best classification accuracy rate. The number of features optimized by RFRFE feature selection method was 33, which reduced the number of features by 45% and greatly reduced irrelevant and redundant information for fish meal quality classification. The characteristics of the optimized sensor array had changed obviously. The sensor array had changed from the original 10 to 8 and sensor 4 (TGS2620) and sensor 6 (TGS2600) had been removed. This showed that these sensors had little contribution to the classification of fish meal quality using RF classifier. Of the six selected features values, only sensor 1 (TGS822), sensor 3 (TGS813) and sensor 5 (MQ136) had selected all the characteristic values, which showed that these sensors played an important role in the classification of fish meal quality by using RF classifier. By using 10 fold cross validation, the RFRFE algorithm was verified to be more compact again. The feature selection method provided a new method and reference for feature optimization of identifying other animal-derived raw material samples by bionic olfaction technology.
quality control; nondestructive detection; feed; fish meal; normalization; RF; RFE
2019-01-24
2019-05-24
中央高校基本科研业务费专项资金资助项目(2662018PY081)
李 培,博士生,主要从事农产品加工技术方面研究。Email:huanonglipei8@163.com
牛智有,博士,教授,主要从事农产品加工技术与装备研究。Email:nzhy@mail.hzau.edu.cn
10.11975/j.issn.1002-6819.2019.12.038
S222.1
A
1002-6819(2019)-12-0313-08
李 培,牛智有,谭鹤群,张伟健,皇甫季璇. 鱼粉品质检测电子鼻传感器阵列的多特征数据融合优化[J]. 农业工程学报,2019,35(12):313-320. doi:10.11975/j.issn.1002-6819.2019.12.038 http://www.tcsae.org
Li Pei, Niu Zhiyou, Tan Hequn, Zhang Weijian, Huangfu Jixuan. Multi-feature data fusion optimization of sensor array of electronic nose for fish meal quality detection[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(12): 313-320. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.12.038 http://www.tcsae.org