丁煜函,葛东营,荆 磊,Muhammad SHAHZAD,江 辉
(1.江苏大学高效能电机系统与智能控制研究院,江苏 镇江 212013;2.江苏大学电气信息工程学院,江苏 镇江 212013)
眉茶[1]是一种绿茶类珍品,其外形匀整、条索紧结、香高味浓。由于原料选用和制作工艺水平的不同,成品茶叶的品质存在很大差异,价格也存在很大差异。目前茶叶质量检测以及等级划分的界限比较模糊,不良商家常以次充好,欺骗消费者,严重扰乱了消费市场的秩序,对我国的茶叶生产和销售造成了极为不利的影响。鉴于此,研究一种科学、简单、快速的鉴别茶叶等级的方法具有十分重要的意义。
目前有关茶叶检测以传统方法为主,即感官评定法[2]和理化指标法[3]。感官评定法需要对评审人员进行专门培训,成本代价高且评审结果易受到主观因素和外在环境条件的影响。而理化指标法依赖于化学试剂且需要耗费大量的实验材料,虽然结果精度较高,但操作复杂、成本高、检测速度慢。
随着科技不断发展,人们开始应用各种仪器分析方法对茶叶进行等级分类,例如电子鼻技术、近红外光谱技术等[4-10]。电子鼻技术即人工嗅觉分析技术,能模仿人的鼻子进行气味识别和分析检测[11]。茶叶中含有丰富的挥发性化合物,这些挥发性物质由类胡萝卜素、脂类、糖苷等前体产生,也有部分来自于美拉德反应[12]。这些挥发性物质的种类和含量受到茶叶本身特性和加工过程的影响,因此通过人工嗅觉分析技术检测这些挥发性物质能够区分不同类型、不同等级的茶叶。例如:戴悦雯等[13]运用电子鼻传感器采集的数据信息,精确地分类了4种不同等级的西湖龙井茶叶;薛大为等[14]提取电子鼻特征信号,通过建立神经网络模型正确识别了不同等级的黄山毛峰;Chen Quansheng等[15]运用电子鼻技术对绿茶气味信息进行采集和特征提取,建立了人工神经网络和支持向量机(support vector machine,SVM)的绿茶等级分类模型。
由于电子鼻仪器价格昂贵、操作方法复杂,且只对一些特定的挥发性物质有较好的敏感性,而品种相同等级不同的绿茶之间挥发性物质差异较小,用传统的电子鼻方法并不能很好地实现快速正确的茶叶等级判别,需要探讨应用嗅觉可视化技术[16-19]对眉茶等级进行分类。
嗅觉可视化技术的基本原理是将化学显色试剂(色敏材料)和待测物质的挥发性气体进行反应,利用反应前后的颜色差值对待测物质进行定性和定量分析。传统电子鼻技术仅依靠较弱的范德华力捕获气味,而嗅觉可视化技术又引入了金属键、极性键等较强的相互作用力,使其在检测气味时更加灵敏、稳定[16]。嗅觉可视化技术作为近年来发展迅速的检测技术之一,已在农产品和食品检测上广泛应用。如:邹小波等[20]应用嗅觉可视化技术成功对4种不同食醋的气味进行分类;邹小波等[21]自制嗅觉可视化传感器,运用嗅觉可视化技术对不同酒精度的白酒进行了分类。也有学者把嗅觉可视化技术和主成分分析(principal component analysis,PCA)相结合,实现了半发酵乌龙茶的等级分类[22],证实了利用嗅觉可视化技术对茶叶进行等级分类的可行性。
本研究首先通过预实验筛选出了对眉茶茶汤挥发气体较为敏感的色敏材料,并用这些材料制备色敏型的嗅觉可视化传感器阵列,构建嗅觉可视化系统;然后利用传感器阵列反应前后的颜色差值,生成特征图像,获取实验数据;最后引入群体智能优化算法[23-24],包括萤火虫算法[25]、灰狼优化算法[26]、布谷鸟算法[27-28],建立优化的SVM分类模型,并比较不同群体智能优化算法对眉茶分类的不同效果。
6 个等级的眉茶:珍眉绿茶41022AAAAAA(L1)、珍眉绿茶41022AAA(L2)、眉茶41022(L3)、眉茶4011(L4)、眉茶9371(L5)和眉茶9369(L6)黄山市松萝有机茶叶开发有限公司。称取6 个不同等级的眉茶茶叶,每个样本的质量为(3±0.005)g,每个等级的茶叶取15 个样本,共计90 个样本。
卟啉指示剂 美国Sigma-Aldrich公司。
AUY120电子分析天平(精度0.000 1 g) 日本岛津公司;SB-3200DT超声波清洗机 宁波新芝生物科技有限公司;LIDE220扫描仪 日本佳能株式会社。
1.3.1 嗅觉可视化传感器制备
预实验中,首先去掉晕染和扩散效果不好的卟啉指示剂,然后将晕染和扩散较好的卟啉指示剂印染于反相硅胶板上,并与不同等级的眉茶反应后获得特征图像,筛选出特征图像显色效果比较明显的12种卟啉指示剂,如图1所示。
图1 色敏材料的显色效果Fig. 1 Chromogenic effect of color-sensitive materials
用筛选出的12种卟啉指示剂制备嗅觉可视化传感器阵列,如表1所示。图1中序号与表1中色敏材料的编号一一对应。
表1 制备嗅觉可视化传感器的色敏材料Table 1 Color-sensitive materials used for preparation of olfactory visualization sensor
制备嗅觉可视化传感器的具体过程如下:取12种卟啉指示剂各8 mg分别溶于二氯甲烷溶剂中,定容使每种溶液的质量浓度都为2 mg/mL。将配好的溶液密封于试剂瓶并置于超声波清洗机中180 W超声振荡30 min,使卟啉指示剂充分溶解。利用点样毛细管在4 cm×3 cm的反相硅胶板上印染上配制好的12种卟啉指示剂溶液,制作4×3嗅觉可视化传感器阵列。将制备的传感器阵列置于通风柜中干燥15 min,密封存放于自封袋中备用。
1.3.2 数据采集
将制备的嗅觉可视化传感器阵列与眉茶茶汤的挥发性气体反应,通过传感器阵列反应前后的颜色差值获取特征图像,如图2所示。
图2 嗅觉可视化数据的采集过程示意图Fig. 2 Schematic diagram of data acquisition of olfactory visualization
数据采集的过程如下:将制备的4×3嗅觉可视化传感器阵列用扫描仪扫描得到反应前的图像。将称好的茶叶样本倒入250 mL锥形瓶中,取烧开的沸水150 mL倒入锥形瓶中,塞好瓶塞,泡制5 min。将茶渣通过滤纸和漏斗过滤,用移液枪吸取茶汤少许,移入直径60 mm、高度15 mm的圆形石英皿中。将扫描仪扫描后的传感器阵列用胶带固定在保鲜膜上,用保鲜膜将石英皿密封好(保证传感器阵列正面朝向茶汤,且不与茶汤接触),置于20~25 ℃环境下反应20 min。反应完成后,从保鲜膜中取出传感器阵列,再次用扫描仪扫描,获取反应后的图像。取传感器阵列各色敏点中心周围半径为10 个像素的红(R)、绿(G)、蓝(B)颜色分量的平均值作为颜色均值,将传感器阵列上反应前后的颜色均值作差得到各色敏点的颜色分量差值特征(ΔR、ΔG、ΔB),生成特征图像。
1.3.3 数据预处理
嗅觉可视化技术属于间接检测技术,且人工印染卟啉指示剂存在试剂用量的差异,因此采集到的嗅觉数据难免会存在误差信息,这些误差信息会给后续的建模带来一定影响。为尽可能消除这些影响,采取Savitzky-Golay(SG)算法对数据进行平滑滤波[29]。SG平滑算法能够过滤数据中存在的数据误差,增加平滑性。接着用Min-Max Normalization函数[30]对数据进行归一化处理。
每个样本的数据都包含36 个颜色差值分量,维度过大且存在一定的信息冗余,因此采用PCA对数据进行降维,可以有效消除信息冗余并保留原始变量的绝大部分有效信息,将样本从36 个特征维度映射到k维(k是构造出来的PC且k小于36)。
1.3.4 眉茶等级分类模型建立和优化
采用SVM[31-34]建立眉茶等级分类模型,通过寻找一个超平面,根据样本的正类和负类进行分割。在样本空间中,分割超平面可通过下式描述:
式中:ω为超平面的法向量,b为截距。
SVM基于结构风险最小的原理,将求解的问题转化为一个线性约束的凸二次规划问题,即以训练误差作为优化问题的约束条件,以置信范围最小化为最优目标,如式(2)~(4)所示,其解具有唯一性和全局最优性。
式(2)~(4)中:xi为输入样本;yi为输入样本;n为样本总数;ζi为松弛因子;K(xi,x)为SVM模型的核函数;c为惩罚因子;g为核函数参数。
为实现对眉茶的多等级分类,通过组合多个二分类器实现对多分类器的构造。采用“一对其他”的方法,为每个眉茶等级构造一个SVM,每个SVM负责区分本类数据和非本类数据:第k个SVM在第k类和其余5 类之间构造一个超平面,最后结果输出由离超平面y距离最大的支持向量决定。
采用五折交叉验证对模型进行测试,将预处理的数据平均分成5 组,每组样本都将作为测试集(验证集)进行1 次分类正确率测试,而另外4 组样本作为训练集构造和优化模型,如此循环5 次,保证每个样本都会被验证1 次。测试集和训练集的正确率均由5 次验证和5 次训练的平均值决定,以训练分类正确率作为适应度函数,通过优化算法搜索最优的c和g,并以最佳参数建立优化的SVM模型。采用萤火虫算法[25]、灰狼优化算法[26]和布谷鸟算法[27]作为优化算法,分别记为FA-SVM、GWO-SVM和CS-SVM。
1.3.4.1 萤火虫优化算法
萤火虫算法的主要思想是:在高维空间中把萤火虫当做一个点并作为一个可行解,萤火虫的亮度越高代表其在空间内的适应度值越高,也越容易吸引亮度低的萤火虫。因此,萤火虫算法每进行1 次迭代,每个萤火虫都会通过搜寻亮度更高的萤火虫更新自己的位置,通过此过程寻找最优解。
本研究将c、g参数作为萤火虫的坐标(即一个可行的SVM模型参数),以训练分类正确率表示萤火虫的亮度(即适应度值),分类正确率高的“萤火虫”表示更可能靠近最优点,更容易吸引其他分类正确率低的“萤火虫”靠近,而最高亮度的“萤火虫”通过随机移动跳出局部最优点,搜索全局最优点。将萤火虫算法的种群规模设置为100,吸收强度系数为0.5,最大吸收度为1.0,最大迭代次数为200。
1.3.4.2 灰狼优化算法
灰狼算法是一种通过模拟灰狼群体捕食行为而提出的仿生算法。将灰狼种群分成4种社会等级,前3种等级分别是α狼、β狼和δ狼,它们分别代表问题的最优解、次优解和第3优解,处于最低级的ω狼则作为候选解。
本研究以c、g参数表示狼群捕猎时各个体的位置,通过狼群的信息交互和移动找到全局最优解,完成整个寻优过程。灰狼算法中,定义了α狼、β狼和δ狼,相当于有3 个候选的优化解吸引其他个体按照权重向它们靠近,加快了寻优的速度和效率,因此有望获得更好的优化效果。将灰狼优化算法的种群规模设置为100,最大迭代次数设为200。
1.3.4.3 布谷鸟优化算法
布谷鸟算法是受布谷鸟寄生孵化的行为启发而提出的一种群智能优化算法。该算法引入随机性较强的莱维飞行特征实现路线搜索,有良好的寻优能力,因此可以迅速获取问题的最优解。同时,布谷鸟算法引入了鸟蛋被发现的概率,不适合的鸟巢适应度低,寄生鸟蛋容易被寄主鸟发现,被发现后必须搜索新的鸟巢,以提高适应度。布谷鸟算法通过这样的方式,丢弃劣质解,使种群能更有效地向最优解收敛。
本研究将布谷鸟算法的种群数量设为50,被寄主鸟发现布谷鸟蛋的概率设为0.7,最大迭代次数设为200。
眉茶中6 个不同等级样本的嗅觉可视化传感器差值特征图像如图3所示。可以看出传感器阵列对不同等级眉茶样本的响应不同,并且仅从肉眼就能看出每个传感器阵列的差值特征图像的差异。因此,通过研究自制的嗅觉可视化传感器阵列实现眉茶不同等级的分类在理论上可行。
图3 6种不同等级眉茶的特征图像Fig. 3 Characteristic images of six different grades of Mee tea
从图3还可看出,传感器阵列某些位置对不同等级眉茶样本的显色差异不是很明显,这表明这些数据对于区分不同等级眉茶的贡献不大,属于无关信息。此外,可视化传感器阵列具有交叉敏感性,即一种挥发性物质会让多个敏感单元产生响应,所以嗅觉可视化特征变量间存在一定的相关性,这种相关性会造成信息的冗余[35]。因此,需要对传感器阵列的特征数据进行优化,以消除无关和冗余信息的影响。
嗅觉可视化传感器阵列共获得12 个色敏点,R、G、B数据共36 维。通过PCA提取36 维数据的前2、3 个PC作图。如图4所示,仅用2 个或3 个PC很难将不同等级的茶叶分开,且无法通过线性分类实现6 个等级眉茶的区分。但通过引入第3个PC,使原本无法通过前2 个PC进行区分的L3眉茶与其他等级的眉茶明显区分开来。因此,通过引入更多的PC,并在高维空间采用SVM模型进行非线性分割的方法有可能实现6 个等级眉茶的正确分类。
图4 前2、3 个PC的PCA得分图Fig. 4 Score plots of PCA with first two or first three PCs
交叉验证法可以在数据集较少时,充分利用这些样本找到合适的模型参数,从而得到更加稳定可靠的模型。基于经验参数的基本SVM模型对眉茶的等级分类结果如图5所示,基本SVM模型最高能获得80%的分类正确率,此时PC个数为12 个;随着PC个数的增加,分类正确率并没有呈现增加趋势,特别是PC个数超过26后,分类正确率表现出快速下降趋势。这说明非线性的SVM分类模型对高维空间进行合适的非线性分割较为困难,也更容易出现过拟合现象(训练集分类正确率达到100%,而测试集分类正确率较差),造成SVM模型的分类正确率随着输入维数增加而迅速变差。因此,使用SVM模型时,采用PCA对输入数据进行处理和降维非常必要。
图5 SVM模型测试集(a)和训练集(b)等级分类结果Fig. 5 Results of tea grade classification by SVM model for test (a) and training sets (b)
作为对比,图6给出了采用传统的偏最小二乘法判别分析(partial least squares discriminant analysis,PLS-DA)线性分类模型得到的分类结果,PC个数为11时,PLS-DA能获得最高83.3%的分类正确率,此结果优于基本SVM分类模型。需要说明的是,PLS-DA没有可调的模型参数,其分类效果仅由训练样本决定,缺乏灵活性。而SVM模型的分类效果由g(决定分类超平面的形式)、c(决定模型对错误样本的容忍度)以及训练样本共同决定,通过c、g参数的选择,能较好适用于不同的研究对象。因此,c、g的选择非常关键,但根据经验得到的c、g参数往往很难适用于所有对象,所以需要通过优化算法寻找适合特定对象的最优参数。
图6 PLS-DA模型测试集(a)和训练集(b)等级分类结果Fig. 6 Results of tea grade classification of PLS-DA model on test (a) and training sets (b)
由于SVM模型在输入维数超过20 维(尤其是26 维)后容易出现过拟合现象,导致分类正确率显著降低而失去实用价值,本研究仅给出3种优化模型4~26 维的分类结果。
3种不同优化算法优化后的SVM分类模型对眉茶的等级分类结果如图7所示,FA-SVM模型最多能够得到85.6%的分类正确率,但需要的PC个数为20 个,表明该FA算法对于嗅觉可视化数据不易找到合适的SVM优化参数,优化带来的精度提高也比较有限;GWO-SVM模型最多能获得87.8%的分类正确率,所需的PC个数减少为11 个;CS-SVM不仅能获得最高的93.3%分类正确率,且所需的PC个数也最少,表明CS-SVM模型对于嗅觉可视化数据能够用较少的PC个数找到较合适的分类超平面,实现对眉茶等级较为正确的分类。
图7 FA-SVM(a)、GWO-SVM(b)、CS-SVM(c)优化模型的等级分类结果Fig. 7 Results of tea grade classification by FA-SVM (a), GWO-SWM (b) or CS-SVM (c) optimized models
PC个数为6时CS-SVM模型得到的等级分类结果如图8所示,CS-SVM模型的分类错误主要发生在L1和L2之间,有L1的眉茶样本被误分类为L2,有两个L2的眉茶样本被误分类为L1。这是因为L1和L2的茶叶均为珍眉绿茶,在特性上较为接近。从图4也可看出,L1和L2的眉茶在二维和三维得分空间中的位置较近,没有很好地分开,结合图8可知,即使用到更多的PC也没有完全实现这两个等级茶叶的正确分类。
特别需要注意的是,有一个L1的样本被误分类为L6,有一个L6的样本被误分类为L1。而L1和L6的眉茶在形状、口感、成分上有很大不同,通过肉眼和品尝可以较容易分辨其不同,而通过嗅觉可视化技术却未能将其正确分类,这说明嗅觉可视化技术仅通过茶汤挥发的气体判别眉茶的等级仍存在不足,需要引入其他技术(例如近红外光谱技术、机器视觉技术等)提供更充分的信息,并通过多传感器的信息融合,以实现茶叶等级更准确的分类。
图8 PC个数为6时CS-SVM模型的等级分类结果Fig. 8 Results of tea grade classification by CS optimized SVM model with six principal components
自制了一种包含12种色敏材料的嗅觉可视化传感器阵列,对不同等级的眉茶茶叶进行了分类,并通过引入3种群体智能算法对SVM分类模型的参数c和g进行优化。研究结果表明,基于嗅觉可视化技术制备的传感器阵列可以实现对不同等级眉茶的分类;通过引入群体智能优化算法寻找最优的模型参数,可显著提高分类模型的性能;对于本研究使用的眉茶,CS-SVM模型能获得最佳的等级分类效果,其分类正确率为93.3%。