多茶类CNN 图像识别的数据增强优化及类激活映射量化评价

2023-07-03 07:02章展熠张宝荃王周立杨垚范冬梅何卫中马军辉林杰

茶叶科学 2023年3期

章展熠，张宝荃，王周立，杨垚，范冬梅，何卫中，马军辉，林杰*

1. 浙江农林大学茶学与茶文化学院，浙江临安 311300；2. 丽水市农林科学研究院，浙江丽水 323000；3. 丽水市经济作物总站，浙江丽水 323000

茶叶作为世界三大无酒精饮料之一，在我国有着悠久的历史，根据发酵程度不同分为绿茶、黄茶、白茶、乌龙茶、红茶、黑茶六大基本茶类。由于产地、茶树品种及制作工艺各异，茶叶又细分为多个种类。在过去的研究中，茶叶种类识别通常采用人工感官审评[1]、红外光谱成像技术检测[2-3]、多光谱图像颜色特征提取[4]等方法来完成。然而，人工感官审评存在评价环境缺乏独立性、审评人员的主观性差异等因素的干扰[5]。其他方法也存在设备专业性高、普适性较差及耗时较长等缺点。因此，亟需开发一种客观、便捷、快速的多茶类识别方法。

近年来，随着卷积神经网络（CNN）的深度学习模型在众多计算机视觉任务中取得了巨大成功，具有广阔的发展前景，随着AlexNet[6]、VGG[7]、ResNet[8]、DenseNet[9]等网络模型的相继提出，它们在图像分类[6-7,10]、目标检测[11-12]、语义分割[13-14]等领域有着广泛的应用。目前，在茶叶领域中卷积神经网络虽已用于茶树病害识别[15]、绿茶种类识别和茶叶等级筛分[16]，但对多茶类的分类识别鲜有报道。由 He 等[8]提出的残差神经网络（ResNet）便于训练且性能优良，成为图像分类任务中最典型的卷积神经网络。图像增强能改善图像的视觉效果，有目的地强调图像的局部或整体特征，扩大图像中不同物体特征之间的差别，丰富图像信息量[17]。搭建神经网络模型需要大量的数据样本，由于个别茶类通过网络采集的图像数量有限，目前的茶叶数据集还缺乏大量的图像样本，以此为基础训练的模型容易造成过拟合问题，导致模型预测效果不理想[18]，而数据增强技术可以在有限的数据基础上创造更多符合要求的数据，从而有效增加样本的容量及多样性，提升模型的鲁棒性和泛化能力，解决过拟合问题[19-20]。尽管卷积神经网络在物体识别上表现了优异的性能，但由于卷积神经网络“端到端”的黑盒特性，其内部运作缺乏透明性和可解释性[21]。Grad-CAM 作为一种类激活映射可视化方法，具有高度的类区分性，能够使卷积神经网络模型更“透明”。

ResNet-18 作为CNN 模型，其训练速度快，识别准确率高，占用内存较少，具有轻量化、高效化的特点。ResNet-18 在花卉识别[22]、垃圾分类收运[23]等研究中都得到了良好的应用。本研究使用准确率（Accuracy）和损失值（Loss）作为指标能够准确评估模型的识别性能，由于CNN 模型的“小黑盒”特性，仅用这些指标难以对模型的分类结果进行可视性解释。目前，基于类激活映射方法的可解释性研究，大多数只是根据类激活映射方法的热力图特点对模型进行定性评价，而缺乏对模型的定量评估[24]。

本研究采集图像构建了具有复杂前景和背景的29 种常见茶类的数据集，利用卷积神经网络ResNet-18 进行图像识别训练，着重对不同数据增强方法的模型训练效果进行对比；在常规CNN 模型性能评价指标外，构建类激映射量化指标IOB 和MPI 对CNN 识别区域准确性进行客观评价，以期筛选得到较优的数据增强方法，并训练得到高鲁棒性的多茶类CNN 图像识别模型，从而为茶叶深度学习研究提供方法借鉴。

1 材料与方法

1.1 数据采集、数据集构建

使用深度学习技术进行识别茶叶的类别越复杂，种类越多，需要的数据就越多[25]。由于目前没有公开的茶叶数据集，为了建立真实有效的多茶类数据集，本研究从社媒平台、电商平台和搜索引擎等收集图像，比对相关茶类的产品标准，对外形特征不符、过度美化的图像予以剔除，由浙江农林大学茶学系和浙江大学茶学系多名专家经过多次筛查后建立了数据集，其中安吉白茶205 张，白毫银针208张，白牡丹205 张，碧螺春217 张，东方美人197 张，冻顶乌龙205 张，都匀毛尖193 张，恩施玉露184 张，凤凰单枞275 张，贡眉287张，黄山毛峰197 张，金花茯茶200 张，金骏眉268 张，九曲红梅155 张，君山银针177张，六安瓜片197 张，六堡茶208 张，龙井237 张，普洱生茶220 张，祁门红茶229 张，寿眉202 张，熟普205 张，太平猴魁216 张，条形滇红213 张，铁观音208 张，武夷岩茶203 张，信阳毛尖200 张，正山小种216 张，竹叶青196 张，共6123 张。采集得到的多茶类图片数据集，有着复杂的前景、背景（不同背景、不同亮度、不同前景角度和不同茶叶数量），基于本数据集训练得到的模型能适应复杂背景下多茶类的识别，前景和背景复杂性如图1 所示。

1.2 数据增强方法

本研究通过对图像样本进行几何纹理变换与光学空间变换等操作引入细微的扰动从而实现数据扩充，有效减轻训练阶段的过拟合，提高模型的泛化能力。由于收集到的图像大小不一，模型训练前，预先将输入模型数据集的图像分辨率调整为512×512。本研究首先以CNN 数据增强中常用的水平镜像翻转作为基础增强方法进行图像数据加倍，再分别叠加10 种其他数据增强方法进行二次加倍，增强后图片数量扩充为原数据集的4 倍，11 种数据增强方法的效果如图2 所示。具体步骤如下：

图2 图像数据增强前后效果Fig. 2 Examples of image data augmentation

（一）基础数据增强

①水平镜像翻转：以图像垂直中线为轴翻转图像。

（二）几何纹理变换

②网格擦除（Ratio=0.3）：即GridDropout，以网格形式按照0.3 的区域比例对图片进行擦除。③网格擦除（Ratio=0.5）：即GridDropout，以网格形式按照0.5 的区域比例对图片进行擦除。④随机擦除：即Random Erasing，以若干分辨率80×80 方块形式随机擦除图像部分信息。 ⑤随机网格洗牌（2×2）：即RandomGridShuffle，将图像以2×2 网格形式生成4 块，并随机打乱。⑥随机网格洗牌（3×3）：即RandomGridShuffle，将图像以3×3 网格形式生成9 块，并随机打乱。⑦随机旋转：即Random rotation，对图片进行随机旋转一个角度处理。⑧随机旋转（N×90°）：对图片进行随机旋转N 个90°。⑨随机裁剪：即RandomCrop，随机裁剪图像分辨率为一定大小。⑩分辨率扰动：即RandomScale，随机缩放图像的分辨率。

（三）光学内容变换

⑪HSV颜色空间扰动：使用Albumentations 数据增强工具中的HueSaturationValue改变图像的色度、饱和度和明亮度，其中Hueshift limit=20，Sat shift limit=30，Val shift limit=20。

1.3 类激活映射可视化及量化评价

为了对CNN 模型图像识别区域准确性进行客观评价，本研究在参考Selvaraju 等[26]研究的基础上，构建了交集比（Intersection over bounding box，IOB）及Grad-CAM 激活的平均比率（Mean position importance，MPI）两个量化评价指标来度量类激活映射的准确性。从茶叶图像集中随机选取10 张具有背景干扰的图像作为测试图（即10 次重复测定）。通过图像标注软件Labelme 5.0.2 对测试图进行语义分割和标注，将茶叶从图像背景中分离出来，其他部分作为背景标注，得到带有茶叶边界点的Json 格式文件，再经过掩膜交集处理得到目标区域的二值化图像，以白色标注茶叶区域，黑色标注背景区域。采用梯度加权类激活映射（Grad-CAM）对训练得到的ResNet-18模型的图像识别区域进行可视化，生成测试图的类激活热图。

Grad-CAM 作为类激活映射方法之一，使用反向传播中获取的通道梯度均值作为通道权重生成热力图，具有良好的类别区分性，其原理如图3 所示，可以对卷积神经网络的分类结果做出合理的解释，将网络模型可视化[26-28]。使用Grad-CAM 方法生成类激活图的过程可公式化描述为：

图3 Grad-CAM 的原理Fig. 3 Principles of Grad-CAM

其中，Ak表示最高层特征图的第k个通道，表示针对该通道的权重，yc表示网络在未通过Softmax 分类器激活前针对类别c 的预测分数，Ak,i,j为第k个特征图中位置（i，j）的激活值，其计算公式如下：

类激活映射量化评价指标1—IOB。原图像中的茶叶区域定义为真实边界框Bg（Ground-truth box），在Grad-CAM 热图中分割出高于最大热点值20%的区域，取包围分割图的最大边界框作为预测边界框Bh（Bounding box），得到IOB 的计算公式为：

类激活映射量化评价指标2—MPI。计算目标区域二值化图中茶叶部分的真实像素值Sh及Grad-CAM 类激活热图中的热点区域（高于最大热点值20%的区域）总像素值Sg，计算得到MPI，公式为：

1.4 试验测试平台、超参数设置

采用ResNet-18 卷积神经网络框架进行迁移学习，Batch size 设置为8，优化器使用带动量因子的SGD（Stochastic gradient descent）算法，动量因子（Momentum）设置为0.9，初始学习率（Learning rate）设置为0.001，学习率调度器为等间隔缩减（Step LR），等间隔系数（Step size）设置为5；为加快模型训练收敛速度和提高模型训练效果，采用交叉熵作为损失函数。在经过25 轮（Epochs）迭代后，模型基本收敛。

通过Python 语言完成模型的搭建与训练，基于PyTorch 深度学习框架，并行计算框架使用CUDA 11.1 版本。试验基于Windows 11 操作系统，使用英伟达GeForce RTX 3060 GPU显卡，处理器为 AMD Ryzen 75800H with Radeon Graphics@3.20GHz。

1.5 数据处理和评价指标

本试验采用 k 折交叉验证法（K-folder cross validation）进行重复交叉验证（k=5），将图像数据集随机分成5 等份子集；依次遍历这5 个子集，每次CNN 训练把当前子集作为测试集，其余的4 个子集作为训练集，进行模型的训练和评估；取5 次的指标平均值来评价最终的模型训练、测试效果。k 折交叉验证中，所有数据都会参与到训练和测试中，能有效避免过拟合，并充分体现了交叉的思想[29]。

采用方差分析进行差异显著性分析（P＜0.05），多重比较方法为Duncan，分析软件为SPSS 22.0。为了评价不同数据增强方法对于多茶类模型识别性能的影响，本研究选取准确率和损失值作为评估算法性能的评价指标。准确率反映了本研究算法整体性能的优劣，损失值则用来表示模型预测值与实际值的误差，损失值越小，模型的鲁棒性越好，计算公式如下：

其中，Accuracy表示准确率，Loss表示损失值，FP代表预测错误的正样本数，TP代表预测正确的正样本数，FN表示预测错误的负样本数，TN表示预测正确的负样本数。N表示总的样本数量；pn,i表示第n个样本为类别i的概率。

2 结果与分析

2.1 不同数据增强方法的模型训练效果对比

为评估得到较优的多茶类图像识别数据增强方法，本研究基于基础数据增强方法（水平镜像翻转），对比了10 种数据增强方法（9种几何纹理变换和 1 种光学空间变换）的ResNet-18 网络框架训练效果。采用准确率、损失值这2 个常规指标来评估模型性能，结果如表1所示。基础数据增强后训练的ResNet-18 模型准确率、损失值分别为91.37%和30.27，已较可观但仍需优化。经过10 种数据增强方法优化数据集后，准确率进一步提升（从+1.90 到+7.45 不等），损失值从30.27 下降到3.97～21.29，模型的鲁棒性提高。其中，叠加分辨率扰动、网格擦除（Ratio=0.3）和HSV 颜色空间扰动训练后模型的准确率分别提高至98.82%、98.77%、98.66%，显著高于其他数据增强方法（P＜0.05）。叠加分辨率扰动后模型损失值仅为 3.97，显著低于随机擦除、随机裁剪、网格擦除（Ratio=0.5）、随机网格洗牌、随机旋转 N×90°和随机旋转（P＜0.05）。综上所述，基于准确率、损失值评估模型性能，分辨率扰动、网格擦除（Ratio=0.3）和HSV 颜色空间扰动对于模型性能的优化效果较好。

表1 不同数据增强方法模型性能评价Table 1 Model performances of different data enhancement methods

2.2 类激活映射可视化的量化评价

通常CNN 模型只以准确率、损失值等指标来衡量性能，而类激活映射（CAM）则作为模型的识别热点区域的可视化手段。但类激活映射可视化只是一种定性观测手段，缺乏量化结果。本研究为准确评估模型对茶叶识别的准确性及Grad-CAM 的定位能力，创新性地构建IOB 和 MPI 两个量化指标进行量化评价。Grad-CAM 基于4 种数据增强方法的类激活图、二值化图和量化评价示例分别如图4 所示，图中仅示例了HSV 颜色空间扰动、随机旋转、网格擦除（Ratio=0.3）和随机擦除 4种数据增强方法的IOB 和MPI 可视化结果。目标区域二值化图标示了多茶类识别的感兴趣区域（Region of interest，ROI）；理想状态下希望类激活映射能准确且充分地识别到ROI 区域。图4 中某恩施玉露图片示例了2 种数据增强方法的Grad-CAM 量化评价优劣，Grad-CAM 热图显示，HSV 颜色空间扰动的识别热点虽然也有少部分落在背景干扰上（茶具、石头），但大部分落在了ROI 区域（茶叶）内，且IOB 预测框（蓝色）也更贴近真实框（红色）；而随机旋转有更多的识别热点落在了背景干扰中，且IOB 预测框（蓝色）明显偏离了真实框（红色），此图片的模型在识别准确性指标上，HSV 颜色空间扰动要好于随机旋转。而IOB 和MPI 都显示HSV 颜色空间扰动（IOB、MPI 分别为97.41%和77.42%）比随机旋转（IOB、MPI 分别为 68.93%和66.36%）表现更好，与Grad-CAM 主观判断一致。图4 中某太平猴魁图片示例了2 种数据增强方法的 Grad-CAM 量化评价优劣，Grad-CAM 热图显示，网格擦除（Ratio=0.3）和随机擦除的识别热点大部分落在了ROI 区域（茶叶）内，且IOB 预测框（蓝色）也都较贴近真实框（红色），但主观细致观测下，预测框和识别热点准确性网格擦除（Ratio=0.3）要稍好于随机擦除；而IOB 和MPI 都显示网格擦除（Ratio=0.3）（IOB、MPI 分别为98.69%和66.79%）比随机擦除（IOB、MPI 分别为89.30%和56.34%）表现稍好，与Grad-CAM主观判断完全一致。整体而言，IOB和MPI两个量化指标可以较好地客观表征CNN 模型类激活映射的准确性，方便观测和对比CNN模型识别性能。

图4 Grad-CAM 的量化评价可视化图Fig. 4 Visualization diagrams of quantitative evaluation of Grad-CAM

不同数据增强方法的类激活映射量化评价结果如表2 所示。由于不同图片的量化指标波动较大，本研究选取了10 张测试图片（即10 次重复）的IOB 和MPI 量化结果进行统计分析。随机网格洗牌的2 种数据增强方法的目标区域识别准确性相对较低，甚至低于基础数据增强方法。而其他8 种数据增强方法的IOB和MPI，虽然在均值上有差异，但在统计学上不存显著差异（P＜0.05）。其中IOB 均值最高的是分辨率扰动，而MPI 均值最高的是网格擦除（Ratio=0.3），虽然HSV 颜色空间扰动的两个量化指标的均值均明显低于分辨率扰动和网格擦除（Ratio=0.3），但不同测试图片的量化评价结果波动较大，整体上不存在显著性差异。网格擦除（Ratio=0.5）相较网格擦除（Ratio=0.3），虽然IOB 和MPI 不存在显著差异，但性能指标的评价结果稍差且存在显著差异（P＜0.05），因此本研究优选网格擦除（Ratio=0.3）进入下一步研究。随机擦除也是图片信息擦除类的数据增强方法，但其4 项指标的整体表现不及网格擦除（Ratio=0.3）。结合模型性能指标的评价结果，以及实际图片识别中分辨率变动和颜色扰动等常见情况，本研究优选网格擦除（Ratio=0.3）、分辨率扰动和HSV 颜色空间扰动3 种数据增强方法进行后续的消融实验。

表2 不同数据增强方法的类激活映射量化评价对比Table 2 Comparison of quantitative evaluation of class activation for different data enhancement methods

2.3 消融实验

在对比了10 种数据增强方法CNN 训练效果的基础上，初步优选得到了网格擦除（Ratio=0.3）、分辨率扰动和HSV 颜色空间扰动3 种较优的方法。进一步开展消融实验，对比了不同数据增强方法组合的CNN 训练效果，以期得到最佳的数据增强方法组合，结果如表3 所示。使用网格擦除（Ratio=0.3）、分辨率扰动和HSV 颜色空间扰动的数据增强方法两两组合时，准确率得到一定程度提升，都超过了99%；损失值也得到一定程度下降，而类激活映射量化评价指标IOB 和MPI 未有显著提升（P＜0.05）。其中“水平镜像翻转+网格擦除（Ratio=0.3）+HSV 颜色空间扰动”组合的准确率达到了99.82%，显著高于其他数据增强方法组合（P＜0.05），损失值仅为0.64，且MPI 的均值也达到了68.44%，是所有数据增强方法组合中最高的，IOB 也达到74.79%，整体而言是最佳的数据增强方法组合。而“水平镜像翻转+网格擦除（Ratio=0.3）+分辨率扰动+HSV 颜色空间扰动”组合的准确率不及“水平镜像翻转+网格擦除（Ratio=0.3）+HSV颜色空间扰动”组合，其他3 个指标均值则不存在显著差异（P＜0.05），且该方法数据集更大，意味着需要更长的模型训练时间。消融实验的结果也表明，更多的数据增强方法组合扩充图像数据集，虽然可能提升模型性能评价指标，但在模型识别区域准确性指标上未表现出显著差异。

表3 消融实验结果Table 3 Results of ablation experiment

2.4 多茶类图像识别的混淆分析

通过“ 水平镜像翻转+ 网格擦除（Ratio=0.3）+HSV 颜色空间扰动”最佳数据增强方法组合训练得到平均识别准确率达到99.82%的ResNet-18 模型，并记录该模型的训练与测试迭代表现（如图5）。整体上，该ResNet-18 模型收敛速度较快，未出现收敛抖动状态，并在第6 次迭代后准确率、损失值呈现稳定的收敛状态。收敛速度越快，意味着模型快速稳健的融合，可避免过拟合或者是陷入局部最佳状态。ResNet-18 模型大小为43.7 MB，所需空间较小。对10 张图片的识别时间进行记录，计算得到每张图片的平均识别时间仅为(0.102±0.001) s，说明识别每张图片所需时间非常短。综上所述，该多茶类ResNet-18 模型识别准确率高、占内存较少、识别时间较快，适合移动端应用[16]。

图5 ResNet-18 模型训练与测试迭代曲线Fig. 5 Iteration curve of training and validation of ResNet-18 model

进一步对该模型的多茶类图像识别结果进行解析，采用混淆矩阵对识别模型中易识别、易混淆茶类进行可视化（图6）。对角线上的数值为所有正确的预测结果，其余数值均为模型误判导致的错误的预测结果，并且矩阵的每一列表示真实类别，而矩阵的每一行表示模型的预测类别。除贡眉、黄山毛峰、武夷岩茶、信阳毛尖以外，其他25 种茶类的识别准确度达到100%，未出现混淆，并且对于贡眉和信阳毛尖这2 种茶叶也表现出优异的分类性能，识别准确率均达到99%以上。黄山毛峰识别准确率最低，也达到了 98.77%（ 240/243），说明本研究优化得到的ResNet-18 模型能让网络有效提取各类别茶叶图像的浅层（颜色、纹理等）或深层抽象特征，进而在复杂前景、背景下实现多茶类的高精度识别。个别茶类产生了一定的识别混淆，其中黄山毛峰有2 例错误识别为普洱生茶，1 例错误识别为太平猴魁；武夷岩茶则各有3 例识别成了金骏眉和寿眉。

图6 29 种茶类ResNet-18 模型识别结果混淆矩阵Fig. 6 Confusion matrix of recognition results of twenty-nine ResNet-18 tea models

3 讨论

本研究通过自主采集茶叶图像，建立了1个包含29 种茶叶类别的数据集，所采集图像包含不同角度、不同背景及不同数量等情况下的茶叶，共6 123 张。本研究所构建的数据集涵盖了六大茶类，并且具有一定代表性，具有较强的适用性和泛化能力。相比于张怡等[16]构建的8 种绿茶数据集，本研究构建的数据集量更大，包含更丰富的茶叶种类。以本数据集为基础所构建的多茶类识别模型在识别准确率上达到了99.82%，具有优良的识别效果。在过去的研究中，茶叶的识别可通过基于图像处理的视觉识别技术[30]、基于颜色和形状的计算机视觉技术[31]等技术来完成，但缺乏基于卷积神经网络和数据增强的多茶类识别模型。本研究首次针对多茶类数据集进行数据增强以优化模型，选取几何纹理变换与光学空间变换中的10 种作为数据增强方法，基本覆盖了主要的数据增强方法，同时也能应对茶叶摆放中出现的变换情况。对比10 种不同数据增强方法发现，分辨率扰动和网格擦除对模型的优化效果较好，这是由于采集的茶叶图像分辨率大小不一，分辨率扰动能改变图像的分辨率大小，可得到更多分辨率下的茶叶图像，符合更多实际场景下的图像存在形式，与Liu 等[32]的研究结果较为一致。网格擦除能让CNN 学习到更多特征信息，并增加感知场，相比于随机擦除，网格擦除更能显著提高模型的泛化能力和鲁棒性，与Chen 等[33]的研究结论相似。然而，旋转变换对茶叶识别模型的优化效果不理想，这可能由于茶叶图像经旋转后，茶叶的特征信息变化不明显，对模型的泛化能力提升较差。本研究所构建的模型在识别准确率上达到了99.82%，但在后续研究中，将针对其他数据增强方法的优化效果展开相关研究，为多茶类识别模型的数据集构建提供一定的参考。

本研究使用ResNet-18 作为CNN 模型，其训练速度快，识别准确率高，占用内存较少，具有轻量化、高效化的特点。ResNet-18 在花卉识别[22]、垃圾分类收运[23]等研究中都得到了良好的应用。但在未来的工作中，将使用更轻量化的 MobileNet[34]作为特征提取网络进一步提高模型识别精度，为在移动端的识别应用建立基础。本研究使用准确率、损失值作为指标能准确评估模型的识别性能，由于CNN模型的“小黑盒”特性，仅用这些指标难以对模型分类结果进行可视性解释。目前，基于类激活映射方法的可解释性研究中，大多只是根据类激活映射方法产生的热力图的特点对模型进行定性评价，而缺乏对模型的定量评估[24]。本研究进一步应用类激活映射量化评价，在已有研究[27-28,35]的基础上，将量化方法改进后应用于茶叶识别模型的评价中，产生的热力图不仅能准确定位茶叶，而且能客观评价模型的识别定位能力，使模型更具有可解释性，为客观评价CNN 模型的性能提供了一种新思路、新方法。消融实验在复杂的深度神经网络模型的背景下得到了广泛的应用，张家钧等[36]通过消融实验进一步优化了网络的瓶颈结构，提高了鞋型识别算法的准确性；杨继增等[37]通过消融实验探究了不同阶段卷积层组合对算法性能的影响。本研究将不同数据增强方法组合进行消融实验，结果表明，分辨率扰动和网格擦除方法相结合，使模型识别准确率进一步提高到99.82%，量化评价结果也更优。29 种茶类的混淆矩阵结果表明，安吉白茶、白毫银针、白牡丹、碧螺春、东方美人、冻顶乌龙、都匀毛尖、恩施玉露、凤凰单枞、金花茯茶、金骏眉、九曲红梅、君山银针、六安瓜片、六堡茶、龙井、普洱生茶、祁门红茶、寿眉、熟普、太平猴魁、条形滇红、铁观音、正山小种和竹叶青这25 种茶类在识别准确率上达到了100%，但也有个别茶类的识别率存在一定的混淆，这些茶类混淆可能是茶类外形本身存在一定的混淆可能性，也可能是CNN 识别混淆和热点区域与人感官识别的差异造成（如3 例武夷岩茶被混淆识别为金骏眉，2 例黄山毛峰被混淆识别为普洱生茶）。未来将进一步应用类激活映射可视化方法确定CNN 的识别区域来辅助训练，以使模型更加“透明”。

本研究首次对茶叶图像数据增强方法进行了优化，对比了10 种数据增强方法的多茶类CNN 模型训练效果，得到了较优的数据增强方法组合，即水平镜像翻转+网格擦除（Ratio=0.3）+HSV 颜色空间扰动。训练得到了高鲁棒性的多茶类CNN 图像识别模型，其识别准确率达到了99.82%、损失值仅为0.64。同时本研究创新性地构建了量化指标IOB 和MPI，解决了类激活映射识别区域准确性的客观评价问题，可配合常规评价指标（准确率、损失值等），对CNN 模型的训练效果进行更科学地衡量，为CNN 模型性能的客观化、量化评价提供了一定的参考。