基于卷积神经网络的牡丹花品种识别

2021-12-18 06:50何进荣任维鑫石延新白宗文3

系统仿真技术 2021年2期

何进荣，任维鑫，石延新，白宗文3，*

（1.延安大学数学与计算机科学学院,陕西延安716000；2.西北农林科技大学陕西省农业信息感知与智能服务重点实验室,陕西杨凌712100；3.延安大学陕西省能源大数据智能处理省市共建重点实验室,陕西延安716000;4.延安大学物理与电子信息学院,陕西延安716000）

牡丹花因其色泽艳丽、富丽堂皇，享有“国色天香”的美誉。作为中国固有的特产花卉，牡丹花历来具有很高的观赏和药用价值。根据花色、花型、叶片和根部等植物性状特征的不同，牡丹花品种多达上百种，给牡丹花学者和爱好者鉴别牡丹花品种带来了挑战。目前牡丹花的品种鉴别主要依靠园艺专家的专业知识，这种鉴别方法耗时耗力，不利于推广牡丹文化和科普教育。近年来，随着计算机视觉技术的发展，许多学者将图像识别方法应用于农业领域，并取得了成功。

目前在花卉图像识别领域，常用的公开数据集有Oxford 17花卉数据集［1］和102花卉数据集［2］，前者包含17个种类共1360幅花卉图像，后者包含102个种类共8189幅花卉图像。针对通用花卉样本库Oxford 17 flower上的花卉种类识别问题，Nilsback等人借鉴自然语言处理中的特征向量化思想，提出基于视觉词袋的花卉图像特征表示方法［2］。吴笑鑫等人采用基于显著性检测的Grab Cut分割算法进行预处理，采用SVM构建分类模型［3］。为了对比不同图像预处理、特征提取和分类器方法的性能，苗金泉等人提出基于插件技术的花卉种类识别算法评估方法［4］。Zhang等人采用SIFT和Harr算子对图像特征进行检测，使用最近邻方法进行花卉种类识别［5］。

为了提高图像识别系统的鲁棒性，Kanan等人联合稀疏编码和序列化视觉注意力模型提取特征，在102花卉数据集上准确率达到75.2%［6］。Zou等人采用参数化的几何模型进行花卉识别，并研发了计算机辅助视觉交互式识别系统，在113个种类1078幅花卉图像上识别准确率高于人类［7］。Guru等人收集了35个种类1750幅花卉图像，在去除背景的图像上分别提取颜色纹理矩、灰度共生矩阵和Gabor响应等特征，然后采用概率神经网络建立分类器，识别准确率达到79%［8］。为了研发移动端的花卉图像实时识别系统，Cheng等人提出基于目标属性的花卉图像分类方法，提取花序、花朵形状和颜色等属性特征后采用遗传算法进行判别属性筛选，最后采用稀疏表示分类方法进行识别［9］。

随着深度学习在感知数据建模上的优异表现，以卷积神经网络为代表的图像分类方法逐渐成为计算机视觉领域的主流方法之一。针对菊花花型和品种识别问题，袁培森等人采集了5个品种的6300张菊花图像，构建6层卷积神经网络逐层学习菊花特征［10］。Liu等人收集到79个种类52775幅花卉图像，然后采用卷积神经网络建立识别模型，分类准确率达到76.54%［11］。Xia等人采用预训练的Inception-v3模型进行迁移学习，在Oxford 17和102花卉数据集上的分类准确率均达到99%［12］。

现有花卉图像数据规模较小，图像均在控制条件下拍摄，同种类差异性较小且不同种类的花卉在形态上具有较好的可分性。图像分类系统的构建很大程度上依赖于特定领域图像数据集的构建，且图像采集环境和目标形态差异会导致同类目标的像素数值差异大于不同类目标。针对牡丹花品种识别方法，本文的主要贡献体现在以下几个方面。

（1）在自然环境下分组采集11624幅牡丹花图像，并对牡丹花品种进行人工标注，建立分布广泛的牡丹花图像数据集。

（2）实验对比分析了传统手工特征分类模型、预训练深度模型和卷积神经网络等3种图像分类方法在牡丹花品种识别上的准确率。

1 数据预处理

牡丹花图像采集与人工标记是建立牡丹花品种识别模型的基础。本节主要介绍牡丹花图像数据集的构建过程。

1.1 数据采集

牡丹花图像数据于2018年4月上旬在西北农林科技大学南校区牡丹园采集，由4名学生使用手机相机在不同时间段拍摄，牡丹花品种信息根据标识牌指示进行记录，共包括11个品种的11624幅牡丹花图像。数据采集信息如表1所示，不同采集设备获取的原始图像分辨率不同，在数据建模时统一缩放至224×224。每个品种的牡丹花图像个数如表2所示，各品种图像数目大致相当。每个品种的部分示例图像如图1所示，仅通过花瓣颜色和形态难以将每个牡丹花品种区分开，如霓虹幻彩（图1（d））、墨润绝伦（图1（f））和乌龙捧盛（图1（h））等3个品种在外观上十分相似。牡丹花图像背景复杂，叶片对花瓣存在遮挡，花苞形态和拍摄角度各异，且光照不均衡，这些都给图像分类增加了一定的难度。

图1 11个牡丹花品种的示例图像Fig.1 Sample images of 11 peony varieties

表1 数据采集信息Tab.1 Data collection information

表2 不同品种牡丹花图像个数Tab.2 The number of peony images of different varieties

1.2 数据增强

为了提高卷积神经网络模型的泛化能力，对每幅牡丹花图像通过旋转、平移、扭曲、缩放、翻转等传统数字图像处理方法进行随机变换以扩充样本个数。针对“大胡红”品种的某幅图像进行数据增强后的部分样本如图2所示，通过随机变换生成的牡丹花图像大量扩充了数据集，使样本分布更广泛。

图2 数据增强后的部分图像样本Fig.2 Some image samples after data augmentation

2 神经网络模型

本文采用迁移的ResNet网络构建牡丹花品种识别模型，其残差结构有效地解决了深度神经网络随着层数加深而梯度消失的问题。ResNet网络的特征提取部分由前几层的卷积层堆叠和残差模块的多次叠加构成，最后连接全局平均池化层、全连接层和Softmax输出层。

2.1 网络结构

本文构建的卷积网络模型其残差模块主要有两种结果。如图3所示。

图3 残差模块Fig.3 Residual module

整体结构如图4所示。模型输入图像设定为224×224的三通道彩色图像，残差结构中依次包含瓶颈残差模块、常规残差模块×2、瓶颈残差模块、常规残差模块×3、瓶颈残差模块、常规残差模块×22、瓶颈残差模块、常规残差模块×2。其内部卷积核设置略有调整。最后，在网络全连接层之后采用Softmax分类器输出每个类别的分类概率。

图4 整体结构Fig.4 Overall structure

2.2 损失函数

牡丹花品种识别属于多分类任务，本文选用交叉熵函数作为模型的损失函数，用于评估卷积神经网络预测输出的类别概率分布与真实分布之间的差异，交叉熵损失函数对于不均衡的样本对网络准确率的消极影响具有较好的抑制作用。

3 实验

为了验证本文建立的卷积神经网络模型的有效性，实验设计时分别从数据建模方法和数据分组测试两个方面展开对比实验。

3.1 实验设置

在图像分类实验中，测试了不同的网络架构在不同的迁移方法和不同的优化器选择中表现出来的效果。改造模型结构的方法：将全连接层加分类层中的全连接层替换为新层，使其全连接节点为11，将1×1卷积层加分类层中的卷积层替换为新层，使其卷积核数量等于11。

实验编程开发环境为Matlab2019b，计算设备为个人计算机，CPU为AMD R2700x，主频为3.70 GHz，内存为16 GB，显卡为1080TI，显存为11 GB。训练数据和测试数据的划分比例为9∶1。

3.2 实验结果

3.2.1 最佳实验结果

首先，将4组牡丹花图像数据集合并在一起，随机分层抽样90%作为训练集，其余10%作为测试机，随机打乱顺序读入，训练过程中每次迭代随机打乱一次，采用Adam优化器，新增层权重和偏置学习率均扩大10倍，前六次迭代的基准学习率为1×10-4，下降系数为0.05，Batch Size设为64，训练11次，每次训练后验证一次，数据增强方法是上下左右随机移动20个像素，x轴随机反射。识别准确率如表3所示。ResNet101训练集准确率最高但训练耗时70分13秒，ResNet50训练耗时38分43秒，从资源消耗与收益比来看，ResNet50性能较强。AlexNet泛化能力较差，存在过拟合的问题且训练过程振荡较为严重。具体训练曲线如图5所示。

图5 ResNet101和AlexNet训练过程图Fig.5 ResNet101 and AlexNet training process

表3 最佳的识别结果Tab.3 The best recognition result

3.2.2 优化算法对神经网络的影响

首次试验选取SGDM作为优化器，新增层的权重学习率和偏差学习率均扩大20倍，实验结果如表4。

表4 选取SGDM优化器的测试结果Tab.4 The test results of SGDM optimizer

4 结论

本文采用卷积神经网络模型建立牡丹花图像分类模型，用于自动鉴别不同品种的牡丹花。首先，在西北农林科技大学牡丹园共拍摄11个品种牡丹花图像11624幅，并人工标注牡丹花品种类别；随后基于ResNet101模型架构，迁移学习了一种卷积神经网络，测试集上的识别准确率可达98%，显著高于传统手工提取特征的视觉词袋模型，略优于预训练的ResNet50、VGG16和Inceptionv3，整体表现较好，对于植物识别具有一定的实际意义。

为了提高牡丹花品种识别的准确率和鲁棒性，下一步工作将继续优化卷积神经网络结构和参数，改造数据集内容，结合特征学习的层次化表示思想，将特征迁移、特征学习和人工特征相结合来构建易于训练的深度学习模型。