李滨, 敬启超
(东北林业大学 机电工程学院,哈尔滨 150040)
树种识别与分类是森林资源调查与保护中的一项重要工作[1],但由于树木种类繁多,人工识别工作量大且效率低,树种识别技术也就应运而生。因此研究树种识别分类,提高识别的准确率具有非常重要的意义。
目前关于树木种类识别的研究主要分为2种方法:①人工提取图像特征,再运用传统机器学习的方法,利用树叶和树皮的显著特征[2-3],如颜色、形状、纹理和大小的传统计算机视觉系统,但该方法在特征提取时效率低。唐钦[4]提出的利用k近邻(k-Nearest Neighbor,KNN)算法和支持向量机(SVM)算法在树叶样本上取得了89.64%的识别率。赵鹏超等[5-6]在卷积神经网络中对BP神经网络反向传播算法和梯度下降算法优化训练,取得了95%以上的正确率。杨蒙蒙[7]采用Hu矩和灰度共生矩阵与BP神经网络,在对15种树叶图像分类中取得了80.97%的识别率。树木识别技术也在不断改进。②基于深度学习的识别方法,其中卷积神经网络(Convolutional Neural Networks,CNN)是深度学习模型中最重要的一种结构,可自动提取目标特征,已基本满足目标分类。陈明建[8]提出了一种预处理算法,消除树叶图像阴影,再结合树叶轮廓,最终在32种叶片上取得了98.26%的准确率。Yang等[9]采用多个CNN分类器分别对叶片及显著特征区域图像自主提取特征,准确率达到97.1%。Liu等[10]采用VGG16作为模型预训练网络,再利用UNET网络对树种图像进行语义分割,最终取得96.03%的准确率,但是网格模型较大效率不高。Mubin等[11]、业巧林等[12]提出了一种遥感图像分类模型,采用图像增强后利用深度学习训练模型,结果可以从卫星图像中取得的识别正确率分别为95.11%和92.26%,但是需要大量的森林卫星图像。Guan等[13]通过归一化分割每个树木的数据,使得特征提取十分精确,并在城市中的树木分类取得了86.1%的准确率,但是数据标记耗时较多,且需要专业人员进行操作。刘忠伟等[14-15]采用感兴趣区域机制裁剪直方图,并进行均匀化图像增强处理,基于Lenet5网络对5种典型东北林木进行识别,取得了95.8%的准确率。
为了进一步提高树木图像识别精度和速度,本文提出了基于卷积神经网络的并行注意力再提取算法,并采用消融实验证明该方法的有效性,再利用迁移学习的方法在BarkVN-50数据集(Kaggle发布的公开数据集)上进行实验,验证此方法的训练效率和识别率。
BarkVN-50数据集包括柚木、花梨木、铁刀木、榕树、桉树、雪松和千层树等50种树木,每种约100张,共计5 000多张树木图像。部分树木样本如图1所示。
图1 树木种类实例
由图1可知,由于每种树木的图像较少,且有一些具有相似外观的不同类别树木,放入神经网络模型中训练时,极易发生过拟合现象,为了提高神经网络的泛化能力,本次研究需要先进行数据增强,把图片进行随机上下和左右翻转,然后应用注意力再提取算法。通过数据增强后每一种树木的数据量都得到扩充,该方法有效地防止了过拟合现象的发生。
卷积神经网络的框架主要由3个层级组成:卷积层、池化层和全连接层。卷积层是对输入的树木图像特征的提取;池化层将卷积层输出的高维度信息处理后得到低维度信息,避免过拟合;全连接层用向量化参数,从而获得准确率较高的输出。
卷积神经网络中的注意力机制目前有2种:一种是神经网络搭载了注意力机制能够自主运用;另一种是预制的注意力机制嵌入到卷积神经网络中,帮助卷积神经网络高效提取图片中的特征。嵌入式的注意力机制分为软注意力(Soft attention)和强注意力(Reinforcement learning)。本文研究所采用的是可微分的软注意力,可以通过梯度方向反向传播权重。软注意力中又分为空间注意力(Spatial attention)、通道注意力(Channel attention)和混合注意力(Mixed concentration)。空间注意力并不重视各个通道中非重要的信息,而是由提取的特征决定了分类结果。通道注意力是将特征通道中的信息与图像关联从而决定分类的方法。混合注意力则是将2种注意力机制组合,把特征图先经过通道注意力,再通过空间注意力后经过2次加权结果,得到输出特征。但是先通过的注意力模块权重会传给后通过的注意力模块,学习到的特征不全面,影响了注意力模块学习的特征,嵌入了混合注意力模块的CNN模型的学习效果不稳定、正确率难以保证,因此提出并行注意力再提取算法解决注意力模块内部干扰,减缓过拟合发生。
2.2.1 非局部空间注意力和通道注意力
非局部空间的注意力机制(I-SAM)与传统空间注意力(Spatial attention)机制[16-17]相比,在信道压缩的基础上再进一步利用全局特征映射的平均池,从而降低嵌入在卷积神经网络中的空间注意力机制对超参数的依懒性,增强必要特征和抑制不必要特征,计算成本是由特征图的宽度(W)和高度(H)决定,减少内存使用量和计算成本。I-SAM的结构由3部分组成:全局特征,将所有位置的特征采集并整合,再通过加权计算获得全局特征;特征转换,采用非线性特征转换的方法;特征分配,将全局特征分配到每个位置的注意力分布函数。非局部空间的注意力算法的输出为:
(1)
式中:X∈Rc×w×h;i为空间的所有取值;j为通道的所有索引,取值范围1≤j≤C;θk为在信道压缩的基础上,再进一步利用特征图的全局特征映射的平均池化;δr为瓶颈转换的像素捕捉的映射;函数F适用于特征融合的矩阵乘法,由公式(5)计算。
最终聚合的特征图θk函数表示:
(2)
(3)
瓶颈转换的像素捕捉δr函数表示:
(4)
特征融合函数F表示为:
(5)
通道注意力(Channel attention)模块则采用最基本的形式,将特征图作为输入特征图,如图2所示。
图2 通道注意力模块
2.2.2 并行注意力再提取算法
树木由于外观具有相似性,在具体识别时注意力机制和数据库容量就尤为重要,注意力机制可以对输入图像的显著特征区域重点关注,混合注意力模块在这方面广泛应用,但其内部权重干扰的局限性又限制其难以取得较高的准确率。
混合注意力模块是单行连接先经过通道注意力,再经过空间注意力,此注意力模块虽然能将空间信息和通道信息都利用起来,但是始终无法解决单行连接通道模块的权重对于空间模块的影响。因此,为消除这2个模块间的相互干扰,都可由特征图直接获取权重,将混合通道改为I-SAM与通道注意并行。
为进一步提高注意力在树木图像的特征定位与提取,消除数据库容量不足,以减缓过拟合的发生,提出并行注意力再提取算法(I-attention),如图3所示。
图3 并行注意力再提取算法
在I-attention中通过裁剪再提取出的随机特征图可以有效地增加训练数据库容量,并减缓模型过拟合现象的发生。其中对于随机特征图的裁剪至关重要,因此训练阶段在特种图中随机抽取一张Ak特征图进行裁剪,首先对其进行规范化处理:
(6)
注意力裁剪方法为:
(6)
式中:θc为一个小于1随机参数;Ck为寻找具有最小值的矩形,将此矩形放大后就是裁剪图片。
迁移学习的基础预训练网络是一个保存的卷积神经网络,以前已在大型数据集(ImageNet)上对其进行训练,提取出的特征信息可用于其他数据集。目前迁移学习模型架构有很多,如VGG16、VGG19、inception v3、Xception和ResNet50等。但对于迁移学习的使用来说,不同条件下的迁移学习使用方法不同,为了减少网络架构导致的磁盘消耗和加快训练速度。在该系统中,由于网络中数据集较小,采用Xception模型作为迁移本体。使用Xception模型搭建卷积神经网络,为满足本文实验要求,故将模型中输出层删除,添加新的全连接层和输出层,将预训练网络权重冻结,添加I-attention修改用来识别树木的IM-Xception。见表1。
表1 IM-Xception模型参数
在IM-Xception网络结构中,输入的树木图像像素为299×299×3,共有14个混合卷积层,且卷积层的步长都为3×3,前8个卷积皆为首尾相连,上一层的输出直接传递给下一层,从第8个到第10个卷积按顺序执行一次,并且循环8次,最后经过2个卷积层和1个池化层后输出1×1×2 048,经过全连接层和softmax进行输出。
采用IM-Xception模型的卷积神经网络算法对树木进行识别,选择合理的卷积层、池化层和全连接层对该系统框架进行搭建。对于小数据集的系统,使用迁移学习能够更加有效地避免过拟合现象,提高准确率,使整个系统更加稳定有效。树木识别模型如图4所示。
图4 树木图像识别模型
本研究中输入层和隐含层的激活函数选用relu-softsign组合激活函数[18-19],其函数表达式为:
(8)
由公式(8)可知,该激活函数在x>0时,与rule函数一致是导数为1的直线,保证了在前向传播时模型的训练速度;当x≤0时,relu-softsign函数的导数缓慢减小,且能够为零附近的非正数提供非零导数,这样既增强了relu-softsign 函数对非正值处理的鲁棒性,又加快了模型的收敛速度,从而获得比其他激活函数更好的分类效果[20-21]。
在框架的设计中,对于输入层和隐含层的激活函数选用relu-softsign,在全连接层与输出层之间加入非局部空间的注意力机制,对于输出层采用softmax作为激活函数。因此该系统中损失函数是针对softmax函数而言。设softmax函数为hθ(x),输出为y,样本数为m,则有损失函数为:
(9)
本实验平台的硬件为1台CPU为Intel(R)Core(TM)i7-9750H,GPU为GeForce GTX 1660Ti 6 GB显存,内存为16 GB,操作环境为Windows 10,软件平台为基于Python语言以keras为前端和TensorFlow为后端的编程构架。
采用全部输入的树木图像层面和正确识别层面的正确分类作为分类评价标准:
(10)
式中:Ra为识别率;Nal为全部输入的树木图片数量;Nc为正确分类的图片数量。
采用算法识别图像总时间层面和算法迭代次数层面的平均时间作为时间评价标准:
(11)
式中:t为平均时间;tal为算法识别消耗的总时间;te为算法的迭代次数。
本实验将随机选取树木图像的65%作为训练集,剩下的35%作为测试集。为了减少硬件设备对实验的影响以及确保实验结果的有效性,每次实验重复3次。为了排除学习率对识别结果的影响,分别对Xception和IM-Xception进行3组对照实验,学习率分别设置为0.1、0.01、0.001,共进行6组实验,迭代次数为50。
由表2可知,学习率对深度卷积网络有较大影响。迁移学习采用的都是预训练网络,可以将学习到的特征用在不同的模型架构中,使得深度学习对小数据问题非常有效,这也是深度学习的一个重要优势。深度卷积神经网络中没新建的卷积层,采用的都是迁移学习的卷积层[22],因此采用较大的学习率可以加速模型收敛。如实验6采用0.1的学习率,在训练集和测试集的准确率分别为99.20%、98.90%,在相同条件下较其他学习率为最佳。如实验1和实验4采用0.001的学习率损失上下波动,收敛速度慢,对硬件消耗大,故IM-Xception模型采用0.1的学习率进行实验,具体如图5和图6所示。
表2 实验结果
图5 实验正确率
图6 实验损失值
为验证实验结果的有效性,采用文献[7]和文献[11]中的结果与本文中的实验结果进行对比,见表3。
表3 实验结果对比
由表3可知,在算法的正确率方面,IM-Xception模型的识别率最高,相比于VGG16和Lnet5模型的识别速度变快、消耗时间减少,正确率约增长1%~3%,不仅模型的规模大大减小,识别效率上提升了25%~50%。
为了验证不同注意力模块在卷积神经网络中的有效性,在BarkVN-50数据集上进行消融实验,由于本文所提算法是由Xception改进而来,所以这里以Xception为基准进行实验。相比于Xception,本文所提算法主要改进了2点:添加了非局部空间注意力并行连接通道注意力,注意力特征图再提取。因此,为了观测其性能对上述2点进行消融实验,见表4。
由表4可知,在Xception架构设置了I-Attention和I-SAM不同情况下的性能测试,加入的非局部空间注意力和通道注意力模块的测试性能有所提高,相比于Xception性能提升1.35%;同样采用了注意力再提取模块对特征图进行裁剪,能基于数据集提升模型性能0.66%。
表4 消融实验
树木识别技术是人工智能领域中一个重要的研究方向。针对采用传统神经网络的树木识别方法中存在的识别正确率低、效率低和易产生过拟合现象,本文研究了一种基于改进CNN的树木识别方法,经实验证明该方法的有效性。结果证明如下:
(1)针对树木种类识别正确率、效率低的问题,对空间注意力模块进行改进,提出了一种改进的空间注意力模块I-SAM并与通道注意力模块采用并行连接,解决了注意力模块内部的特征图权重干扰。
(2)针对不同品种且具有相似外观特征的树木,识别中易产生过拟合现象,影响识别准确率,提出一种注意力再提取算法I-Attention,减缓了因数据库不足发生的过拟合现象。
(3)对添加了I-Attention的IM-Xception模型与VGG16、Lnet5模型进行对比,识别正确率约增长1%~3%,模型规模缩小24%,达到133.9 MB,且耗时仅有458 ms,识别效率上提升20%~50%。再通过消融实验,证明了I-SAM和I-Attention分别能对Xception模型提升1.35%和0.66%。
由于卷积神经网络的结构复杂和参数多样性,未来将继续研究更适合于树木识别的卷积神经网络的结构和方法,并进行更深的研究讨论和实验分析,得出其规律和特征。