李东明,汤 鹏,张丽娟,雷 雨,刘双利
(1. 吉林农业大学信息技术学院,长春 130118;2. 长春工业大学计算机科学与工程学院,长春 130012;3. 吉林农业大学中药材学院,长春 130118)
中医药经长期临床实践观察比较,逐渐形成了道地药材这一概念。这些道地药材由于地域、温度、水分、光照、土壤等优势,其药效品质突出。防风药材为伞形科植物防风的干燥根,主治外感表证、风疹瘙痒、风湿痹痛等症。防风为东北地区的道地药材,是大宗药材之一。目前,对防风药材的产地及质量的识别方法多为基于物理或化学特征的中药材识别,《中华人民共和国药典》以升麻素苷(CHO)及5-O-甲基维斯阿米醇苷(CHO)的含量测定为评价指标,但是无法对防风药材的道地性及其质量优劣进行准确衡量。
随着人工智能技术的快速发展,图像的智能分类与识别成为该领域中最重要的应用目标之一。其中,基于图像分析的植物识别分类技术已成为国内外植物信息学领域研究的热点。目前,深度神经网络技术在识别防风药材产地或质量仍处于空白阶段,但深度卷积神经网络(Convolutional Neural Networks,CNN)在图像分类上的研究已经展开。Krizhevsky等搭建的AlexNet网络在对大型公开集(ImageNet)进行图像分类识别训练中获得了不容忽视的好成绩。在此基础上学者们相继提出VggNet、GoogLeNet、ResNet和DenseNet等经典的深度卷积神经网络,并广泛应用在植物图像分类任务中。Reyes等利用180余万张图像对卷积神经网络进行预训练,并使用微调思想将学习到的识别能力从其他领域转移到植物识别任务中来。Grinblat等利用卷积神经网络对植物叶片纹理模式进行识别,实现对3种不同豆科植物,即白豆、红豆和大豆的识别和分类。
Dyrmann等通过CNN对22种生长初期的杂草和作物等1万余张在光照、分辨率和土壤类型方面存在差异的植物彩色图像进行种类识别,其准确率为86.2%。Lee等尝试使用卷积神经网络直接从输入数据的原始表示中学习有价值的叶片特征信息,并基于反卷积网络方法对所获取到的特征信息进行直观性分析,结果表明叶片的纹理特征在对叶片进行识别分类方面更具决定性。由于各领域对数据集采集及创建的局限性会严重影响深度网络模型的性能,所以为解决训练样本不足的问题,Nguyen、Ghazi、郑一力等利用迁移学习思想,先将AlexNet、GoogLeNet、Inception V3等经典模型在大规模图像数据集(ImageNet)中进行预训练,然后将得到的预训练模型应用于目标数据集上并进行微调来达到更好的识别分类效果。
大量科学试验证明卷积神经网络引进注意力机制对提高网络性能有着极大的促进作用,所以近年来注意力机制得到快速的发展与壮大。Hu等提出了SE(Squeeze Excitation)机制,它学习特征图中各个通道间的关联得到通道注意力,使网络对信息丰富的通道格外关注;CBAM(Convolutional Block Attention Module)机制则在SE机制基础上进行了进一步地扩展,该机制将特征图按通道进行全局池化,获得空间注意力;BAM(Bottleneck Attention Module)则采用并联的方式将空间、通道两种注意力进行整合;Wang等提出的Non-Local模型通过全局像素点对局部像素点的计算响应,即实现对特征图的全局进行更有效关注,并与三维神经网络有效集成,该模型在视频分类任务中有较好效果;Fu等提出的DANet则探索了特征图中各空间和各通道间的关联关系,分别生成全局通道注意力和空间注意力,该模型在语义分割任务中取得了较好的效果;Li等提出的SK(Selective Kernel)结构采用SE模型和残差网络相结合的思想,能够根据特征图的不同尺度让网络动态地选择不同的感受野,提高了注意力机制的灵活度;Hou等提出的CA(Coordinate Attention)协调注意力机制是将位置信息嵌入到通道注意力模型中,对输入的特征图进行自适应特征细化,可进一步提高网络的性能。
结合相关研究分析,本文尝试将深度学习技术引入中药材产地识别领域,应用于防风药材产地识别。防风药材的表型作为区分防风药材产地的首选器官,受生长年限和人为因素影响,同一产地的防风药材外观形态也极易发生改变。防风药材的颜色纹理特征在同一地区受外界特殊情况影响较小,外部性状较为稳定。但是同物种空间形态和颜色纹理特征较为复杂,区分度较低,对防风产地识别属于精细分类范畴。本文在上述研究成果的基础上,通过分析已有的ResNet和DenseNet卷积神经网络模型的图像特征提取能力,提出了一种改进稠密连接网络用于防风药材产地识别的方法,以期为构建可靠、精准、快速的防风产地识别系统提供理论基础。
防风样品来自吉林农业大学中药材学院中心实验室。该实验室提供了正品防风(根据地域不同,包括关防风、口防风和西北防风)的主要产区的防风样本,包括黑龙江、吉林、河北、甘肃、内蒙古东北部5个产地1 500余个防风样品。将样本展平至白色背景上,在室内自然光下手机拍摄获得每种产地防风图像约3 500张,共拍摄防风药材图像18 543张,充分考虑到各类防风地域分布差异。通过对本数据集图像进行随机裁剪、随机旋转、随机翻转等增广处理,扩充至55 628张防风图像,来增强数据样本,数据集图像信息如图1所示。
图1 防风药材数据集Fig.1 Saposhnikovia divaricata data set
为排除试验存在的偶然性,确保其稳定性,各网络模型训练均采用5折交叉验证的方法,将整个数据集的80%作为测试集,另外20%作为验证集。采用Python脚本程序将整个数据集随机近似均等化分为5部分,每部分逐一作为验证集,另外4部分的图像样本进行对各网络模型的训练,使网络模型在训练过程中训练集与验证集的数量比始终为4:1,本文最终试验结果为5次试验的平均值。数据集划分示例如表1所示。
表1 数据集划分Table 1 Data set partition
稠密连接网络(DenseNet)的组成单元即为稠密模块(Dense Block),稠密模块结构如图2所示。每一个稠密模块由五层网络结构组成,每层网络均含卷积层(Convolution Layer, Conv)、激活函数层(Rectified Linear Units Layer, ReLU)和批量标准化层(Batch Normalization Layer, BN)。
图2 稠密模块Fig.2 Dense block
稠密模块使用了一种更加密集的连接模式,它以一种层与层之间直接连接的方式迭代连接所有的输出。因此,第层的输出x为:
式中[...]表示连接操作,它通过对输出的连接进行特征重用,H的操作定义为:一个批量标准化层(BN)后接激活函数(ReLU)再加一个卷积层(Conv)、随机失活层与池化层。BN层拥有正向及反向传播结构,主要解决梯度消失与爆炸问题。随机失活层通过随机关闭神经元,有效缓解了网络训练过程中信息冗余问题。
由于各产地防风药材的表型在直观上差别不大,需要对其外部纹理及相关色泽等方面进行细粒度分类。因为稠密连接网络可以拥有更深的网络层次,且网络模型参数数量相比较小,具有深层新特征信息挖掘能力强及特征的重复利用率高等优点。因此,成为完成类似于对防风药材产地识别这样细粒度分类任务的首选。但是,这也会增加稠密连接网络的计算量,网络对内存或显存消耗过多,这对处理设备提出了更高的要求。
残差网络是He等提出的一种优异的深度学习算法,这种算法拥有较稠密连接网络更轻型的结构,同时由于残差网络易于优化的特点,也使得大量的学者对其进行了深入的研究。
残差块(Residual Block)的输入与线性输出进行特征信息融合,作为该残差块的整体输出,并通过BN层(Batch Normalized)进行归一化操作。因此,残差模块可有效减少在网络训练过程中出现的梯度弥散、过拟合等现象。
残差模块如图3所示,输入特征信息分别经过图中主干的3个卷积层的运算输出为(,,,),其中第一个1×1的卷积层和第三个1×1的卷积层分别起到降维和升维的作用,以达到节约参数的目的。、、表示在残差模块各层所学习的权重参数,W表示经过残差模块输出的维度方阵,并与(,,,)融合,成为下个残差模块的输入。
根据W的模是否为1来判断残差模块的输入和输出维度相同与否,如果W的模不为1即为不相同,则可利用W将残差模块的输入和输出调整到相同维度。当与相等时表示恒等映射;当与不相等时,则表示残差模块需学习两者之间不同的信息。
图3 残差模块Fig.3 Residual block
注意力机制已经被广泛应用到深度学习领域之中,并对提升网络模型在分类、检测和预测等任务方面的准确率有着突出贡献。广泛应用在卷积神经网络中的注意力机制主要分为:通道注意力机制和空间注意力机制。
虽然通道注意力机制对于提升网络模型性能具有显著效果,但它们通常会忽略位置信息,空间注意力机制在对通道信息进行学习时也存在一定局限性。因此本网络模型引入协调注意力(,CA)模型。CA模型是将位置信息嵌入到信道注意中,对输入的特征图进行自适应特征细化,CA模型的结构如图4所示。
图4 协调注意力机制模型Fig.4 Coordination attention mechanism model
经上述变换网络可学习到优良的全局感受野,编码精确的位置信息。为更好的利用以上学习到的特征信息,通过上述的变换进行连接融合。再利用一个卷积核尺寸为1×1的变换函数,对其进行再一次变换操作,即:
式中表示sigmoid激活函数,然后对g和g进行拓展,作为注意力权重,CA模型的最终输出为:
使残差模块结构可以在增加网络深度的基础上,进一步提高对特征信息利用的准确性与高效性。
根据防风药材数据集图像背景复杂且不单一的特点,对其进行分类训练时,加深了网络对其空间位置特征信息和通道特征信息的依赖。本文按照协调注意力机制原理,将CA模型嵌入到含有跳跃连接的残差模块中,归因于在特征集合相加操作前对分支上残差的特征进行了特征重标定,以实现对网络模型的优化,若对特征集合相加操作后主支上的特征进行重标定,由于在主干上存在0~1的加权操作,在网络较深情况下,进行反向传播优化时在靠近输入层容易出现梯度消散的情况,导致网络模型性能难以获得提升。因此,CA模型分别以水平、垂直两个空间方向对各通道特征进行编码,并将获得的空间位置信息嵌入到通道注意力机制中,对输入的特征图进行自适应特征细化,来适应数据集各类别之间其表型差别性小的细粒度图像分类任务。将CA模型引入残差模块中应用在防风药材产地识别上,使新网络在训练过程中既能学习到目标图像的通道信息又能获取到目标图像的精确位置信息,有效提高网络模型的性能。改进残差块模型结构如图5所示。
图5 改进残差块模型Fig.5 Improved residual block model
在图5中,Conv和BN为一个卷积处理层,具体过程为:一个卷积核尺寸为1×1的卷积处理层,对传入的特征信息进行降维,减少运算量,后接一个卷积核尺寸为3×3的卷积运算层,来进行常规训练;然后,将输出的特征图合并,输入到CA模型,原因在于CA模型内具有大量的非线性优化操作,可以更好地拟合空间、通道间复杂的相关性,并极大地减少了参数量和计算量;接着,通过一个Sigmoid层获得0~1之间归一化的权重,通过一个加权操作将归一化后的权重加权到每个特殊的通道上,使其可以有效增加特征图的通道信息以及空间位置信息;再将输出的注意力特征与原始的输入特征通过短连接相加,使网络性能获得进一步的提升;最后,在接入一个卷积核尺寸为1×1的卷积处理层,来还原输入特征信息的维度,这样可保持网络识别目标的精度和减少计算量。
研究发现,深度残差模块采用残差旁支通路方式善于对特征信息重复利用,但残差神经网络只使用浅层卷积提取特征,缺少深层语义信息表达。稠密模块采用密集连接通路方式,使其可以探索深层新特征,但存在冗余。
经借鉴DCNet网络的重要思想,本文将改进的残差模块引进到稠密网络。本文结合残差块的特征重用特点和稠密块对新特征探索的特点,来提高网络的高效性,有效地解决随着残差块叠加,网络存在梯度弥散的一系列问题,并减少网络参数的运算量。同时,还结合迁移学习思想,对全连接层进行重构,以提高模型非线性表达能力,提高网络的整体性能。
本文提出的改进稠密连接网络结构如图6所示。在图6中,该网络模型包含卷积层、改进残差层、稠密连接层、池化层和重构层5个部分。
图6 改进稠密连接网络模型Fig.6 Improved densely connected network model
1)卷积层:该部分由一个具有64个卷积核大小尺寸为7×7的卷积层构成,卷积的步长为2,填充像素为3,对RGB图像进行卷积处理,提取图像的浅层特征信息。
2)改进残差层:在提取特征之后,所获得的特征信息需要先后经过7个改进的残差模块进行处理,经过该层首先经过两个拥有64个卷积核大小为1×1和3×3的卷积层,起到对特征信息进行降维的作用;然后,将卷积后生成的特征图输入到CA模型,即将传入的特征信息,采用大小为(,1),(1,)的两种池化核分别以水平、垂直两个空间方向对各通道聚合特征。并将上面的特征进行连接操作,使用1×1卷积变换函数对其进行变换操作,并沿着空间维度将水平和垂直方向进行编码的中间特征映射,分解为两个单独的张量;接着,应用另外两个1×1的卷积变换分别将两个单独的张量变换成具有相同通道数的张量并进行连接操作,再经过Sigmoid激活函数将融合之后的通道特征进行自适应加权,再将CA模型输出的深层特征信息与特征提取部分输出的浅层特征信息结合;最后,使用具有64个卷积核大小为1×1的卷积层进行特征融合并恢复到原本维度。
3)稠密连接层:为提升网络对特征信息学习和描述的性能,在网络的深层保留两组稠密模块,每组稠密块由6组1×1和3×3卷积构成。两组稠密块之间由过渡层(Transition layer)链接,过渡层由归一化、卷积核大小为1×1的卷积层和池化层构成。第1组稠密块的输入是CA模型所获得的特征信息经过归一化、ReLU激活函数和卷积核大小为3×3的卷积层等一系列操作,所获取的局部特征信息的串联。这样可以有效缓解在特征提取过程中所造成的空间维度信息丢失的问题,且由于稠密模块设计较为狭窄,大大地降低了网络的参数冗余度。
4)池化层:经过稠密层所获得的特征信息,输入到池化层进行归一化和ReLU激活函数层后进行自适应平局池化,使池化后的每个通道的大小为1×1。
5)重构层:为了提高对防风药材产地识别精度和网络模型的泛化能力,本文引入迁移思想,在ImageNet数据集上进行预训练得到初始化深度模型,并在防风数据集上进行迁移训练。在迁移中,对最后全连接层进行重构,提高网络模型非线性表达能力。具体做法:首先,将原全连接层输入的特征信息传送到具有256个输出的线性层,随后分别经过ReLU函数和Dropout层,后进入256×5线性层,输出为5通道的softmax层,来适应网络模型对各种防风药材产地的精确识别;最后,通过分类器Logsoftmax来对输入的特征信息进行识别判断。本文通过“冻结”网络中初始层的权重,使网络具有抽取图像特征的能力,防止过拟合情况的发生,实现不同产地防风图像自动识别。
试验配置环境为GPU并行计算工作站,处理器为Xeon(R)CPU E5-2680v4、显卡为GeForce GTX 1080Ti、采用Ubuntu 16.04LTS操作系统、软件配置安装Anaconda3-5.2.0-Linux版本,并基于Python 3.6.5编程语言搭建Pytorch的深度学习框架。
本文提出的新网络模型训练时采用的具体试验参数信息如表2所示。为验证新网络模型的有效性,本文以网络模型参数、模型损失以及识别出药材产地准确率作为评价指标。分别选择Vgg16、GoogLeNet、ResNet101和DenseNet121四种经典的卷积神经网络并按照对应原论文中原型框架和参数设置方式对防风药材数据集进行对比试验,结果如表3所示。
经对比试验结果表明,新网络模型在本数据集上识别平均准确率达到97.23%,平均损失仅为0.15,收敛速度也远快于其他网络模型。因此,本研究提出的新网络的性能与其他网络模型对比有较大幅度的提升。各网络模型识别分类准确率及损失曲线如图7所示。
表2 新模型训练参数Table 2 New model training parameters
表3 不同卷积神经网络模型试验结果对比Table 3 Comparison of experimental results of different CNN models
图7 各模型对数据集的识别结果Fig.7 Recognition results of each model on the data set
3.2.1 残差层对模型性能的影响
试验过程中对比网络模型均参照论文中原型框架和参数设置方式,单次训练样本数量为32,输入图片尺度采用256×256像素。根据试验对比发现,DenseNet比ResNet的模型参数少4×10,但是DenseNet对GPU的占用率高达89.2%,且收敛速度慢。
其原因在于在相同深度的这两个网络DenseNet拥有比ResNet更轻的结构,稠密块(Dense Block)中每两层网络之间都为直接连接,能够对特征信息进行直接输入与输出,因此对于一个拥有层网络结构的模块,则该模块的直接连接数仅有(+1)/2个。故每次卷积输入与输出的通道个数要比ResNet少很多,使 BN层和全连接层的运算参数量也相应地减少;但DenseNet比ResNet的特征图信息更加复杂,导致卷积过程的计算量增大,内存的访问次数也随之增加,且内存的访问相对费时,使得GPU占用率过高,训练速度缓慢。
因此,结合DenseNet和ResNet的运算特点,本文通过引进残差模块与稠密模块相结合的新网络相比于其他传统神经网络,既减少网络对内存的访问次数及运算量,弱化网络对资源的依赖程度。又加强了特征传播,鼓励特征重用,并大大减少了参数的数量,改进了整个网络的信息流和梯度,这使得它们易于训练,很大程度上能够克服训练的过拟合。新模型的参数规模仅为8.3×10,GPU的占用率大幅度下降,收敛速度也远快于其他对比网络。
3.2.2 注意力机制对网络模型性能的影响
将本研究提出的新网络中的CA模型替换为不同注意力模型进行防风产地识别试验并进行对比:1)现有经典的通道注意力SE(Squeeze-Excitation)模型,新网络中的注意力模型换成SE模型(简称为Model(SE));2)CBAM(Convolutional Block Attention Module)模型则是在通道注意力机制基础上进一步串联空间注意力机制而扩展所得到的,将新网络中的注意力模型换成CBAM模型(简称为Model(CBAM));3)BAM(Bottleneck Attention Module)模型则是采用并联的方式将空间注意力和通道注意力整合得到的,将新网络中的注意力模型换成BAM模型(简称为Model(BAM));4)CA(Coord Attention)模型则是将位置信息嵌入到了通道注意力中所得到的轻量级网络,新网络原模型(简称为Model(CA));5)将新网络中的注意力模型去掉(简称为Model(NO)),各网络模型对防风药材的产地识别结果如表4所示。
表4 不同注意力机制模型识别结果对比Table 4 Recognition results comparison of different attention mechanism models
为了证明本文提出的加入CA模型的有效性,进行了一系列的关于注意力机制的试验,与广泛应用的注意力模型SE、CBAM和BAM进行对比,其结果列于表4中。由试验结果可以看出,Model(NO)网络对防风药材产地识别的平均准确率达到 93.84%。而 Model(SE) 、Model(CBAM)、 Model(BAM)和Model(CA) 网络对防风药材产地识别的平均准确率分别达到94.71%、95.94%、95.07%和97.23%。由此表明加入以上注意力机制的新网络对防风药材产地识别的准确率都有不同程度的提高,分别提高了0.87个百分点、2.1个百分点、1.23个百分点和3.39个百分点。这证明了注意力机制的引入对提高网络模型准确率的有效性,其中,CA模型对网络模型准确率的提升效果最佳。由于只有SE模型是基于通道注意力机制,而文中其他注意力模型都是通道注意力机制与位置特征信息的有机结合。由SE与CBAM、BAM、CA注意力对比试验结果可知,空间特征信息似乎对网络有较大贡献。
原因在于,CA机制与传统通道注意力机制的工作方式大相径庭,CA模型是通过将全局池化变换为两个一维特征编码的操作,并采用大小不同的两种池化核分别以水平、垂直两个空间方向对各通道聚合特征。通过这种方式,网络可以从不同方向学习到远程信息的交互性信息并获取样本目标空间特征信息。
将得到的特征图分别编码为具有全局感受野和精确位置信息的注意力图,可以将其应用于输入的特征图作为输入的完善信息,以增强对待识别目标的表示。所以当使用原网络中的CA模型时,网络获得的识别效果最佳。
针对与CA模型同为空间和通道特征信息结合且试验效果较好的CBAM模型进行结构对比分析,发现CA模型相对于CBAM模型所提出的位置信息编码方式的优点是双重的,首先CBAM模型中的空间注意机制将通道维压缩为1,从而导致信息丢失。但是CA模型使用适当的缩小比率来减小瓶颈中的通道尺寸,从而避免过多的信息丢失。其次,CBAM模型利用内核大小的卷积层7×7编码局部空间信息,而CA模型集中于通过使用两个互补的一维全局池化操作对全局信息进行编码。这使网络能够集中精力捕捉视觉任务必不可少的空间位置之间的长期依赖关系。
如图8所示,在最后一个构建块中对嵌入CA模型方法前后的新网络所生成的热力特征图进行可视化。使用Grad-CAM作为可视化工具。很明显,CA模型可以更准确地定位到感兴趣且有价值的区域
图8 嵌入CA模型前后新网络热力特征图的可视化结果Fig.8 Visualization results of the thermal feature maps of the new network before and after the CA model is embedded
3.2.3 数据扩充对网络模型性能的影响
为更好提高新网络模型的识别性能,本文分别通过以下3种方式对数据集进行数据扩充:1)随机裁剪尺寸为256×256像素;2)随机翻转;3)通过多种角度进行随机旋转。以新网络为试验模型,在其他参数相同的条件下,分别对扩充前数据集(18 543张)和扩充后数据集(55 628张)进行对比试验。准确率曲线如图9所示。
图9 数据扩增前后准确度曲线Fig.9 Accuracy curve before and after data amplification
通过对数据进行预处理操作提高了数据样本图像的多样性,并可以抑制网络训练过程中过拟合现象的发生。新网络模型对扩充前后数据集进行对比训练试验,但试验结果显示其对模型准确度提升效果并不明显,其试验结果分别是96.34%、97.23%,两者识别准确率相差不到1个百分点。说明在应用迁移学习模式背景下,进行防风药材数据集的扩充对于提升网络模型识别分类性能的影响较小,原因是预训练模型在大型图像数据集上已经获得了较多的知识信息储备,进而弱化了数据扩充的作用。
试验初期准确率波动性大的主要原因在于:为了减少数据预处理所占用存储空间,所以试验将部分数据预处理操作采用了在线动态的方式来进行。在试验过程中,从数据集中随机获取部分样本图像进行归一化、中心裁剪等相关预处理,并重新排列初始数据集的默认图像顺序,也伴随偶然性。但伴随训练的深入,网络模型逐渐健硕,数据集回归原始样本图像分布,所以准确率波动幅度逐渐减小,网络模型的泛化性随之提升。
1)本文构建了一个防风药材产地图像识别数据集,该数据集可以作为基准数据集对当前主流机器学习方法进行验证。通过分析已有的ResNet和DenseNet卷积神经网络模型,本文提出一种改进稠密连接网络模型。
2)新网络模型构建过程为:首先对残差模块进行改进,即在残差模块中引入了协调注意力机制(Coordinate Attention),来适应各产地防风之间表型差别性小的细粒度图像分类任务,并提高分类识别的准确率。再将改进的残差模块与稠密模块进行具有针对性的结合,这样可提高网络探索新特征的灵活性和利用特征的高效性,减少网络参数的运算量,增强网络模型的泛化性。
3)通过对比试验,各网络模型在新防风药材数据集上的结果表明:经典的传统的神经网络Vgg16、GoogLeNet、ResNet101和DenseNet121对防风药材产地识别的准确率分别为:86.74%、88.56%、91.28%和93.46%。而改进后的新网络对防风药材产地识别的平均准确率可达97.23%,本文提出的新网络对比以上经典的传统神经网络对防风药材产地识别的平均准确率有较大程度的提高。并且本文提出的新网络在训练过程中仅需要约48轮便可达到收敛的状态;但以上其他神经网络再对比试验中需要上百轮才可以达到收敛状态。综上本文提出的新网络模型参数仅为8.3×10,识别准确率远高于其他对比网络;也极大地提高了收敛速度;证明新模型对防风药材产地精确高效识别的有效性。
将深度学习应用于中药材领域后,可以使中医药在临床医疗上取得更快、更健康的发展,为中药材的道地性识别问题在理论与实践中得到更好的解决。