林志玮 丁启禄 刘金福
(1. 福建农林大学计算机与信息学院 福州 350002; 2. 福建农林大学林学院 福州 350002; 3. 福建农林大学林学博士后流动站福州 350002; 4. 福建省高校生态与资源统计重点实验室 福州 350002; 5. 福建农林大学海峡自然保护区研究中心 福州 350002;6. 中国人民银行福州中心支行 福州 350003)
鸟类种群因其对森林与湿地生态系统评价与监测起重要作用,故对其准确分类一直为研究的热点。传统鸟类种群识别由于野外数据的难获取性,主要人工依据经验对鸟类进行实体识别,该方法在一定程度可保证识别的精度,但需消耗大量人力与时间,仅适用于特殊鸟类的监测识别,无法解决大范围森林鸟类监测的问题。随着硬件设施的升级,获取大量野外数据成为可能,而且随着机器学习分类算法理论的发展,基于野外鸟类数据,提取不同鸟类图像特征,如Bag of Words特征(Xieetal., 2103; Zhangetal., 2012)、SIFT特征描述算子(Marinietal., 2015)、Histogram of Gradient特征(Farrelletal., 2011)及Pyramidal Histogram of Words特征(Zhangetal., 2012),或语音特征,如MFCC特征(Marinietal., 2015); 进一步结合机器学习分类算法,如人工神经网络分类算法(Nadimpallietal., 2006)、Stacked Evidence Trees模型(Martinez-Munozetal., 2009)及支持向量机(Zhangetal., 2012; Marinietal., 2015)作等为分类器,建立鸟类种群分类模型。基于传统机器学习分类算法建立鸟类种群识别模型具有一定的有效性。但传统机器学习分类算法需根据分类影像的特征,设计适用的分类特征,才可保证较高分类精度。而设计分类特征,需依据个人经验以及大量的试验而得,具有较大的不确定性和人工成本。
自动提取特征可避免设计特征的难题,深度神经网络为自动提取特征的有效算法,其通过网络自身的不断学习,得到较为稳健的特征向量,结合适当的分类器,可得到优异的分类效果,在众多分类任务表现优异。基于深度卷积神经网络的鸟类种群识别,根据其模型训练是否采用鸟类部位信息可分为鸟类单影像的分类模型和基于鸟类部位的分类模型。对于鸟类单影像分类模型,其网络输入仅为鸟类原图,通过设计不同的网络框架,如双线性卷积神经网络(Linetal., 2018)、OverFeat深度卷积神经网络(Sharif Razavianetal., 2014)、Inception-V3模型(Krauseetal., 2016)、双跳跃网络模型(Chengetal., 2018),构建鸟类种群识别模型。双线性卷积神经网络主要采用两条平行的网络框架,2个框架结构可存在不同,为了使2个网络所抽取的特征有效的结合,将2个网络框架特征图对应位置计算其外积。OverFeat深度卷积神经网络提取的鸟类分类特征,采用支持向量机训练鸟类种群识别模型,其中训练与测试均采用鸟类部位框信息,验证深度卷积神经网络对鸟类种群识别的有效性。Inception-V3模型结合通过网络搜索的大量鸟类影像数据及CUB200-2011鸟类数据,经训练能使分类精度大幅度提高。双跳跃网络模型首先对鸟类标签做整理,将归属同类的鸟类标记为同一标签,然后构建2个相同的网络框架同时训练鸟类原始标签和子类标签,子类分类网络框架训练时指导原始标签网络框架训练。基于鸟类单影像分类模型具有分类简单,仅需输入鸟类原图即可的优势,但由于其未利用鸟类部位信息导致其对于相似鸟类种群识别效果不佳。故许多研究者基于鸟类部位信息,如R-CNN物体定位框架(Zhangetal., 2014)、关键点群检测算法 (Bransonetal., 2014)或影像分割模型FCN(Longetal., 2015)等提取鸟类部位信息,通过不同深度卷积神经网络分别提取各部位图像分类特征,将各部位图像特征合并或叠加后,传入支持向量机(Zhangetal., 2014; Bransonetal., 2014)、Softmax分类层(Weietal., 2018; Huangetal., 2016)进行分类,建构不同的鸟类种群识别模型。
鸟类种群识别因其具有组间差异小,组内差异大的分类特性,导致鸟类种群识别成为一项高难度的分类任务。利用单影像鸟类影像数据,设计鸟类种群识别模型的识别模式具有训练简单方便,分类效果较优的优势,但由于鸟类间差异一般集中于其特定部位,导致该识别模型具有一定的分类精度瓶颈,利用鸟类其他信息,如部位信息,已成为解决鸟类种群识别问题的重要手段。故本文基于鸟类影像数据以及其部位标注数据,结合深度卷积神经网络技术,提出融合模块(Fusion block)特征融合结构,构建融合全域与局域特征的深度卷积网络鸟类种群识别模型,以期为森林与湿地的监控与治理提供新的手段,推进我国生态文明建设。
研究表明人类识别物体的过程可分为2个步骤,首先识别物体的整体特征,其次识别物体的局部特征(Luetal., 2018)。依据人类识别物体的过程,笔者基于鸟类影像数据,结合深度卷积神经网络技术,提出结合全域与局域部件的深度卷积网络鸟类种群识别模型(图1)。
图1 鸟类种群识别模型框架Fig.1 Classification framework of bird species in Fujian
该模型由2个子网络组成,局部和全局特征抽取模块,分别抽取224×224像素原影像的局部和全局鸟类特征,将其全局池化后的特征进行融合作为最终分类特征,并采用softmax分类层进行预测类别。对于全局特征抽取模块,其主要采用DenseNet(Huangetal., 2017)模型抽取鸟类的全局特征; 对于局部特征抽取模块,采用鸟类局部影像作为模型的输入,基于DenseNet模型抽取鸟类局部特征,为了进一步抽取全局和局部融合后的分类特征,使得分类特征更加具有分类性,选择全局及局部2个模块所抽取的大小为14×14像素卷积特征,利用跳跃结构进行交互,提出融合模块(Fusion block)结构,将全局与局部特征进行有效融合。为了习得融合后的有效特征及网络框架权重,在融合后使用稠密块对融合后的特征图进行权重学习、更新与特征抽取
在模型建构过程中,采用鸟类真实部位标注影像训练分类模型。但由于现实测试时,无法提供真实标注影像数据,故采用Faster R-CNN作为局部部位检测模型。因此,对于模型的建构过程,Faster R-CNN模型与分类模型的训练并未同时完成。首先预先训练Faster R-CNN模型用于测试时使用; 其次,采用鸟类真实部位标注影像训练分类模型; 最后,将测试影像通过训练完成的检测模型获得部位信息,并与原影像一起传入训练完成的分类模型,进行影像的预测。
该模型主要存在以下优势: 1)根据人类识别物体流程,结合鸟类整体和局部信息,设计多框架鸟类识别模型; 2)采用跳跃连接机制将全局和局部特征抽取模块进行交互,并提出融合模块结构进行全局和局部特征融合。3)模型仅需训练阶段提供鸟类部位信息,测试阶段可自动提取鸟类部位信息,可方便快捷地对现实场景中鸟类进行识别。
笔者为了可有效地将全局和局部特征进行有效融合,基于DenseNet模型框架,提出融合模块(Fusion block)进行特征融合。DenseNet模型主要由稠密块(Dense block)和转化层(Transition layer)组成(图2)。稠密块由多个残差块堆积组成,负责模型特征的抽取,每个残差块均与后面残差块之间建立跳跃结构进行特征融合,其中残差块为2层卷积组合,并将卷积输入与卷积结果进行融合的结构。由于稠密块将特征进行累计融合,导致模型特征维度较高,故设置转换层,其主要由卷积层和池化层组成,卷积层采用1×1的卷积核通过减少卷积核的个数降低特征图的张数; 池化层采用最大池化操作缩小特征图的池化。通过2个维度的降维,大幅度减少模型的参数量。
图2 稠密块与转换层Fig.2 Dense block and transition layer
融合模块主要采用2种不同的特征融合方式,具体见图3,操作为: 1)将全局和局部特征采用对应元素加法计算,然后将融合的特征进行1×1的卷积和操作池化,对特征图进行降维处理(图3a)。2)将全局和局部对应特征采用串联的方式增加特征维度,先通过1×1的卷积层对其降维,降维比率为0.5,最后将融合的特征进行1×1卷积和池化操作(图3b)。
图3 融合模块结构Fig.3 Structure of fusion block
对于融合模块结构,假定xglobal和xlocal分别为输入的全局和局部鸟类特征图,其中xglobal和xlocal均为m×m的2D数组;P(x)为池化变换;F(x)为卷积核为1×1的卷积变换;y表示融合模块的输出结果。以第一种特征融合方式为例,则网络的前向过程公式具体如下:
(1)
对于网络的反向传播过程,假定网络训练过程中损失函数为L,则xglobal和xlocal梯度公式如下:
由上述网络反向传播求导公式中可知,融合模块对梯度具有分流的效果,可将网络中的梯度同时传给全局和局部特征提取模块,在一定程度上削减了梯度弥散的程度,保证网络训练过程梯度的稳定性。
数据是建立模型的基本要素之一,数据质量的优劣对模型分类的效果具有重要的作用。由于当前尚未存在同时具有鸟类头部、鸟类躯干及鸟类全身3部份标注的数据集; 因此,以福建鸟类为对象,通过计算机网络爬虫技术,从网上收集并整理鸟类影像数据,建立福建鸟类数据集(IMLab-Birds100-2018),以期填补鸟类影像数据集在头部及躯干部份数据的空白。
为了有效地节约时间和人力成本,利用计算机爬虫搜索下载技术,结合人工搜索作为辅助,收集福建鸟类数据。福建具有大面积的森林与湿地,湿地与林地鸟类占比大,且本研究旨在验证基于深度卷积神经网络对福建鸟类种群识别的有效性,所以依据福建鸟类名录,随机选取100种福建湿地与林地鸟类作为研究对象(图4),每类鸟类数据收集100张影像,共10 000张图。以中国鸟类野外手册(马敬能等, 2000) 作为人工识别分类依据,结合野外鸟类专家意见,采取多轮方式整理福建鸟类图像数据,每轮皆有多人参与,以众数方式决定每张图片归属。
通过福建鸟类影像数据的整理,已准确标记该数据库单张影像数据标签。由利用鸟类部位信息建立鸟类种群识别模型可提高模型识别精度,故采用人工标记的方式,参照CUB200-2011(Welinderetal., 2010)数据集标注规则,对福建省鸟类数据库进行鸟类头部、躯干以及全身标定。
图4 福建鸟类示例Fig.4 Sample images of bird species in Fujian
基于鸟类影像数据,结合深度神经网络理论,设计鸟类种群分类网络框架并训练模型。试验设置如下: 1)试验环境。本文采用Ubuntu16.04系统,硬件规格为: 显卡GTX1080Ti(11G),CPU(Core I7)、内存(32G),并采用Google开源的TensorFlow1.9深度神经网络库实现福建鸟类种群识别网络模型构建与训练。2)IMLab-Birds100-2018数据训练和测试集划分。依据5∶5的划分数据比例,采用分层随机抽样的方式,首先对每一类数据随机抽取50%的数据为训练数据,其余划分为测试数据。其次,将每一类所抽取的数据汇总形成鸟类数据的训练与测试集,其中训练集和测试集均包含5 000张鸟类影像。3)模型训练阶段参数设置。由于模型训练过程Mini-batch设置过大将导致模型质量下降(Keskaretal., 2017),且受显存大小限制,故Mini-batch设置为16; Epoch设置为200; 损失函数采用交叉信息熵; 激活函数采用Relu函数; 梯度下降算法采用SGD; 初始学习率设置为0.01,并采用学习率余弦衰减策略(Loshchilovetal., 2017),在训练过程对学习率进行调整。此外,本文对于所涉及模型均采用迁移学习(Yosinskietal., 2014; Gaoetal., 2018; Tanetal., 2018),即利用在ImageNet训练完成的模型的权重作为训练新数据时模型的初始化权重,可有效提高模型收敛速度和分类精度。
模型评价指标指基于真实值和预测值设计可反映其模型分类效果的指标。对于分类模型主要采用总体分类精度(Overall accuracy)和Kappa值(Cohenetal., 1960),具体公式如下。
总体分类精度公式:
(4)
Kappa值公式:
(5)
式中:po表示每类正确分类的样本数量之和除以总样本数,即分类正确率;pe主要采用以下公式计算:
(6)
式中:C表示样本类别数;n表示样本总数;ai表示第i类真实样本数量;bi表示第i类预测样本数量。Kappa系数位于[-1,1]之间,但一般Kappa系数仅位于[0,1]之间。随着Kappa系数增高,其一致性越高,表明模型分类越优。
基于鸟类3种部位以及原影像数据,采用本文所提出鸟类种群识别模型,分别建立3种不同部位鸟类种群识别模型,其中选择DenseNet-121作为其特征提取基本框架,特征融合方式采用串联计算。对于模型训练时均采用鸟类部位标记的真实标签,测试时采用2种方式进行验证,一种为采用真实的鸟类部位标签作为输入,另一种为采用Faster R-CNN模型检测的结果作为测试输入,验证模型的分类精度(表1)。对应表1中的边界框栏位,其中“Yes”表示为测试采用真实部位标签作为输入,“No”则表示采用定位模型预测结果作为测试输入。由于Faster R-CNN模型检测存在一定的误差,可能未成功或正确检测出影像中鸟的部位信息,导致模型输入影像缺失或错误。针对影像缺失无法进行预测的情况,规定如影像未检测出鸟类部位影像,则将鸟类原影像作为模型输入。另外,测试时不更新模型,对于检测错误的鸟类不信息,不会产生误差传播,适应野外鸟类检测需求。
由表1可知,基于鸟类不同部位的分类模型的正确率均达到90%以上,其中基于鸟类头部数据的分类模型分类精度最高,基于鸟类躯干数据的分类模型识别率最低,表明鸟类头部是鸟类相对明显的分类特征。对比2种不同的测试方式可知,对于3种鸟类部位识别模型,测试阶段采用部位真实标签的分类效果均高于采用Faster R-CNN模型定位的结果。造成2种测试方式分类精度差异主要因为Faster R-CNN模型检测结果存在一定的误差,但该误差对于鸟类的分类精度影响较小,基于不同鸟类部位数据的分类模型对于2种测试方式的分类精度仅相差0.36%~0.92%之间。对比3种鸟类种群识别模型的Kappa可知,基于鸟类头部数据的分类模型Kappa值最高,基于鸟类躯干数据的分类模型Kappa最低,与3种鸟类种群分类模型的总体分类精度呈现一致现象。
综上所述,采用2种测试方式对3种鸟类不同部位分类模型精度影响较小,且考虑现实环境识别无法提供测试影像真实部位信息,故后文仅对采用Faster R-CNN模型结果作为输入的测试结果进行分析。
表1 各部位鸟类种群分类模型结果Tab.1 Results of bird classification model for each part
为了分析3种鸟类部位分类模型对鸟类种群识别是否存在不同的偏好,即分类时所注重鸟类的特性是否一致,选择3种鸟类部位分类模型识别率最高的前5种鸟示例(图5)对其进行比较。由图5可知,3种鸟类部位分类模型识别率最高前5类既存在重叠的类别,也存在差异,其中三宝鸟(Eurystomusorientalis)为3种鸟类种群分类模型识别率最高的类别,该鸟类除头部为黑色外,其余全部为蓝色,具有明显可区分特征。对于基于鸟类头部数据的分类模型,其相对注重鸟类头部的颜色和纹理特征,其模型识别率最高前5类均具有鲜明颜色和纹理特征。对于基于鸟类躯干数据的分类模型,其主要注重鸟类躯干的颜色分布特征,其模型识别率最高前5类中,每一类的躯干的主色调均不同,且存在明显的可区分度。对于基于鸟类全身数据的识别模型,一定程度的融合其他2种模型所注重特征,即注重鸟类躯干特征显著的鸟类,亦注重鸟类头部特征明显的鸟类,强化了单鸟类躯干特征,弱化了单鸟类头部特征,导致其分类精度介于基于鸟类头部和躯干分类模型之间。
为了分析不同的特征融合方式对鸟类分类模型的影响,且基于鸟类头部数据的分类模型分类精度最高,故基于IMLab-Birds100-2018鸟类头部数据,采用DenseNet-121模型,根据不同的特征融合方式,分别建立鸟类分类模型,结果见表2。从特征融合方式分析,将2个模型框架特征图直接采用加法运算融合的特征图分类效果较优,总体分类精度提高0.5%。
表2 不同特征融合方式的鸟类分类模型正确率比较
Tab.2 Comparison of accuracy of bird classification
using various fusion methods
特征融合方式Feature fusionTep1正确率Top1 accuracy(%)Δ(%)串联Concat94.30相加Add94.800.5
考量后续欲分析的NABirds鸟类数据集缺乏分类精度较高的头部标注信息,因此采用全身特征进行分析,结果见表3。从特征融合方式分析,将2个模型框架特征图直接采用加法运算产生的特征图分类效果较优,总体分类正确率将近提高1%。
图5 3种鸟类种群识别模型每类分类精度前5名鸟类影像Fig.5 Top five bird image for each type of classification accuracy of the three bird recognition models
表3 不同深度及特征融合方式模型正确率比较Tab.3 Comparison of correctness rates of different depth and feature fusion modes
在最优特征融合方式下,为了验证全局和局部信息融合的有效性,基于IMLab-Birds100-2018,采用DenseNet-121模型,选择鸟类原图、鸟类全身、鸟类躯干以及鸟类头部数据分别训练单框架鸟类分类模型,具体结果见表4。由表4可知,融合模型分类精度最高,分别高于仅基于原图、鸟类头部、鸟类躯干以及鸟类全身的分类模型6.92%、3.40%、7.40%、0.30%,表明将全域和局域信息融合具有一定的有效性。
表4 不同训练数据模型精度对比Tab.4 Comparison of models for different training data
为了分析3种鸟类种群识别模型(原图+头部,原图+躯干,原图+全身)对每类鸟类种群识别精度的分布情况,首先按识别精度将0~100%划分为10等份,每一份间隔10%。其次,将3种鸟类部位模型,每类鸟类种群识别精度按其所在区间进行累加,获得3种模型鸟类种群识别率各区间分布数据,并将其绘制成直方图(图6)。上述试验,采用Densenet-121模型,原图+头部模型使用相加融合方式,其余模型采用串联融合方式,具体实验结果见图6。由图6可知,3种鸟类部位分类模型类别分类精度区间数量最高的为90%~100%,且整个直方图呈现右偏现象,其中基于鸟类头部分类模型所达数量最高,为84%(即100类中84类分类精度达90%以上),基于躯干分类模型所达数量最低。对于基于鸟类头部的分类模型,其分类效果是3种分类模型分类最优,最低类别分类精度达50%以上,且每类分类精度低于70%的仅占其总类数的5%。对于基于鸟类躯干的分类模型,其分类精度为3种分类模型最低,每类分类精度低于70%占其总类数的7%,且其每类分类精度90%~100%的比例,比基于鸟类头部和全身数据的分类模型占比分别低了19%和11%; 每类分类精度80%~90%的比例,比基于鸟类头部和全身数据的分类模型占比分别高了16%和8%。对于基于鸟类全身数据的分类模型,其分类精度介于其他2个模型之间,每类分类精度低于70%占其总类数量的比例与基于鸟类头部数据模型一样,均为5%,但其存在1%的类别数量分类精度低于50%。此外,其每类分类精度90%~100%的比例,比基于鸟类头部数据的分类模型占比低了8%,每类分类精度80%~90%的比例,比基于鸟类头部数据的分类模型占比分别高了8%。
图6 3种鸟类种群分类模型每类分类精度Fig.6 Statistical classification chart for each type of classification of three bird classification models
为了分析3种鸟类种群分类模型错误识别的类别是否具有相似以及错误分类的原因,首先选择每个模型类别分类精度最低的5类鸟类,其次,计算5类中每类被错分率最高的3类鸟类比例,并按降序排列将其绘制成条形图(图7),条形图中绿色条形标注该类鸟的真实标签,其他颜色按从上到下标注的鸟类名称分别表示该类鸟被错分鸟类的类别名称,其中条形图的横向长度表示该类鸟类被错分为条形所标注鸟类的比例。由图7可知,3种鸟类种群分类模型错分率最高的前5类鸟类存在较高的相似性,其中3种分类模型错分率最高的前5类鸟类中相同鸟类为: 大杓鹬(Numeniusmadagascariensis)、白腰杓鹬(Numeniusarquata)以及牛头伯劳(Laniusbucephalus)。对于大杓鹬与白腰杓鹬,2种鸟相互为其各自被错分率最高的鸟类,主要由于2种鸟类体态未存在明显可区分特征,最大差别仅为白腰杓鹬的腰及尾较白,而大杓鹬的嘴相对更长以及下弯明显,均较为不明显(马敬能等, 2000),导致模型对2种鸟类相互错误识别。对于牛头伯劳,该鸟被错分率最高的基本为其较为相近的红尾伯劳(Laniuscristatus)和虎纹伯劳(Laniustigrinus),由于其均属于伯劳科伯劳属,故其鸟类间具有较高的相似性,造成模型的误判。由上述可知,3种分类模型错分类别具有较高的相似性,对于错分的类别主要由于其类间具有较高的相似性,未存在明显的可区分特征,导致模型识别错误。
综上所述,本文所提出的鸟类种群识别模型具有较高的分类精度,其中基于鸟类头部数据的分类模型识别率最高,基于鸟类躯干数据的分类模型识别率最低。此外,通过对比3种鸟类种群分类模型的错误分类情况,发现类间具有高相似性的鸟类集合,由于其鸟类本身未存在显著分辨特征,导致模型对该集合鸟类种群分类精度下降。
为了验证笔者提出的鸟类种群分类模型的有效性,选择Inception-V1(Szegedyetal., 2015)、Inception-V2(Ioffeetal., 2015)、Inception-V3(Szegedyetal., 2016)、ResNet-50、ResNet-101、ResNet-152、DenseNet-121、DenseNet-169以及Bilinear-CNN(Linetal., 2018)模型作为对比模型,其中所对比的模型均采用ImageNet预训练模型权重初始化网络框架权重,所有输入影像数据均放缩到224×224像素,具体结果见表5。
由表5可知,本文提出模型的总体正确率分类精度最高,达94.80%,高于Bilinear-CNN模型12.36%,DenseNet-169模型6.50%。对比各模型Kappa值可知,本文所提分类模型的Kappa最高,达0.95,具有较好的一致性。对比各模型的参数量可知,ResNet系列模型的参数量相对偏高,DenseNet系列模型参数量相对较低,ResNet系列模型的分类精度总体低于DenseNet模型,表明DenseNet模型对于鸟类种群识别模型更有效,且随着DenseNet模型层数的上升,模型的分类精度有一定提升,相对于DenseNet-169模型参数量,本文所提模型参数量仅高于1.46×106个,但模型总体分类精度大幅度提高6.5%。由上述可知,本文所提出鸟类种群识别模型分类精度优于其他模型,具有较高的分类精度,一定程度验证了本文所提模型的有效性。
表5 各模型分类精度汇总Tab.5 Summary of classification accuracy of each model
进一步分析各模型的收敛速度(图8),选择各系列模型中总体分类精度高的模型作为分析对象,具体模型为Inception-V2、ResNet-152以及DenseNet-169等模型,并将所选模型训练过程损失函数的值绘制成曲线。由图8可知,各模型的训练的损失函数趋势基本一致,均于训练过程前25个epoch内函数损失值相继降到0~1之间,之后一直稳定处于0.75左右,表明各模型训练平稳,训练所得参数具有可靠性。此外,对于笔者所提出模型,其损失函数收敛曲线较早稳定,表明特征融合结构对模型训练时梯度具有一定的分流左右,可提高模型收敛速度。
图8 模型训练loss曲线Fig.8 The model training loss curve
为了验证本文所提鸟类种群分类模型对其他鸟类数据识别是否具有适用性,故本文基于NABirds(Yinetal., 2018)鸟类数据集,采用本文所提分类模型,建立鸟类种群分类模型,特征融合方式采用加法运算融合。NABirds鸟类数据集包含555种鸟类,其中每一类鸟类最高样本量为120张,最低样本量为13张,总训练数据影像张数为23 929,总测试数据影像张数为24 633,共48 562张鸟类影像。各类数据分布统计见图9,将每类鸟类的样本数量,按区间[10,130]每隔20等份划分6份。由图9可知,NABirds数据集类别样本数量分布较为分散,类别数据量间存在较大的不平衡,其中类别样本数低于50张的占数据总类数的11%,且将近一半的类别样本数量低于100张。因此,相对于本文所收集的IMLab-Birds100-2018数据集,NBirds数据集具有较大的分类难度。虽然NBirds数据集包含较多的鸟类种类及图像张数,但其只有原图标签及全身标注,缺乏头部及躯干标注。为验证本文所提鸟类种群分类模型的适用性,采用原图及全身特征进行特征融合。
1:[10,30); 2:[30,50); 3:[50,70); 4:[70,90); 5:[90,110); 6:[110,130)图9 NABirds数据集各类数量分布统计Fig.9 Various types of distribution statistics for NABirds dataset
对比Van Horn等(Van Hornetal., 2015)、Bilinear CNN、Yin等(Yinetal., 2018)模型在NABirds数据集的总体分类精度(表6),本文所提模型具有较好的总体分类精度,基于DenseNet-169模型的总体分类精度高于其他模型,其中基于DenseNet-121模型的总体分类精度高于大部分对比模型,相比Dubey等(Dubeyetal., 2018)分类精度低了0.59%,这主要因为NABird数据集较为复杂,Dubey等模型采用了DenseNet-161模型,层数高于DenseNet-121,可抽取更具有效的分类特征。总体而言,一定程度说明DenseNet-169模型对于复杂的数据,其拟合效果优于其他模型。由上述可知,笔者所提鸟类模型对其他数据集具有一定的适用性。
表6 模型总体分类精度对比Tab.6 Comparison of overall classification accuracy
准确的识别鸟类种群信息,对森林与湿地的质量评价与监测具有重要意义。本文以基于鸟类影像数据,结合深度神经网络理论基础,提出融合全域与局域特征的深度卷积网络鸟类种群识别模型,该模型主要分为2个模块,分别负责提取鸟类的全域及局域部件特征。通过在2个模块间建立跳跃结构,提出融合模块(Fusion block) 结构进行特征融合,使模型抽取的全局和局部特征进行有效的传递; 最后,对比Inception、ResNet、DenseNet、 Bilinear-CNN等模型以及NABirds鸟类数据集,验证模型的有效性和适用性。研究结论如下: 1)基于本文所提出模型,采用不同鸟类部位影像建立鸟类种群分类模型均具有较高的分类精度,其中分类精度最高的为基于鸟类头部影像数据的分类模型。2)通过对比Inception-V1、Inception-V2、Inception-V3、ResNet-50、ResNet-101、ResNet-152、DenseNet-121、DenseNet-169以及Bilinear-CNN模型分类精度,本文所提出鸟类种群分类模型识别精度均高于上述对比模型,验证了模型的有效性。3)通过将本文所提模型应用于NABirds鸟类数据集,并对比其他模型的总体分类精度,本文所提鸟类种群分类模型总体分类精度表现较好,验证了模型在其他数据集的适用性。综上所述,本文所提模型具有较高分类精度和一定的适用性可为森林与湿地的监控提供有力的支持。