邓 颖,吴华瑞,朱华吉
(1. 国家农业信息化工程技术研究中心,北京 100097;2. 北京市农业信息技术研究中心,北京 100097;3. 农业农村部农业信息软硬件产品质量检测重点实验室,北京 100097)
柑橘是隔年结果,花量决定果量,越早的进行花朵负载监测,就能越早进行生产决策调整:柑橘定植后1至3 年期间应重点增加树冠面积,尽量少开花甚至不开;进入结果期的衰弱树也要少开花;进入结果期树枝生长势旺、开花少的树要进行促花。因此,柑橘种植若要获得优质高产,需科学合理的调节花量。柑橘树开花数量多,单株花量达数千至数万朵不等,不论是人工统计还是机器识别都无法做到精确地统计柑橘花量,目前通常是果农用肉眼和经验进行大致的花量预估。
国内外开展了很多柑橘植株负载监测的研究,其方法大多使用颜色特征、超声波、航空图像等对柑橘果实进行测量。Ye 等[1]利用航空高光谱图像来测量柑橘果实数量,采集4、5、6 月份的共72 张柑橘树图像,利用BP 神经网络分析柑橘果实量与树冠平均反射率的关系,神经网络训练结果表明5 月份采集的柑橘图像和柑橘果实量之间的相关性好于4 月和6 月。Annamalai等[2]设计了一个基于机器视觉的实时柑橘果实检测系统,在RGB 颜色模型中,通过阈值分割法将柑橘从背景中分离出来,然后分析柑橘识别个数与果实数量的关系,因为仅使用了一个阈值,并不能适应自然条件下的复杂图像,柑橘识别数量与实际数量之间的相关系数较低,仅为0.79。张亚静等[3]利用颜色信息对自然条件下的树上柑橘果实进行识别试验,并分析果实个数、总面积、总周长与果实数量的关系。上述研究均应用于柑橘结果期对果实的数量计算与统计,但不能在花期进行负载监测。近年来,中国智慧农业发展迅猛,已有高新技术企业利用梨树的树冠垂直拍摄面识别梨花,进而统计梨花数量。通常情况下,柑橘树的挂花数量远高于梨树,且梨树花期几乎无树叶遮挡,柑橘则存在树叶和花朵之间的互相遮挡、重叠等情况,在开花数计算难度上远高于梨树。
本研究利用图像实例分割技术对柑橘树照片进行花朵识别与标记,解决了小尺度花朵目标识别难的问题,通过获取实例分割边框(Bounding Box)中的柑橘花朵和柑橘花苞2 个类型的实例总数,做到高精度低时耗的局部树冠图像花量计算,为柑橘植株发育期的花量科学管控提供智能决策依据。
在计算机视觉领域中,图像处理网络模型众多,本研究选取基于实例分割(Instance Segmentation)[4-6]技术的掩膜区域卷积神经网络(Mask R-CNN)网络框架进行花朵识别和花量计算[7-10]。若要从图像中得到柑橘花朵数量,首先需对图像中的各实体类别进行逐一识别,并计算识别出的柑橘花朵实体的个数,该问题可以归为目标检测问题。经研究验证,在目标检测中,进行实例分割的掩膜区域卷积神经网络模型平均精度(Average Precision,AP)[10]高于物体检测(Object Detection)模型[11-13],且物体检测模型对密集小画面物体识别度不高,应用在柑橘花朵识别上效果欠佳,因此本研究采用实例分割思想。基于Mask R-CNN 的网络框架,将复杂的物体分割问题通过相对简单的物体检测技术进行简化,从而使分割变得更加容易。由于Mask R-CNN 多层多分支的网络结构使模型的训练和验证时间都相对较长,本研究将对此进行优化,在保证柑橘花朵高识别率的基础上提升时间效率。
如图1 所示,柑橘花朵识别网络从结构上分为卷积主干、特征图处理、掩膜计算、边框回归、类别预测等模块。首先,卷积主干通过卷积运算对输入图像进行特征提取、通过候选区域推荐(region proposal)计算得到柑橘花朵的候选区域范围,通过特征金字塔生成不同尺度的特征图;然后,特征图处理模块针对各特征图尺度不同的情况进行尺度标准化计算,生成固定大小的特征图组;最后,特征图组传入网络头部,头部包含3 个分支,通过掩膜分支计算每个兴趣区域内花朵实例的二维掩码,边框回归分支确定柑橘花朵的边框范围,类别预测分支进行实例分类预测。
图1 柑橘花朵识别网络结构 Fig.1 Framework of citrus flower recognition network
1.1.1 卷积计算
模型的最底部是卷积主干部分,进行输入图像的特征提取,必须经过卷积计算才能进行后续的分类、掩膜和边框计算。随着卷积网络随层数的增加,其特征表达能力增强,但却同时面临梯度消失的问题。因为普通神经网络的层数越深,初始化参数更接近于0,由于神经网络的训练通常采用反向传播算法进行链式乘积求导,在更新浅层参数时,随着信息往前传播,浅层的梯度就越趋于0,最终出现梯度的消失,导致网络层数增加到一定限度,模型的精度不增反降。
残差卷积网络(ResNet)[14-16]通过引入残差模块,有效避免了梯度消失的问题,实现对模型精度的提升。公式(1)为残差模块的数学表示:将残差块的输入数据xi,通过捷径链接(shortcut connection)进行恒等映射Wixi(不需要做维度转换的情况下W=1),同时将xi进行卷积并通过线性修正单元(rectified linear unit,ReLU)进行激活运算Gi,输出残差值F(xi,Gi)。
式中xi为第i 层残差块的数据输入;Gi为激活函数;F(xi,Gi)为残差值;W 为捷径链接的恒等映射参数(通常情况下为常数1);xi+1为i+1 层残差块的输入。
任意比xi层数更深的xk均可由xi表示,见公式(2);损失函数对于xi的梯度为dl/dxi可表示为公式(3),将W 取1。
式中xk为第k 层(k>i)的残差块输入值;xj为i 层到k-1层的残差值;Gj为i 层到k-1 层的激活函数;F(xj,Gj)为i 层到k-1 层的残差值。
公式(2)代入公式(3)可得公式(4)。由公式(4)可知,较深层xk的梯度可以传递到比其浅的任意层xi,且由于括号内有常数1 的存在,且传导过程中的乘积计算变为相加,因此不论网络层数多深,它的梯度始终不会消失。
1.1.2 多尺度处理
图像中物体离镜头的远近影响它们的成像大小,而成像小于卷积网络步幅的物体会被忽略而得不到有效识别,这样的问题称为多尺度问题[21-22]。柑橘花朵在日常生产监测图像中大多以小尺度的形式存在,为了更好的捕捉花朵的形状、颜色特征,通常会拍摄一定数量的大尺度花朵特写照片进行识别模型的训练,因此在训练和识别2 种场景下存在明显的多尺度问题。采用快速区域卷积神经网络(fast R-CNN)[19-20]的特征金字塔网络(Feature Pyramid Networks,FPN)[23-25]可以使多尺度问题得到有效解决。如图2 所示,FPN 采用双金字塔结构,左侧金字塔为常规的特征图卷积网络,特征图随着卷积次数逐层缩小;中间金字塔则从上至下对卷积后的图像进行反向采样,通过将上层右侧的特征图进行放大(放大倍数与左侧卷积缩小倍数成倒数关系),进而与下一层左侧的特征图各像素点进行元素相加,在不增加运算量的基础上,增强了金子塔右侧每一层在不同尺度下空间信息和语义信息的表达能力,以便小尺度目标的检测。由此可见,在进行柑橘花朵识别的场景中,FPN 网络能发挥其多尺度识别的优势,增加对图像中尺度细小且排布密集的柑橘花朵目标的检测几率。
图2 FPN 结构图 Fig.2 FPN structure
1.1.3 特征图处理
经过残差卷积网络和金字塔网络之后,原始图像被转化为多尺度特征图,再由区域推荐网络(Region Proposal Network,RPN)对其兴趣区域(Region of Interest,RoI)进行筛选,进而对筛选后的RoI 进行池化。对于如何进行池化,Girshick[19]在fast CNN 中提出兴趣区域池化(RoI Pooling)—采用最近邻插值(Nearest Neighbor Interpolation)[26]法将缩放后的非整数采样点坐标作四舍五入取整,等同于选取最近的整数坐标点替代离实际采样点,这样会因取整损失小数点后的精度,导致缩放前后图像的空间对称性的缺失。He 等[7]提出兴趣区域对齐法(RoI Align),用双线性插值(bilinear interpolation)进行采样点坐标计算,保留采样点坐标的小数值以提高池化精度。因此,在特征图处理模块中,本研究以兴趣区域对齐法替代兴趣区域池化法,可有效减少特征图尺度标准化过程中的精度损失。
图3 为兴趣区域对齐法进行特征图尺度标准化的原理示例。假设将一张大小为150×100 的图像缩放为原大小的1/4,形成大小为75×50 的特征图;将特征图进行横向与纵向的5 等分,形成25 个等面积矩形;图3 右侧红色方框是特征图左上红色等面积矩形的放大图,对红色方框进行x 等分,并取每个等分中心为采样点,通常采用4 等分,即对红色方框4 个等分中心P1、P2、P3、P4 进行采样;P1 坐标为(3.75,47.5),它最邻近4 个整数坐标点为Q1(3,48)、Q2(4,48)、Q3(3,47)、Q4(4,47),用双线性插值[27]法通过Q1,Q2,Q3,Q4 的像素值计算出P1 的像素值;以此类推计算出4 个采样点的像素值,并进行最大池化(max pooling)得到红色等面矩形的池化输出值。由此可见,在整个特征图池化过程中,兴趣区域对齐法始终保持坐标的完整性,避免了取整导致的采样点位置偏移,因此本研究以兴趣区域对齐法作为特征图尺度标准化方法。
图3 兴趣区域对齐法示例 Fig.3 Region of interest align example
1.1.4 损失值计算
经过特征区域筛选,网络头部将对各特征区域进行掩膜、边框和分类计算,试验证明[7]在多个数据集的模型训练中,选择采用分类、边框和掩膜三者的损失之和(如公式5)作为整体的损失值,都能取得很好的效果。
式中Lcls为分类计算损失值;Lbox为边框计算损失值,Lmask为掩膜计算损失值,L 为网络整体损失值。
1.2.1 网络卷积主干优化
ResNet-50和ResNet-101是由残差块简单串联而成的深度残差卷积网络,其层数分别为50 层和101 层。已有的研究表明[14],ResNet 的精度随层数增加而增加,消耗的计算资源也随之递增。后续提出的多维残差网络(Next Dimension ResNet,ResNeXt)[17-18]在网络上结构上对ResNet 进行了优化,通过多分支卷积网络(multi-branch convolutional networks)分组卷积(group convolution)结构进一步提高了网络的精度,同时降低了运算量。Xie 等[17]通过试验证明,独立的ResNeXt50 的平均精度值高于ResNet50 稍低于ResNet101,且速度最快。
He 等[7]在 Mask R-CNN 中采用 ResNet50、ResNeXt101 和ResNet101 作为卷积主干,分别进行对比试验,证明ResNet101 的平均精度(AP 值)为35.4,高于ResNet50 的33.6,但低于ResNeXt101 的36.7。
相同的网络结构下,层数越深的残差卷积网络特征表达能力越强,准确度也越高,但在柑橘花朵识别场景下,需识别的目标类型只有花朵和花苞2 个类别,训练数据集数量有限,可提取的特征数也相对较少,理论上此时101 层卷积与50 层卷的积准确度差距将缩小,且网络的层数越少时间效率越高。本研究将在Mask R-CNN中采用ResNeXt50/101和Resnet50/101作为卷积主体进行试验分析,确定在柑橘花朵识别场景下,受自身数据集大小限制下进行识别的最优卷积主干选择。
1.2.2 掩膜分支优化
Mask R-CNN 论文基于MS COCO 数据集(Microsoft common objects in context)8 万训练数据集和3 万5 千验证数据集进行80 种物体分类切割,而Mask R-CNN 中的掩膜分支的结果是m×m×k 的(m 通常为14 或者28,k为实例类别个数,即k 为80),代表每个类别经过掩膜分支网络都会生成一个m×m 的掩膜,这样的目标检测是已知分类(class-specific/class-aware)的。鉴于在Mask R-CNN 中,分类分支已经预测出物体类别[28],并不需要考虑其他类别的掩膜,所以只需输出一个m×m 的掩膜即可,即为未知分类(class-agnostic)的目标检测模式。理论上未知分类模式通过大幅减少边框回归参数量,可大量减少掩膜分支的计算量,在对实际精准度影响不大的前提下能够节省训练和检测时间,本研究将使用柑橘花朵数据集对此进行试验和分析验证。
1.2.3 训练模式的优化
在原Mask R-CNN 网络上,区域推荐网络和网络头部是按照先后顺序(stage-wise)分开进行训练的,其采用同样的卷积主干但是彼此不共享数据特征。而研究证明,相对按照先后顺序分开训练,将区域推荐网络和网络头部(掩膜、边框及分类分支)合并起来进行端到端(end-to-end)的训练在目标图像分割方面能提升0.6 的平均精度,在目标分类识别方面能提升1.2 的平均精度[7],本研究在改进后的网络上采用此训练模式进行试验和分析验证。
平均精度(Average Precision,AP)指标可以全面地表达图像分割模型的分类器性能,是准确率和召回值的综合体现,已被广泛应用到目标检测方法的评价当中[29-30]。本研究采取平均精度和误差率(Error Rate,ER)作为花朵识别和花量统计的性能评价指标。图像分割的评估指标是从文本检索演变而来的。将图像分割的像素点属于RoI 的可能性与文本的相关性相关联,就能将文本检索中性能评价指标体系代入图像分割中来。
文本检索评价体系中2 个重要的评价指标分别是准确率和召回率。准确率和召回率可由判断正确的正例数(True Positives,TP)、判断错误的正例数(False Positives,FP)、判断错误的负例数(False Negatives,FN)、判断正确的负例数(True Negatives,TN)4 个参数表示
式中p 为准确率;r 为召回率。
式中AP 为平均精度。可以看出平均精度是准确率在召回率上的积分,通常AP 值越高,分类器性能越好。
图像分割中,每一类都可以计算出对应的AP 值,分类器能识别的所有类的AP 值取算术平均即为平均准确度均值(Mean Average Precision,mAP),如式(9)所示。
式中Q 为类别数。
在物体数量计算模型的工程应用中,整体的误差率ER,即数量的预测值和实际值的偏差更具有实际意义。本研究在采用mAP 作为模型评价指标的同时也将对误差率进行对比分析。如公式10 所示,误差率ER 为n 个测试样本中每个样本i 的实际值reali和预测值predicti差值的绝对值与实际值所成比例的算术平均。
3.1.1 训练样本
用NIKON D90 相机采集椪柑花、温州蜜柑花、柚子花的照片各500 张(共1 500 张)4 288×2 848 像素的照片,包括花朵及花苞不同角度,不同遮挡程度,不同远近程度。照片统一缩小至430×285 像素,用labelme[31]图像标注工具添加掩膜标签,并生成模型训练所需的掩膜图片、8 位掩码标签图片(原始图片与掩膜相结合),如图4 所示。
图4 柑橘花朵原始图片、掩膜图片及其8 位掩码标签图片示例 Fig.4 Sample of original picture, mask picture and 8-digital mask label picture of citrus flower
3.1.2 测试样本
通过手机、相机、物联网摄像头拍摄不同大小和清晰度的柑橘花朵照片200 张,用于模型性能验证。人工统计每张测试图像中柑橘花朵和花苞个数,200 张测试样本中包含1 031 个目标实体,其中花朵506 个和花苞525 个。
1)环境配置Python3 + Keras + TensorFlow - GPU + CUDA + CUDNN 框架中构建Mask R-CNN 模型。
2)参数设置GPU 个数1;单GPU 同时处理图片数1;分类个数1(背景类)+2(花朵、花苞);图片最小边像素320,图片最大边像素512(最小最大边像素大于样本图片归一化处理后的285、430,多余部分用空白填充);RPN 锚大小8、16、32、64、128;每个图片训练的兴趣区域个数(RoIs)为64 个(其中正样本区域个数/负样本区域个数为1/3,即正样本数为总RoIs 的25%—16 个);每个迭代步数设为20;验证步数20;加载COCO 数据集默认权重;网络头部的迭代数10,learning_rate 为0.001,其他部分迭代数100,learning_rate为0.000 1。
3)卷积主干对比试验:对卷积主干进行对比测试,分别 以 ResNet-101+ FPN 、ResNet-50+FPN 、ResNeXt- 101+FPN、ResNeXt- 50+FPN 作为Mask R-CNN 的卷积主干网络进行模型训练和验证。首先确定卷积主干是否在当前样本条件下可用,即通过损失曲线是否收敛判断它们的泛化拟合能力;确认适用之后,对比它们的平均精度、误差率及时间效率,选择出最优主干网络。
4)掩膜计算对比试验:在第(3)步的基础上,以性能较高的两种卷积网络为主干网络模,分别采用已知分类和未知分类的掩膜计算对掩膜分支进行优化测试,即掩膜层分别取28×28×82(80 种COCO 数据集已有的80 类物体和新增花苞、花朵2 类物体,背景类不参与掩膜计算)和28×28×1,对比采用2 种方法的模型平均精度、误差率及时间效率,选择更适用于本应用场景的掩膜计算方法。
5)训练模式对比实验:分别用“先后顺序”和“端到端模式”训练上述经过调优的实例分割模型,对2 种训练模式下的平均精度、误差率及时间效率进行对比。
将ResNet-101、ResNet-50、ResNeXt-101、ResNeXt-50分别作为卷积主干,对Mask R-CNN 模型进行训练和验证,结果表明:4 个模型在训练和验证的迭代过程中,分类、边框和掩膜的训练及验证损失值都呈整体降低趋势(图5),均能在100 次迭代之前达到收敛,并随着迭代次数增加保持在(0,0.2)区间之内,从图形趋势上看4条曲线相差不大。证明4 种卷积主干网络组成的实例分割模型均有较强的拟合及泛化能力。
经过拟合泛化能力的确认,可知4 种卷积主干对本模型和样本有效可用。在此基础上,需要通过对比它们对模型整体的性能影响以得到最优选择。由于本模型需要识别柑橘花朵和花苞2 种物体类型,因此mAP=AP(花朵)+AP(花苞))/2。表1 是不同主体卷积网络的AP(IoU取0.5~0.95 阈值下的平均值)、AP50(IoU 取0.50)、AP75(IoU 取0.75)及ER 值的对比。ResNeXt101 作为主干具有最高的精准度和最低的误差率,其次为本研究采用的ResNeXt50,它们的AP 值仅相差0.8,ER 相差0.4%,而ResNet101 稍低于ResNeXt50,远高于ResNet50。在NVIDIA Quadro M4000 显卡逐一处理图片的条件下,AP 值较高的ResNeXt50 和ResNeXt101 耗时分别为104分钟和170 min,识别单张图像平均耗时分别为8 和25 s。ResNeXt50 的训练耗时和识别耗时分别为ResNeXt101 的61%和53%,极大程度的提升了花朵图像的识别处理速率。耗时较少的ResNet50 和ResNeXt50 相比,虽然训练时间和验证时间ResNet50 都少于ResNeXt50,但差距不大,且ResNeXt50 的精度和误差率明显高于ResNet50。因此,可以优先采用精度相差不大但耗时更短的ResNeXt50 作为卷积主干网络。
图5 训练及验证的掩膜损失曲线图 Fig.5 Training and validation curves of mask loss
表1 柑橘花朵识别模型中不同卷积网络性能试验结果对比 T able 1 Comparisons of performance of different convolution networks in citrus flower recognition model
在AP、ER 和时间效率的对比分析后可以确认ResNeXt50 和ResNeXt101 都是本研究场景下较优的卷积主干网络,具有较高的精度和较低的错误率,因此在掩膜分支性能分析中,采用这2 种网络作为对照。掩膜分支采用已知分类和未知分类的方法进行试验,并对模型的精度、误差率及时耗性能差异进行对比分析,见表2。此时ResNeXt101和ResNeXt50 的AP 分别为36.6 和35.8,训练时间消耗为170 和104 min,验证时间消耗为15 和8 s,识别的花朵总数分别为907和903朵,漏数124朵和128朵,占实际总数1 031的12.0%和12.4%,即ER 分别为12.0%和12.4%。改为采用未知分类的掩膜分支之后,ResNeXt101 的AP 与改进前相比降低了0.1,ResNeXt50 的AP 与改进之前相同,ResNeXt101和ResNeXt50 的误差数为125 和129,ER 为12.1%和12.5%,较改进前误差率仅相差1/1031 即不到0.1%;且训练时间消耗为159 和92 min,较之前降低了6.5%和11.5%,验证时间消耗为15 和8 s,与改进前几乎相同。本方法采用ResNeXt50作为其主干网络并且在掩膜分支中采用未知分类的训练方法,只输出1 个掩膜为结果,在几乎不损失准确率、且不增加误差率的同时提高了模型训练和图像处理速率,更具有生产应用价值。
表2 柑橘花朵识别模型中不同掩膜分支性能试验结果对比 Table 2 Comparisons of performance of different masks in citrus flower recognition model
通过上述分析,以ResNeXt-50-FPN 为卷积主干网络,以未知分类的掩膜计算法构建的实例分割网络具有最优化的平均精度、误差率和时间效率,因而本研究以此为训练目标,采用不同的训练模式进行训练,并对比分析生成的花朵识别模型性能。在模型结构上,区域推荐网络和网络头部拥有同样的卷积主干,因此可以进行特征共享。本试验对上述对照试验中的最优组合(ResNeXt50 + class-agnostic mask)依次进行非共享特征的先后顺序分开训练(stage-wise training)和二者结合的端到端训练(end-to-end training)。结果如表3 所示,端到端训练模型平均精度提高了0.5,误差率减少了0.6%,训练时间消耗减少了16.3%,在时间效率和识别精度上都有较大提升。由于该模式没有改变模型本身的结构,因此验证效率没有改变,仍为8 s。
表3 柑橘花朵识别模型中不同训练模式的性能差异对比 Table 3 Comparisons of performance of different training modes in citrus flower recognition model
优化后的网络相对ResNet-101 的原网络模型训练时间减少了50.6%,验证集单张图片处理时间减少了63.6%,采用优化方法对200 张测试图像进行花量检测,平均每张照片的处理时间为7 s。
确认了神经网络的最优组合,并经过端到端的训练生成柑橘花朵识别与花量计算模型,试验采用此网络模型,用花量计算误差率来评估模型的花量预测效果。图 6a中,实际花朵数为31,模型计算结果为花朵数为4,花苞数为24,即预测花朵总数为28(图6b),花量预测误差率为9.68%。由图6a 可以看出,花朵和花苞分布密集,有明显的覆盖和重叠情况,但模型仍然能得到较高的检测结果,且漏数的花朵对象即使通过肉眼也很难分辨。利用本方法对200 张测试图像进行花量检测,结果如表4,花量预测平均误差率为11.9%,平均单张识别耗时为7 s,具有一定的实际生产应用可行性。
图6 柑橘花朵识别模型检测结果图 Fig.6 Image output of citrus flower detection model test
表4 花量检测结果 Table 4 Result of flower quantity counting
本研究基于Mask R-CNN 框架设计了柑橘花朵智能识别方法,并对不同的主体卷积部分、掩膜分支部分以及网络训练模式的优化设想进行了对比试验。经验证,以ResNeXt50 为主干卷积网络,采用未知分类的掩膜分支训练方法,以端到端模式训练产生的柑橘花朵识别及数量检测模型,花朵检测平均精度为36.3,花量计算误差为11.9%。同样的训练集和运算环境下,最终优化后的网络相对 ResNet-101 的原网络模型训练时间从156 min 减少到77 min,减少了50.6%,验证集单张图片处理时间从22 s 减少至8 s,减少了63.6%,在保证较低误差率和较高精确度的同时,有效降低了模型训练、验证和测试过程中的时间消耗。
本方法初步实现了对柑橘植株局部图片的智能花朵识别和花量计算。虽然在识别误差率上仍需进一步优化,但与之前的研究相比,它突破性实现了大量、密集、高度遮挡的生产场景中柑橘花量的统计,同时降低了图形运算时间成本,具有较强的实时性,能够对早期柑橘花量控制提供准确的数据支撑,在柑橘的研究和生产领域具有很高的应用价值。
在未来的研究中,可以通过蒙特卡洛[32-33]等方法以局部图片的花朵数推测获得整个植株的花量,还可以采用本方法对柑橘果园地面图像进行分析,计算实时落花率,为促花保花等生产决策提供数据支撑。
致谢:“本文部分柑橘花朵照片由浙江省农业科学院柑橘研究所徐建国副所长、研究员提供,谨此致谢!”