基于深度学习的新型语义分割模型与玉米间杂草识别研究*

2023-01-09 08:20刘思岐张天宇廖洪晖曲歆锐
南方农机 2023年2期
关键词:杂草语义像素

刘思岐 ,韩 静 ,韩 晗 ,张天宇 ,廖洪晖 ,曲歆锐

(1.黑龙江八一农垦大学工程学院,黑龙江 大庆 163000;2.黑龙江八一农垦大学信息与电气学院,黑龙江 大庆 163000)

0 引言

现阶段的研究中,国内外关于杂草识别的研究方法大体上可分为两大类,一类是通过计算机视觉的算法进行阈值分割和检测,另一种则是采用目标检测、语义分割等深度学习的方法进行检测。

计算机视觉是利用拍摄设备获取图像,将计算机应用于目标图像的分析与识别,可以快速、准确地识别田间杂草,是发展精准农业的一项重要技术[1-9]。

检测方向分为两种,其中一种是YOLOv系列的目标检测算法,利用CNN卷积神经网络和MLP全连接神经网络等结构搭建复杂的目标检测模型对输入图片进行处理。目前,语义分割模型有FCN全卷积网络、U-Net、DeepLab等,均是采用CNN卷积网络构建FPN、残差、特征融合等结构来对输入图片的单个像素进行分类。

本文研究了一种基于深度神经网络实现玉米、杂草分类并检测的语义分割模型,使用了改进的ResNet50模型对图片进行特征下采样,并采用了FPN+PAN结构进行多尺度特征融合,在获取特征语义信息的同时保证了位置信息能传递到网络高层。最后使用渐进式上采样将图片采样至原始图片大小,从而实现像素级别的语义分割。

1 材料与方法

1.1 神经网络模型

人工神经网络又被称为神经网络或连接模型,模仿动物神经网络的行为特征,通过调节内部大量节点之间的互联关系来处理信息。神经网络的节点模型如图1所示,将外界数据转化为向量分别输入到神经网络中,向量每一维的数值乘以一个权重得到该节点的输出。

图1 神经网络节点示意图

如果并行排列多个这样的节点,则节点输出作为下一层的节点输入,形成一个多层网络,就组成了最简单的全连接神经网络。这种结构的多层感知器神经网络又被称为深度神经网络(DNN),如图2所示,它是由输入层、隐含层和输出层三部分组成的。

图2 多层感知结构(深度神经网络)

1.2 卷积网络模型

随着深度学习的流行,导致卷积神经网络[10]不能依赖于特定的特征,而Le Net[11]、VGG[12]和Google Net[13]等模型在广义识别领域(如物体识别[10,14-16]、物体检测[17]和物体分割[18-19]等)得到了广泛应用并取得了很好的效果[20]。卷积神经网络模仿生物视觉感知机制建立,与全连接网络存在差异。卷积神经网络示意图如图3所示。

图3 卷积神经网络示意图

2 实验过程与结果分析

2.1 模型建立

选用ResNet20+PAN+Progressive_Upsampling的模型,输入的特征图尺寸为3*256*256。其中,3个通道分别为R通道、G通道、B通道,输出的尺寸为3*256*256,3个通道为3种类别的分类输出。

首先用Resnet50网络进行下采样,利用PAN融合不同大小的特征图,然后将得到的小尺寸特征图逐步上采样恢复到原始大小。通道数调整为3,对应3个分类类别,最后使用Softmax层进行输出,得到分类图。该模型包含168 916 561个参数,其中可训练的参数有168 916 561个。

2.2 训练模型

使用了SGD随机梯度下降算法作为优化器,其中SGD优化器的算法公式为[21]:

当SGD每次更新学习率时,它会根据每个样本更新梯度。

设置了动量参数momentum=0.9来使优化器尽可能跳出局部极小值点,设置了weight_decay=1e-4参数来进行权重衰减,实现L2正则化,尽可能减少模型过拟合。采用了交叉熵损失作为评估模型的损失函数,这是一种评估分类问题损失的损失函数[21]:

式中,M为类别的数量;yic为符号函数(0或1),样本i的真实类别等于c取1,否则取0;pic为观测样本,i属于类别c的预测概率。

这里的预测概率是由神经网络输出的n个分类数值经过Softmax层运算得到的,Softmax运算定义如下[21]:

首先,通过Softmax层输出概率分布,将概率值和标签输入交叉熵损失函数计算损失并进行梯度计算反向传播来更新参数,完成一次训练。训练在Python的pytorch框架下进行,使用3.9.12版本Python,pytorch的版本为1.11.0+cu113,使用的硬件为十二代英特尔i712700处理器和英伟达RTX3050显卡。训练经过100Epoch,Batch_size为4,得到训练集损失和测试集损失均较低的模型。最终的训练集损失为0.019 474;最终的测试集损失为0.113 844。

2.3 模型评估

语义分割模型的常规评价方法一般有三个指标,即推理速度、参数量和精度,精度一般采用mIOU平均交并比来讨论,公式如下[21]:

式中,P代表Prediction预测值;G代表Ground Truth真实值;k代表测试样本数。

该模型共有168 916 561个参数,其中可训练的参数有168 916 561个。12700+RTX3050平台下,使用酷睿i712700 CPU进行推理的时间是229.33 ms。使用RTX3050 GPU进行推理的时间是8.58 ms。按此推理速度计算,理论上在该平台进行实时推理的帧率可以达到120帧/s,但受内存带宽以及后续图像处理等因素影响,实际帧率不到一半。

经过测试,模型的训练集mIOU为0.931 52,测试集mIOU为0.807 81。对测试集图片进行了分割实验,实验结果如图4、图5所示。

图4 输入图片示例图

图5 测试集图片分割检测结果图

图4是输入图片,图5是分割检测结果,从中可以看到,网络很好地分割了杂草和玉米幼苗,但对重叠部分的叶片分类不太精确。

测试了模型的一些其他性能指标,以便更准确地反映模型的实际性能,其中有混淆矩阵、ROC曲线以及Precision-Recall(PR)曲线,分别如图6、图7、图8所示。

图6 混淆矩阵

图7 ROC曲线

图8 PR曲线

通过混淆矩阵可以看出,模型对玉米和杂草的分割不是很好。从ROC曲线和PR曲线可以看出,模型对背景的分割最准确,玉米苗和杂草次之,也可以证明模型对玉米和杂草的分类不太准确。测试了该模型的一些其他指标:像素准确率为0.952 8;平均像素准确率为0.791 4;频权交并比为0.913 4。

为了体现PAN模型的优越性,采用FCN全卷积神经网络进行对比。这里采用ResNet18模型去掉最后的池化层和全连接层,加上转置卷积层一步上采样至原图尺寸,具体示意图如图9所示。

图9 基于ResNet18的FCN模型示意图

该模型首先采用深度残差卷积网络将3通道宽256像素、高256像素的图片通过18个卷积残差层下采样至512通道宽8像素、高8像素大小,经过一个转置卷积层一步上采样,将特征图放大32倍采样至原图大小,同时将通道数转为3,用于三分类。

相较于本文提出的PAN模型,FCN全卷积模型缺少金字塔特征融合结构,没有渐进式上采样层,若使用一步采样的策略,会丢失一定的边缘细节。全卷积网络的输入图片示例和分割检测结果分别如图4、图10所示。

图10 全卷积网络分割检测结果图

FCN模型的混淆矩阵、ROC曲线、PR曲线分别如图11、图12、图13所示。以下是FCN全卷积网络的一些指标:像素准确率为0.879 0;平均像素准确率为0.407 7;频权交并比为0.852 9;平均交并比为0.724 1。从FCN全卷积网络的各类指标可以看出,FCN在各类指标上均不如本文提出的PAN模型,证明了多尺度特征融合和渐进式上采样能够显著提高语义分割模型的性能。

图11 FCN模型混淆矩阵

图12 FCN模型ROC曲线

图13 FCN模型PR曲线

3 结论

本文提出了一种基于深度卷积神经网络和PAN结构的语义分割模型。实验结果发现该模型的训练集mIOU指标可以达到0.931 52,ROC与PR指标均较好;测试集mIOU指标可以达到0.807 81,能够较好地对杂草和玉米苗进行分割和识别。同时,其与FCN全卷积神经网络模型在同一数据集上进行了指标对比,证明了PAN结构具有优越性。

建立了ResNet50深度卷积残差模型进行下采样,采用PAN结构进行多尺度特征融合,最后将使用渐进式上采样解决边缘细节问题的深度神经网络模型在GPU平台上进行了训练,测试了该模型的性能指标,同时与FCN全卷积神经网络模型在同一数据集上进行指标对比,体现了本文提出的PAN模型的优越性。

FCN全卷积模型也拥有模型轻量化、推理速度快等优点,比如本文使用的FCN模型仅仅拥有11 214 918的参数量,GPU推理时间为3.035 ms,CPU推理时间为30.81 ms,相较于本文提出的模型具有显著的速度优势。模型性能指标对比如表1所示。

表1 模型性能指标对比

综上所述,使用深度卷积神经网络实现对玉米苗和杂草的语义分割是可行的,能够为农业的自动化除草工作提供参考。

猜你喜欢
杂草语义像素
拔杂草
像素前线之“幻影”2000
语言与语义
拔掉心中的杂草
“像素”仙人掌
ÉVOLUTIONDIGAE Style de vie tactile
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究
高像素不是全部