基于深度学习的图像语义分割算法的应用研究

2022-04-25 08:36朱贺
电子元器件与信息技术 2022年2期
关键词:池化层语义卷积

朱贺

(华中科技大学,湖北 武汉 430074)

0 引言

近年来随着信息化社会的建设和计算机技术的迅猛发展,智能化产品已经在我们身边随处可见。智能化产品需要后台数据的支持、人工智能的广泛应用、大量数据需要进行处理,这都对数据的分类和数据处理能力提出了更高的要求。大数据为人工智能的发展提供基础,但是大数据与智能化产品的使用之间需要利用机器学习来实现智能化的应用。据此,深度学习的概念便被提出,并被广泛应用在模式识别应用中,且在其中扮演着非常重要的角色[1]。计算机视觉是目前智能化的重要发展方向之一,并且该领域有众多的研究价值。在计算机视觉的研究中语义分割技术是主要的研究方向之一,而语义分割技术作为计算机视觉的一项重要任务,其主要目的是根据图像中的任意的像素能够在运算的过程中对相对应的标签类别进行划分。同时,实现图像像素的预测,需要学习目标的轮廓、位置以及对目标进行分类,这就说明了图像分割技术是一项计算机识别的基本技术,但其要比目标的识别和监测以及目标的跟踪方面更加具有挑战性、更加复杂。目前情况下的图像语义分割技术已经实现了像素级别的分割水平,在众多行业领域都有着应用,但其主要还是被应用在医疗方面的智慧诊断,通过采用分割技术能够实现对各种病理情况下的人体的血管、细胞等的位置的精准确定和区域的划分。在智能驾驶方面,能够实现车辆对障碍物或者是场景中的物体进行自动识别,保证了驾驶系统能够在更加安全的环境中行驶。

1 相关理论基础

1.1 深度学习

深度学习概念属于机器学习领域的重要分支,与机器学习利用算法对目标进行特征提取的方式不同的是深度学习是利用相关的样本,通过从样本中多次的训练,学习样本中的语义信息。深度学习的概念源自人体的大脑模型,即通过模拟人体大脑神经元的模型构造神经网络。深度学习的卷积神经网络主要是由以下基本结构层组成的。

(1)卷积层。卷积是数学中的概念,主要是对卷积核内的数据进行局部操作的过程,卷积核的范围直接影响着对目标信息的提取效果。将数学中的卷积概念引用到神经网络中,形成卷积层,在实现卷积运算的过程中虽然卷积核的范围有限,但其始终是靠一个卷积核来完成的,通过一个卷积核能够达到对整个图像的全范围的扫描,降低了网络的规模,大大降低了运算所需要的时间,同时能够增强对特征信息提取的效果。卷积层的计算简单,往往只需要设置卷积核的大小范围,就是计算的矩阵的大小,再通过设置每次计算完后卷积核移动的距离,并利用相关参数的设计就能够实现卷积层的计算[2]。

(2)激活函数。激活函数的概念来自于生物神经学,主要是针对每次接收到相应的信息后,利用信息的幅度判定下一步的计划。激活函数主要解决的是卷积层线性计算的弊端。由于卷积层采用的是数学卷积概念,这就导致了无论构建多少卷积层,其在运算的输入和输出之间都存在着一定的线性关系,这就导致了数据的描述出现了欠缺,同时还会发生过拟合的现象,这就要求我们对其进行非线性函数运算来改变神经网络的结构,从而引入了激活函数的概念。目前常用的激活函数主要有Sigmoid函数、ReLU函数以及双曲正切函数。

(3)池化层。池化层主要是针对卷积层采集到的大量的目标特征信息,采用数据聚拢统计的办法对其进行操作,以降低由于卷积操作后数据量过大导致的过拟合发生的概率,这就称之为池化操作。目前使用的池化操作主要有最大池化层和平均池化层。池化层的设置:只是在合适的位置按照一定的规律插入池化层就可以实现对卷积层提取的特征信息进行聚合操作,减少参数量,降低网络特征图的大小。

(4)全连接层。全连接层是最后对多维数据向一维向量进行转化后,再结合矢量向量对其进行输出的操作,最后达到对特征实现分类的效果。

(5)损失函数。损失函数能够直观地反映出模型预测的输出值和实际理论值之间的差距,从而来反映模型建立的质量和训练的效果。在进行数值判断时,损失函数的数值越小说明网络的鲁棒性越好,说明更加能够接近真实值。目前常用的损失函数主要有均方差损失函数、交叉熵损失函数。

(6)随即失活层。随机失活层的设置主要是为了防止过拟合现象,通过对本轮部分神经元进行随机的输出值归零,从而降低训练集和测试集上的过拟合现象的发生概率,但其在操作过程中并不会对整体权重进行更新。

1.2 图像分割

计算机视觉中,图像分割是利用目标图像在像素级的不同的数字特征实现将图像分割成各区域的方法。在进行图像信息的提取时,由于图像上的空间信息是语义分割的区域的重要的意义,需要对其进行分析,从而实现对特征的标记。在实际使用的过程中目前采用的有数学方法和深度学习两种办法。目前主流的图像分割办法主要是有语义分割、实例分割和全景分割,这三种分割方法达到的效果是不同的。语义分割主要是将图像中的目标的类别及逆行划分,并根据其占据的像素位置进行显示。实例分割借助目标识别,对图像中的不同实体目标的不同像素位置进行分割,并加以分配不同的标签。全景分割是在实例分割的基础上对环境也进行了背景的分割。不同的分割效果如下图1所示。

图1 不同分割方法的效果展示

目前图像分割算法主要有传统的分割算法和基于深度学习的分割算法,本文就是对深度学习的分割算法进行研究。传统的分割算法随着人们的使用要求的增高,不论是在其算法的性能上还是在计算能力上都不达到现阶段的使用要求。传统的图像分割的方法主要有:(1)基于阈值的分割算法;(2)区域的分割算法;(3)区域生长的分割算法;(4)基于边缘检测的分割算法。这四种传统的分割算法与基于深度学习的分割算法相比较,深度学习的优势越来越明显,因此目前主流的图像分割技术都是采用的深度学习图像分割算法。

2 基于注意力机制的弱监督图像语义分割算法

通常先获得候选的mask区域,且获得mask区域后可以作为下一步网格分割标签进行训练。此部分mask区域的获得主要是利用Deepcut算法,实现在只有边界框信息下的像素级图像的分割,并且利用其无监督的性质,通过不断地迭代来实现我们需要获得的最初始状态的mask区域。再利用多尺度融合的方式与其进行结合,利用其未排序的段与边界框重合程度最大的区域作为相应的段,通过将两者相同的地方将其标注为前景的像素,其他像素进行忽略。Deeplab是基于CNN开发的语义分割模型,在进行分割网络时我们采用Deeplab进行,并且通过能够同步提取空间域和通道域上的特征信息的过程,将其得到的注意力网格加入需要分割的网格中[3]。其过程结构示意如图2所示,在空间域的注意力网格中,利用一维卷积对空间中的X、Y两向的空间信息特征进行提取能够分别得到一个一维的空间特征,将其进行整合能够得到一组二位空间特征,再对其通道数进行改变就能够实现获得与输入相同大小的特征图,这就能够在空间上反映出图像上像素之间的依赖关系。同样通道域注意力上利用的自注意力机制对其进行特征的提取进而获得其依赖关系。利用基于ResNet网络的Deeplab网格,能够得到更加优质的特征图,同时可以采用多采样率的空洞卷积提高体征的提取效果和保证图像分割的精度,在最后使用随机场能够提高在提取过程中对细节的把控,优化边界,将得到的分割结果能够更加细化。

图2 注意力机制结构图

基于此我们得到的候选的mask需要对其进行错误标记去除,减少其训练模型过程中的不利影响。在此我们利用修改的FR-loss,保证能够更好地发挥其性能。样本的FR-loss可以表示为下式:

进行训练时我们需要使用前文所述的多尺度融合的方法和Deeplab结合的算法生成候选的mask,当其出现生成的候选mask与整个类目中的平均像素填充了之间相差超过一半时,此时生成的候选mask就不能作为需要的mask来使用,这时,我们就需要利用图像的边界框来作为候选的mask,边界框的mask成为候选的mask时,对其进行训练实现相关参数更新。通过不断地重复上面的过程,不断地对所有的图像进行两个阶段的训练,最后就能够得到训练好的分割网络,最后得到像素级的mask。整个网络训练的示意如图3所示。

图3 网络训练示意图

3 改进算法在图像分割中的应用

图像分割在我们日常生活工作中的使用范围越来越广,尤其是在交通、医疗以及农业领域都有着广泛的使用前景。医学中,图像分割可以对图像中存在病变的位置进行快速准确的判定,可以大大节省医生在诊断过程中所消耗的时间和精力,从而提高诊断过程中的效率,为拯救更多的生命提供更好的条件[4]。在交通上,近年来无人驾驶技术已经被各大汽车制造商竞先研制,在自动驾驶技术中利用图像分割技术对障碍物的识别和对行驶过程中可行驶区域的识别有着重要的意义。为了验证采用该改进算法后的可行性和具备的优势,本文通过在交通环境中进行应用的监测测试,通过获取的指标来反映其性能。本次设计采用的训练集、验证集和测试集都是利用Cityscapes数据集,针对不同的数据集采用了不同数量的图像数据,其中三种数据集的图像数量分别是2975、500和1525张。该数据集在图片上不会出现前景目标的空洞,并且官方提供了将近两万张的模糊标注的数据集,完全达到了本次验证的使用要求。本次饰演的环境我们是在Python的环境下进行的,利用Pytorch开源工具包。通过对参数进行设计实验,最后同归对比平均交并比指标来对其进行性能的判定。通过最后获取的平均交并比分别为:(1)ESPNet的数值为60.3;(2)CGNet的数值为64.8;(3)ICNet的数值为68.5;(4)BDANet的数值为69.5。基于此能够验证基于弱监督方法的BDANet有着很好的性能[5]。

4 结语

计算机视觉在日常生活中的应用会越来越广泛,并且会成为将来发展的重要领域,不仅仅是在汽车的自动驾驶上,更会出现在对人们驾驶过程中的交通违规的监督上,或者极大地促进医学图像的发展。卷积神经网络的深度学习方法在图像分割方面的应用具有着非常好的应用性能,并且其强大的特征提取能力和表达能力让其逐渐地被广泛采用。本文通过对现代化的计算机视觉技术的发展进行阐述,对深度学习和图像分割的理论知识进行了介绍,对深度学习及其卷积神经网络的组成,如卷积层、激活函数、池化层、全连接层、损失函数以及随机失活层的功能分别介绍,还介绍了目前传统的图像分割理论和基于深度学习的图像分割理论的优劣;提出了一种基于注意力机制的弱监督图像分割算法,利用边界框注释实现图像语义分割;最后利用实际交通中的应用来仿真分析,验证了该算法的优越性能,并且证明了该算法能够在交通中有效地解决实际问题。

猜你喜欢
池化层语义卷积
真实场景水下语义分割方法及数据集
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络模型研究分析*
基于卷积神经网络的纸币分类与点钞
基于深度学习卷积神经网络的人体行为识别研究
卷积神经网络的分析与设计
从滤波器理解卷积
基于全卷积神经网络的SAR图像目标分类*
基于傅里叶域卷积表示的目标跟踪算法
“吃+NP”的语义生成机制研究