多尺度特征融合下三维视觉图像场景分割算法

2024-11-02 00:00:00闫景富王鹏飞
现代电子技术 2024年21期
关键词:尺度注意力卷积

摘 "要: 为减少噪声对分割结果的影响,降低单一尺度特征对分割结果的敏感性,提升分割算法的鲁棒性与稳定性,并增强分割边界清晰度,提高分割精度,文中提出一种多尺度特征融合下三维视觉图像场景分割算法。双路径多信息域注意力模块通过结合频域通道与空间注意力机制,提取三维视觉图像的多尺度特征,降低单一尺度特征对分割结果的敏感性;在多尺度特征融合模块内添加空洞卷积层,增大多尺度特征的感受野,并融合增大感受野的多尺度特征,捕捉图像的细节信息和全局信息,减少噪声对分割结果的影响,提升分割算法的鲁棒性与稳定性;利用Softmax分类器处理融合特征,得到三维视觉图像场景分割结果;通过全连接条件随机场、后处理分割结果,优化分割边界清晰度,提高分割精度。实验结果证明:该算法可有效提取三维视觉图像的多尺度特征,有效完成三维视觉图像场景分割,且场景分割的边界非常清晰。为三维视觉图像的处理与分析提供了新的思路和方法。

关键词: 多尺度; 特征融合; 三维视觉; 图像场景分割; 注意力机制; 空洞卷积; Softmax分类器; 条件随机场

中图分类号: TN911.73⁃34; TP391.41 " " " " " " " 文献标识码: A " " " " " " " " " 文章编号: 1004⁃373X(2024)21⁃0046⁃05

3D visual image scene segmentation algorithm based on multi⁃scale feature fusion

YAN Jingfu, WANG Pengfei

(China University of Petroleum (Beijing) at Karamay, Karamay 834000, China)

Abstract: A 3D visual image scene segmentation algorithm based on multi⁃scale feature fusion is proposed to reduce the impact of noise on the segmentation results, reduce the sensitivity of single scale features to the segmentation results, improve the robustness and stability of the segmentation algorithm, enhance the segmentation boundary sharpness and improve the segmentation accuracy. Dual⁃path multi⁃information domain attention module is responsible for extracting multi⁃scale features of 3D visual images by combining frequency domain channel and spatial attention mechanism, so as to reduce the sensitivity of single scale features to segmentation results. A hollow convolution layer is added in the multi⁃scale feature fusion module to increase the receptive field of multi⁃scale features, and the multi⁃scale features of the enlarged receptive field are fused to capture the detailed information and global information of the image, reduce the impact of noise on the segmentation results, and improve the robustness and stability of the segmentation algorithm. The Softmax classifier is used to process the fused features to obtain the scene segmentation results of 3D visual images. By fully⁃connected conditional random fields (CRFs), the segmentation results are post⁃processed to optimize the segmentation boundary sharpness and improve the segmentation accuracy. Experimental results show that the proposed algorithm can effectively extract multi⁃scale features of 3D visual images and segment the scene of 3D visual images, and the boundary of scene segmentation is very clear. It is a new idea for the processing and analysis of 3D visual images.

Keywords: multi⁃scale; feature fusion; 3D vision; image scene segmentation; attention mechanism; dilated convolution; Softmax classifier; CRF

0 "引 "言

三维视觉图像处理与分析技术不仅推动无人驾驶、智慧城市、虚拟现实、增强现实等新兴技术的快速发展[1],还拓宽了计算机视觉技术在工业检测、医疗影像、安防监控等各个领域的应用范围[2]。三维视觉图像场景分割作为计算机视觉领域中的一项关键技术,旨在将三维场景图像划分为多个具有相似性质的区域或对象,实现对场景内容的精细理解和分析[3]。

深入研究三维场景分割算法,有助于揭示三维数据内在的结构与规律,推动计算机视觉理论向更高层次发展。例如,文献[4]首先运用显著区域检测技术自动辨识图像中的关键目标区域,降低后续处理的复杂度和计算需求。文献[5]通过预处理输入图像,提取能够表征图像区域特性的描述符;利用相似性度量方法计算不同描述符之间的相似度,确定相似区域与不相似区域。文献[6]通过引入动态权衡因子,调整图像处理过程中的各项参数,抑制噪声的负面影响,同时保留图像的细微特征。文献[7]在ResNet网络架构上引入金字塔池化模块,将输入图像划分为数个尺寸不一的网格,并全局平均池化处理各网格图像,池化后的特征图被上采样到原始尺寸,并与原始特征图进行拼接,实现全局上下文信息与局部细节信息的有效融合,使用Softmax分类器得到图像分割结果。

三维视觉图像中,不同物体和场景的特征往往具有不同的尺度。导致上述方法在多尺度下存在一定的问题,通过多尺度特征融合可以捕捉到从局部细节到全局结构的多层次信息,从而更准确地分割出图像中的不同部分。同时,多尺度特征融合能够减少噪声对分割结果的影响。不同尺度的特征可以相互补充,降低单一尺度特征对分割结果的敏感性,提高算法的鲁棒性和稳定性。为此,本文研究多尺度特征融合下三维视觉图像场景分割算法,为三维视觉图像的处理与分析提供新的思路和方法。

1 "三维视觉图像场景分割算法

为提升三维视觉图像场景分割精度,设计一种多尺度特征融合与双重注意力机制的网络(MD⁃AUNet),通过双路径多信息域注意力模块提取三维视觉图像的多尺度特征[8]。利用多尺度特征融合模块融合不同尺度的特征,减少噪声对分割结果的影响,提升分割算法的鲁棒性与稳定性[9];利用softmax分类器处理融合后的特征,得到三维视觉图像场景分割结果;通过全连接条件随机场、后处理分割结果,考虑像素之间的空间关系,优化分割边界的清晰度,提高分割精度。

1.1 "三维视觉图像多尺度特征提取

三维视觉图像通常包含丰富的空间信息和复杂的结构特征,不同尺度的特征对于理解整个场景至关重要。在MD⁃AUNet中,双路径多信息域注意力模块的双路径设计允许网络并行处理不同尺度的信息,更全面地捕捉图像中的多层次特征。三维视觉图像不同尺度的特征之间可能存在冗余或相互干扰。通过结合频域通道注意力机制和空间注意力机制,该模块能够自动学习并强调对场景分割任务更为关键的特征,同时抑制不重要的或冗余的特征,减少特征间的干扰,提高分割的准确性。

该模块提取三维视觉图像多尺度特征的具体步骤如下。

步骤1:将输入的三维视觉图像A划分成[N]组。

步骤2:对各组进行卷积处理,提取三维视觉图像的多尺度特征,公式如下:

[Xi=Convki×ki, MiAi, " "i=0,1,2,…,N-1] (1)

式中:[Conv]是卷积操作;[Mi]是分组大小;[ki]是卷积核大小,用于在不同感受野下提取三维视觉图像特征,较大的卷积核能够捕获更全局的信息,较小的卷积核则更专注于局部细节,通过尺寸不一的卷积核便可实现多尺度特征提取。

步骤3:以拼接方式处理[Xi],得到最终的多尺度特征提取结果。

[X=ConcatX0,X1,X2,…,XN-1] (2)

1.1.1 "频域通道注意力机制的多尺度特征加权处理

频域通道注意力机制能够增强网络对三维视觉图像特征图中不同通道重要性的识别能力。在三维视觉图像中,不同通道可能包含不同的语义信息,通过频域通道注意力机制,网络能够自动学习并强调对分割任务更为关键的通道特征[10],抑制不重要的通道特征,提高分割精度。

在频域通道注意力机制中,离散余弦变换(DCT)可以提取通道间的特征相关性。通过对特征图进行DCT变换,可以捕捉到不同通道间的能量分布和相关性信息[11],为后续的注意力权重分配提供依据。DCT的计算公式如下:

[g=i=0H-1j=0W-1xi,jHW] (3)

式中:[xi,j]是三维视觉图像的多尺度特征图;[H]、[W]是[xi,j]的高度与宽度。

依据[g]计算频域通道注意力的权值[ω],公式如下:

[ω=sigmoidfgX] (4)

式中[f]是激活函数。

加权后的三维视觉图像多尺度特征为:

[X=ωlXl] (5)

式中[l]是通道编号。

二维DCT能够将通道注意力扩展至频域通道注意力内,二维DCT的计算公式如下:

[g2h,w=gxHW] (6)

通过二维DCT可获取三维视觉图像多尺度特征的多频谱向量,公式如下:

[Zl=2g2h,wXl] (7)

采用多频谱向量可获取更多的三维视觉图像多尺度特征信息[12],分组卷积时,原始通道数是分组后通道数的[η]倍。通过拼接方式处理[Zl],得到最终的多频谱向量,公式如下:

[Z=ConcatZ0,Z1,Z2,…,Zη-1] (8)

利用sigmoid激活函数处理,得到频域通道注意力加权后的三维视觉图像多尺度特征,公式如下:

[X=sigmoidfZ] (9)

1.1.2 "空间注意力机制的多尺度特征加权处理

空间注意力机制关注于三维视觉图像多尺度特征图中每个空间位置的重要性。在三维视觉图像中,由于光照变化、遮挡、噪声等因素,不同空间位置的特征质量可能存在差异[13]。通过空间注意力机制,网络能够聚焦于对分割结果影响较大的关键区域,忽略或减弱噪声等不利因素的影响,提高分割结果的鲁棒性和稳定性。

对第[l]、[l+1]个通道的三维视觉图像多尺度特征图展开1×1的卷积处理,确保二者的通道和尺寸一致,公式如下:

[Xl,1=φConv1×1Xl] (10)

[Xl+1,1=φConv1×1Xl+1] (11)

式中[φ]是组标准化操作。

对[Xl,1]与[Xl+1,1]展开进行ReLU激活处理,公式如下:

[Xl,l+1=ReLUXl,1⊕Xl+1,1] (12)

式中[Xl,l+1]是融合两个通道后的三维视觉图像多尺度特征。

空间注意力权值为:

[ϖl,l+1=11+e-Conv1×1Xl,l+1] (13)

空间注意力加权后的三维视觉图像多尺度特征为:

[X=Resampleϖl,l+1⊗Xl] (14)

双路径多信息域注意力模块输出的最终三维视觉图像多尺度特征为:

[X=softmaxX⊕X] (15)

1.2 "三维视觉图像多尺度特征融合

在多尺度特征融合模块内添加空洞卷积层,扩展三维视觉图像多尺度特征的感受野,更全面地考虑上下文信息,降低单一尺度特征对分割结果的敏感性,并对空洞卷积层处理后的不同尺度特征进行融合,捕捉三维视觉图像的细节信息和全局信息,减少噪声对分割结果的影响,提升分割算法的鲁棒性与稳定性。

空洞卷积操作的公式如下:

[vτ=kXτ+λkαk] (16)

式中:[τ]是三维视觉图像多尺度特征图的像素点编号;[α]是卷积核;[λ]是输入多尺度特征图的采样间隔。以调整[λ]的方式,便可获取不同感受野的三维视觉图像多尺度特征图,进而进一步提取不同感受野下的三维视觉图像特征,即不同尺度的三维视觉图像特征。

多尺度特征融合模块中,利用二层空洞卷积层进一步提取不同尺度下的三维视觉图像特征,并以加权融合的方式,融合二层空洞卷积层处理后的三维视觉图像特征,得到多尺度特征融合结果[V]。

1.3 "三维视觉图像场景分割的实现

利用softmax分类器处理1.2节得到的多尺度特征融合结果[V],从而得到三维视觉图像场景分割概率,公式如下:

[qyj=eψjVieψiV] (17)

式中:[qyj]是预测结果为第[j]个三维视觉图像特征属于类别[yj]的概率;[ψjV]、[ψiV]是第[j]、[i]个激活输出。

利用全连接条件随机场,考虑像素之间的空间关系,优化三维视觉图像场景分割边界的清晰度,提升分割精度。

能量函数的计算公式如下:

[Oy=τ, μγyτ+γyτ,yμ] (18)

式中:[γyτ]、[γyτ,yμ]是一元、二元势能函数;[τ]、[μ]是三维视觉图像特征图的像素编号。

以迭代方式,令[Oy]降至最低,细化分割边缘,此时获取的分割结果即最终的三维视觉图像场景分割结果。

2 "实验分析

以某三维视觉图像数据集为实验对象,该三维视觉图像数据集的相关参数如表1所示。

在该三维视觉图像数据集内,随机选择一幅三维视觉图像,如图1所示。

根据图1可知,该幅三维视觉图像中包含小汽车和道路两部分场景。

在10×10、5×5、2×2三个感受野下,利用本文算法提取该三维视觉图像的多尺度特征,部分多尺度特征提取结果如图2所示。

根据图2可知,本文算法可有效在10×10、5×5、2×2三个感受野下分别提取三维视觉图像特征,进而获取三维视觉图像多尺度特征。其中:大感受野(10×10)能够捕捉全局结构信息,对于理解整个场景布局和物体间的空间关系至关重要;小感受野(2×2)则专注于局部细节,有助于识别物体边缘、纹理等细微特征;中等感受野(5×5)则介于两者之间,提供更为平衡的全局与局部信息,可为后续三维视觉图像场景分割提供全面的数据支持。

利用本文算法对该幅三维视觉图像的多尺度特征进行融合,并预测三维视觉图像场景分割结果,场景分割预测结果如图3所示。

根据图3可知,本文算法可有效依据多尺度特征融合结果,得到三维视觉图像场景分割预测结果,但预测的场景分割结果边界较为模糊,需要对其展开进一步处理,优化场景分割边界的清晰度,如图4所示。

根据图4可知,本文算法可有效利用全连接条件随机场,优化预测的三维视觉图像场景分割结果,使得优化过程能够考虑全局信息,不仅仅是局部邻域。这种全局视野有助于在边界区域产生更加平滑和一致的分割结果,经过优化后场景分割的边界非常清晰。

3 "结 "语

在三维视觉图像场景中,从宏观到微观的不同尺度上都有丰富的细节,如天空、云层、树木、建筑物等。通过融合这些不同尺度的特征,可以更全面地描述图像中的对象,提高分割的精确度。为此,本文提出一种多尺度特征融合下三维视觉图像场景分割算法,通过整合不同尺度的特征信息,实现对复杂场景的高效分割。

参考文献

[1] 王雪琦,何泽浩,朱巧芬,等.面向头戴式三维显示的图像质量测评方法和系统[J].应用光学,2024,45(3):598⁃607.

[2] 孙红,杨晨,莫光萍,等.基于双分支特征提取的轻量级图像分割算法[J].包装工程,2023,44(11):299⁃308.

[3] 应俊杰,楼陆飞,辛宇.基于深度学习的无监督领域自适应语义分割算法综述[J].电子技术应用,2024,50(1):1⁃9.

[4] 何亚茹,葛洪伟.视觉显著区域和主动轮廓结合的图像分割算法[J].计算机科学与探索,2022,16(5):1155⁃1168.

[5] BIRANE A, HAMAMI L. A fast level set image segmentation driven by a new region descriptor [J]. IET image processing, 2021, 15(3): 615⁃623.

[6] 刘以,邱军海,张嘉星,等.基于权衡因子和多维空间度量的高鲁棒性图像分割算法[J].图学学报,2024,45(3):482⁃494.

[7] 王嘉,张楠,孟凡云,等.基于金字塔场景分析网络改进的语义分割算法[J].计算机工程与应用,2021,57(19):220⁃227.

[8] 孙克强,缪君,江瑞祥,等.基于空洞卷积与多尺度特征融合的室内场景单图像分段平面三维重建[J].传感技术学报,2021,34(3):370⁃378.

[9] 易清明,张文婷,石敏,等.多尺度特征融合的道路场景语义分割[J].激光与光电子学进展,2023,60(12):92⁃100.

[10] 艾青林,张俊瑞,吴飞青.基于小目标类别注意力机制与特征融合的AF⁃ICNet非结构化场景语义分割方法[J].光子学报,2023,52(1):189⁃202.

[11] 李钰,袁晴龙,徐少铭,等.基于感知注意力和轻量金字塔融合网络模型的室内场景语义分割方法[J].华东理工大学学报(自然科学版),2023,49(1):116⁃127.

[12] 余娜,刘彦,魏雄炬,等.基于注意力机制和金字塔融合的RGB⁃D室内场景语义分割[J].计算机应用,2022,42(3):844⁃853.

[13] 郭昕刚,王佳,屈诺希,等.基于梯度方向的Canny SLIC图像分割算法[J].计算机仿真,2021,38(9):465⁃469.

作者简介:闫景富(1978—),男,山西晋中人,博士研究生,副教授,研究方向为信号检测与智能信息处理、嵌入式系统与智能仪器。

王鹏飞(1998—),男,新疆昌吉人,硕士研究生,研究方向为计算机视觉。

猜你喜欢
尺度注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
传媒评论(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
9
一种基于卷积神经网络的性别识别方法
电视技术(2014年19期)2014-03-11 15:38:20