西安石油大学 王小南
本文主要针对OCRNet能够增强上下文表征的优点进行了增强研究,使用了图卷积推理模块,以及Lovasz SoftmaxLoss损失函数。在第二节进行了详细的网络结构叙述,包括了Backbone,图推理模块,OCRNet模块,然后给出了实验过程的数据可视化和实验结果,效果令人满意。同时对比了其他经典语义分割网络,本文网络依旧表现出强劲的竞争力。
语义分割一直是CV(Computer Vision)领域研究的难点和重点。
传统语义分割方法例如聚类分割等[1]大部分都是基于阈值、边缘检测以及区域的分割方法[2]。这些早期的方法由于计算机能力有限以及没有数据处理等手段,只能处理少量灰度图,且仅仅得到的是低级语义图像,并不能很好地明确得知分割出来的图像是什么类别。
随着深度学习、GPU(Graphic Processing Unit)等技术的发展,出现了许多新的方法。这些新的基于深度学习的语义分割方法在这一领域取得了许多重大的成果。此前已经有相关方面的工作对此进行了探究。比如Beyond grids[3]为输入的二维图像或特征图学习一个图表征,并学习该图所有节点进行消息传递,使模型能利用全局信息,然后将学习到的图表征投影回二维空间。GloRe[4]提出一种新的全局推理方法,将坐标空间(Coordinate Space)的像素级特征聚合投影到交互空间(Interaction Space),然后进行有效的关系推理、最后将具有关系属性的特征反投影回原始的坐标空间。GInet[5]沿着前面研究的思路,提出了一种新的更高难度的图交互单元(Graph Interaction Unit),其利用基于数据集的语义知识进一步促进视觉图表征的上下文推理。
在本文中,为了更为方便落地实际应用,我们更希望同时追求推理的准确与效率,由此本文充分结合了图推理单元在捕捉全局上下文的优势与优化后的OCRNet[6]网络的推理高效性,使新的网络模型在准确性和速度上都有更进一步优异的表现。
本文所涉及网络主要包括三个部分:Backbone,图推理单元,OCR模块。数据经过Backbone计算得到粗略的特征,然后将特征输入到图推理单元对其进行加权全局池化实现特征空间到节点空间的投影,在节点空间通过图卷积对特征进行关系推理,最后在将新的表征反投影到特征空间。最后将含有更多全局上下文信息的特征输入到OCR模块当中,最后便能够得到显著提高的语义分割结果。网络结构如图1所示。
图1 网络结构图Fig.1 Network structure diagram
Backbone采用高分辨率网络HRNet[7]。目前大多数网络都是将分辨率从高到低的卷积串行连接,然后从低分辨率表征中恢复高分辨率表征。这样的网络并不适合区域层次和像素层次的问题,因为学到的特征本质上具有低分辨率的特点。而HRNet则是在整个过程中始终保持高分辨率表征,逐步引入低分辨率卷积,并将不同分辨率的卷积并行连接。
图推理单元主要分为三个步骤:从坐标空间到交互空间,在交互空间用图卷积进行推理,从交互空间反投影到坐标空间。
从坐标空间到交互空间:映射输入特征图X∈RL×C为交互空间的表征V=f(X)∈RL×C,其公式如下:
其中B=[b1,…,bn∈RL×C]是可学习的投影矩阵。
图卷积推理:建模任意区域之间的关系转换为学习交互空间中节点的交互其推理公式为:
其中I为单位矩阵,Ag为领接矩阵,Wg为可学习的参数矩阵。
从交互空间到坐标空间:将新的图表征反投影到坐标空间,使得整个图推理单元能够即插即用,其反投影公式为:
Y=BTZ+X
图推理单元总体结构示意图如图2所示:
图2 图推理单元结构图Fig.2 Graph reasoning unit structure diagram
从图推理单元得到的特征表示,估测一个简单粗略的语义分割结果作为OCR模块的输入,即为软物体区域,将此区域和网络最深层输入的特征表示计算出K组向量,即物体区域表示,其中每一个向量对应一个语义类别的特征表示。然后计算网络最深层输入的像素特征表示与计算得到的物体区域特征表示之间的关系矩阵,然后根据每个像素和物体区域特征表示在关系矩阵中的数值把物体区域特征加权求和,得到最后的物体上下文特征表示OCR(Object Contextual Representation)。最后将OCR与网络最深层输入的特征表示进行拼接作为上下文信息增强的特征表示,过程如图3。
图3 OCR模块结构图Fig.3 OCR module structure diagram
在开源深度学习平台PP飞桨AI Studio上使用四核CPU,32G内存,单卡GPU:Tesla V100的实验结果为mIoU:0.77,Acc:0.88,Kappa系数为0.83。训练结果可视化如图4所示。
图4 训练过程可视化Fig.4 Visualize the training process
同样条件下,本文网络比原OCRNet涨点明显,且推理速度相差无几。同时,对比了其他分割网络,如ICNet、PSPNet、PSPNet、GloRe等网络,本文网络在准确度和速度上面都表现得更加优异。
通过实验表明,在添加了图推理模块,并将原损失函数CrossEntropyLoss改为了CrossEntropyLoss+Lovasz SoftmaxLoss[8]之后,网络表现优于原网络,并相较于其他常用语义分割网络同样表现良好。
引用
[1] 景庄伟,管海燕,彭代峰,等.基于深度神经网络的图像语义分割研究综述[J].计算机工程,2020,46(10):1-17.
[2] 袁铭阳,黄宏博,周长胜.全监督学习的图像语义分割方法研究进展[J].计算机工程与应用,2021,57(4):43-54.
[3] Li Y,Gupta A.Beyond grids:learning graph representations for visual recognition[C].2018.
[4] Chen Y,Rohrbach M,Yan Z,et al.Graph-Based Global Reasoning Networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2020.
[5] Wu T,Lu Y,Zhu Y,et al.GINet:Graph Interaction Network for Scene Parsing[C]//2020.
[6] Yuan Y,Chen X,Wang J.Object-Contextual Representations for Semantic Segmentation[C]//European Conference on Computer Vision.Springer,Cham,2020.
[7] Sun K,Xiao B,Liu D,et al.Deep High-Resolution Representation Learning for Human Pose Estimation[C]//arXiv e-prints.arXiv,2019.
[8] Berman M,Triki A R,Blaschko M B.The Lovasz-Softmax Loss:A Tractable Surrogate for the Optimization of the Intersection-Over-Union Measure in Neural Networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2018.