改进的DeeplabV3+在图像分割中的应用

2022-05-30 00:16彭俊桂刘晓彬黄有章

计算机与网络 2022年14期

彭俊桂刘晓彬黄有章

传统的语义分割方法主要是通过提取图像特征来实现，但由于现实世界物体边界关系极其复杂，空间位置分布不均匀，成像结果容易受到光线的干擾，使得语义分割任务成为一个复杂的问题。这些问题制约了语义分割的准确性和效率，不能满足遥感图像语义分割应用的需求，大量关键数据不能得到充分利用。

为改善Deeplabv3+模型的语义分割效率和精确度，并针对上述模型的不足之处提出对应的改进方案，提出了采用MobilenetV2作为DeeplabV3+主干网络的方法，经实验验证，在遥感图像语义分割中具有良好的检测性能，可以很好地应用于工业中。

改进的DeeplabV3+

DeepLabV3+网络包含了骨干网络、空洞空间金字塔池化层和双线性插值进行上采样模块。此模型算法的流程是：首先遥感图像进入网络的编码阶段进行特征提取，在此阶段图片信息进入改进的ASPP层进行多尺度特征提取和通道加权处理，获得较好的全局和局部信息；最后是进行解码阶段，对获取到的信息进行采样恢复至原图尺寸像素，并对每个像素点分类，达到语义分割效果。

改进的MobilenetV2

DeeplabV3+原有的主干网络Xception对类别多的分割任务有较好效果，但其网络复杂度高、模型参数量大，由于遥感影像图像、场景信息量大，随着训练的进行，参数量不断加大，增加了训练的难度，故Xception不适合提取遥感地物特征信息，因此使用MobileNetV2替换Xception网络，使用轻量化网络MobileNetV2作为DeepLabV3+的主干网络，其网络体积小参数量少，可以更快速、更精准地从大量遥感影像信息中提取遥感地物。引入线性瓶颈结构，构成线性瓶颈倒残差结构，在减少了遥感影像地物信息提取参数和计算量的同时，残差结构下也会减少信息丢失。MobileNetV2中添加扩张倍数控制网络大小，虽然网络结构较深，但计算量少，能节省训练时间和资源，对遥感影像中遥感地物特征提取有很大的优势。

将MobileNetV2其他参数不变，将其中3个步长为2的改为1，改变步长使输入矩阵变小更慢，但可以使其获取更多的特征信息。

实验过程在Linux操作系统，内存12 G，GPU（T4）设备上进行，使用深度学习框架pytorch1.2.0和Adam优化器来进行迭代更新参数，Adam可动态调节学习率，其中weightdecay为1e-4，初始学习率为8e-4。图片输入对其进行了翻转、旋转、缩放和随机打乱等操作进行数据增强。

WHDLD数据集

WHDLD数据集是武汉大学制作的遥感图像分割数据集，数据覆盖包括6类地貌：裸地、遥感地物、人行道、道路、植被以及水域。数据集中包含4 940张遥感影像及相对应的地物分类标记样本。

评估指标

平均像素准确率（mPA）是指计算正确分类的像素与所有像素数量的比值；交并比（Intersection over Union，IoU）是指某一类别预测结果与真实值的交集与并集的比值，IoU值越高说明预测结果和真实值的重合比例越高。平均交并比（mean Intersection over Union，mIoU）是对每一类的IoU求和后的再平均。

WHDLD验证实验

根据在WHDLD遥感图像数据集上进行的对比实验，可以看出，针对模型参数大、运行内存量过高，难以用于工业部署等问题，可以采用MobilenetV2作为骨干网络，改变其步长再提升精确度的解决方案。