彭俊桂 刘晓彬 黄有章
传统的语义分割方法主要是通过提取图像特征来实现,但由于现实世界物体边界关系极其复杂,空间位置分布不均匀,成像结果容易受到光线的干擾,使得语义分割任务成为一个复杂的问题。这些问题制约了语义分割的准确性和效率,不能满足遥感图像语义分割应用的需求,大量关键数据不能得到充分利用。
为改善Deeplabv3+模型的语义分割效率和精确度,并针对上述模型的不足之处提出对应的改进方案,提出了采用MobilenetV2作为DeeplabV3+主干网络的方法,经实验验证,在遥感图像语义分割中具有良好的检测性能,可以很好地应用于工业中。
DeepLabV3+网络包含了骨干网络、空洞空间金字塔池化层和双线性插值进行上采样模块。此模型算法的流程是:首先遥感图像进入网络的编码阶段进行特征提取,在此阶段图片信息进入改进的ASPP层进行多尺度特征提取和通道加权处理,获得较好的全局和局部信息;最后是进行解码阶段,对获取到的信息进行采样恢复至原图尺寸像素,并对每个像素点分类,达到语义分割效果。
DeeplabV3+原有的主干网络Xception对类别多的分割任务有较好效果,但其网络复杂度高、模型参数量大,由于遥感影像图像、场景信息量大,随着训练的进行,参数量不断加大,增加了训练的难度,故Xception不适合提取遥感地物特征信息,因此使用MobileNetV2替换Xception网络,使用轻量化网络MobileNetV2作为DeepLabV3+的主干网络,其网络体积小参数量少,可以更快速、更精准地从大量遥感影像信息中提取遥感地物。引入线性瓶颈结构,构成线性瓶颈倒残差结构,在减少了遥感影像地物信息提取参数和计算量的同时,残差结构下也会减少信息丢失。MobileNetV2中添加扩张倍数控制网络大小,虽然网络结构较深,但计算量少,能节省训练时间和资源,对遥感影像中遥感地物特征提取有很大的优势。
将MobileNetV2其他参数不变,将其中3个步长为2的改为1,改变步长使输入矩阵变小更慢,但可以使其获取更多的特征信息。
实验过程在Linux操作系统,内存12 G,GPU(T4)设备上进行,使用深度学习框架pytorch1.2.0和Adam优化器来进行迭代更新参数,Adam可动态调节学习率,其中weightdecay为1e-4,初始学习率为8e-4。图片输入对其进行了翻转、旋转、缩放和随机打乱等操作进行数据增强。
WHDLD数据集是武汉大学制作的遥感图像分割数据集,数据覆盖包括6类地貌:裸地、遥感地物、人行道、道路、植被以及水域。数据集中包含4 940张遥感影像及相对应的地物分类标记样本。
平均像素准确率(mPA)是指计算正确分类的像素与所有像素数量的比值;交并比(Intersection over Union,IoU)是指某一类别预测结果与真实值的交集与并集的比值,IoU值越高说明预测结果和真实值的重合比例越高。平均交并比(mean Intersection over Union,mIoU)是对每一类的IoU求和后的再平均。
根据在WHDLD遥感图像数据集上进行的对比实验,可以看出,针对模型参数大、运行内存量过高,难以用于工业部署等问题,可以采用MobilenetV2作为骨干网络,改变其步长再提升精确度的解决方案。