张晟剑,莫泽文
1.广州汽车集团股份有限公司汽车工程研究院,广东广州 511434;2.中山大学,广东深圳 518107
自动驾驶是近年来人工智能和机器学习领域的研究热点之一,对于解决交通拥堵、降低交通事故率、减少能源消耗和提高出行效率具有重要意义[1-2],。随着自动驾驶技术的飞速发展,道路检测作为其核心技术之一,受到越来越多的关注。道路检测的目的是实时准确地识别道路区域,为自动驾驶车辆提供安全可靠的导航信息。近年来,基于遥感图像的道路检测技术因其能够提供大范围、高分辨率的地表信息,有助于提高道路检测的准确性和实时性,成为了热门领域,得到广泛关注。
然而,由于遥感图像的特点,如分辨率、光照条件等方面的差异,传统的道路检测方法在遥感图像上的表现并不理想。针对遥感图像的自动驾驶道路识别问题,本文基于U-Net 提出了一种直方图均衡化策略,并在Deeplab_v3、FCN 和PSPNet 模型上进行了实验验证。
在进行道路检测之前对遥感图像进行的一系列处理操作中,遥感图像预处理起到关键作用。具体处理操作主要包括:去噪、辐射校正、几何校正和图像增强。去噪主要目的是消除图像中的噪声,以减小对道路检测结果的影响;辐射校正则是通过调整遥感图像的辐射特性来消除大气和传感器的影响,从而使图像更接近地面真实景物;几何校正则负责消除图像的几何畸变,使得图像中的各个像素正确对应地面上的位置。
在图像预处理中,图像增强是一项关键技术,其目的是提高图像质量和对比度,以便更好地区分道路与其他地物类别。在本研究中,特别关注图像增强这一环节,尤其是通过直方图均衡化来改善图像的视觉效果。直方图均衡化通过调整图像的灰度级分布,使得图像的对比度得到增强,从而使道路与其他地物类别之间的差异更加明显。这种方法对于克服图像中的光照不均、阴影等问题具有显著作用,从而有利于提高道路检测的准确性和鲁棒性。
本文中选择了3 个基于U-Net 的语义分割模型进行实验,分别是Deeplab_v3、FCN 和PSPNet。
U-Net[3]是一种用于图像分割的卷积神经网络,其结构呈U 形,包含一个编码器和一个解码器。编码器通过卷积和池化操作提取图像特征,解码器通过上采样和卷积操作恢复图像细节。U-Net 具有较好的分割性能,特别适用于处理小样本数据。
Deeplab_v3[4]是一种基于深度卷积神经网络的语义分割模型,采用了空洞卷积和空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模块来提高分辨率和捕捉多尺度上下文信息。
全卷积网络(Fully Convolutional Networks,FCN)[5]是一种端到端的语义分割模型,通过将传统的全连接层替换为卷积层,实现了像素级别的分类任务,具有较好的分割性能和实时性,已广泛应用于遥感图像道路检测等任务。
金字塔场景解析网络(Pyramid Scene Parsing Network,PSPNet)[6]采用金字塔池化模块来捕获不同尺度的上下文信息,并将这些信息与原始特征图融合,从而提高语义分割的性能。
实验采用DeepGlobal 道路数据集进行训练和验证。该数据集是一个用于遥感图像道路提取的数据集,它包含6 226 对1 024×1 024 像素的RGB 卫星遥感图像和标签,每幅图像的像素分辨率为0.5 m/pixel/inch。只用了6 194 对图片,并将80%的图片作为训练集,剩余的20%作为验证集,即训练集包含4 955张图片,验证集包含1 239 张图片。
为了充分评估各个模型在道路检测任务上的性能,采用了相同的训练策略和超参数设置。具体来说,使用了学习率为0.01 的Adam 优化器,并设置了批大小为16,迭代次数为80 000,单卡RTX3090,mmsegmentation1.0.0 算法库。同时,在训练过程中采用了数据增强策略,如随机翻转、随机裁剪等,以提高模型的泛化性能。
采用3 种不同的模型U-Net+Deeplab_v3、U-Net+FCN 和U-Net+PSPNet,并尝试在它们的基础上引入直方图均衡化(HE)特征,因此,共有6 种实验配置。为评估各模型的性能,使用了以下评价指标:
Dice 系数(Dice coefficient)用于衡量分割效果的相似度,范围在0 到1 之间。计算公式为:
其中,A和B分别表示预测的分割结果和真实的分割标签。
mDice(mean Dice coefficient)是各类别Dice 系数的平均值,用于综合评价模型的分割性能,其值范围从0(最差)到1(最好),它衡量了预测结果与实际标签之间的相似度。计算公式为:
其中,TP表示正确预测的正例数量;FP表示错误预测的正例数量;FN表示错误预测的负例数量。
准确率(Accuracy)是用于衡量分类正确性的指标。计算公式为:
mAcc(mean Accuracy)是一个度量分类器性能的指标,用于衡量多个分类问题中各个类别的平均准确率,它有助于在不平衡数据集上更公平地评估分类器性能。计算公式为:
其中,CZ表示在不平衡数据集上评估分类器的总数量。
图1 为训练过程中损失值(loss)随着迭代次数(step)变化的曲线图。通过曲线图可以了解不同模型的收敛速度和稳定性。
从图1 中可以看出,各个模型在训练过程中的损失值逐渐降低,并逐步趋于稳定,这表明训练过程是有效的。
基于U-Net 的6 种模型在验证集上的验证结果如表1 所示,其中r_Dice 和r_Acc 中的r 代表Road 类别。
表1 6 种模型的验证结果
根据实验结果可以得到以下分析:
(1)在不使用直方图均衡化的情况下,U-Net+Deeplab_v3 模型在mDice 和mAcc 指标上表现最佳,分别为81.92%和78.91%;
(2)使用直方图均衡化后,HE+U-Net+PSPnet 模型在mDice和mAcc 指标上表现最佳,分别为80.81%和77.02%;
(3)总体来说,不使用直方图均衡化的U-Net+Deeplab_v3 模型在道路类的Dice 和Acc 指标上表现最好,而使用直方图均衡化后,HE+U-Net+PSPnet 模型在这两个指标上表现最佳;
(4)在使用直方图均衡化的情况下可以观察到,道路类(road)的Dice 和Acc 指标普遍有所提高,这说明直方图均衡化能够改善图像的对比度,提高分割性能,然而,在背景类(background)的Dice 和Acc 指标上,直方图均衡化对结果的影响较小,这可能是因为背景类的分割结果已经较好,直方图均衡化所带来的改进有限。
验证结果可视化如图2 所示。
综合以上分析,在DeepGlobal 道路数据集上,如果不使用直方图均衡化,U-Net+Deeplab_v3 模型的表现最佳;而在使用直方图均衡化的情况下,HE+U-Net+PSPnet 模型的表现最佳。需要注意的是,直方图均衡化在不同模型之间的适用性可能有差异,因此在实际应用中需要针对具体模型和任务进行调整和优化。
直方图均衡化操作能够改善图像的对比度,提高分割性能,具有一定的实用价值。然而,在不同模型之间,直方图均衡化策略的适用性存在差异,因此在实际应用中需要针对具体模型和任务进行调整和优化。本文的研究成果为自动驾驶和智能交通领域的道路检测提供了一种有效的图像预处理方法。通过对比实验,证明了直方图均衡化策略在提高遥感图像道路检测性能方面的潜力。
未来将进一步研究直方图均衡化策略在其他模型、其他数据集以及其他道路检测任务上的应用,以期为自动驾驶和智能交通领域提供更为全面和有效的解决方案。同时,未来也将探索将直方图均衡化策略与其他图像增强技术相结合,以提高模型的泛化能力和实用性。