基于对抗深度学习的无人机航拍违建场地识别

2022-01-14 03:02:38宫法明徐晨曦李厥瑾
计算机工程 2022年1期
关键词:检测器样本特征

宫法明,徐晨曦,李厥瑾

(1.中国石油大学(华东)计算机科学与技术学院,山东青岛 266580;2.山东电子职业技术学院本科教务处,济南 250200)

0 概述

城乡结合部违规占地导致建设混乱,影响城市市容并产生潜在危害。传统的违建航摄方法存在费用昂贵且数据获取不便等问题,例如卫星遥感、普通航空遥感等。许多单位开始使用投入成本相对较低且易于维护和操作的无人机航拍技术对违建场地进行拍摄。在实际工作场景中,无人机航拍检测面积较大,为节省时间成本,无人机只能飞得较高,将拍摄范围扩大,而人工检测只能通过无人机传回的视频在较小的屏幕内观察,极易产生遗漏。若违建场地未能及时被发现并制止,则在拆除违建场地的执法工作中将面临很多困难,甚至会产生民事纠纷。对于违建检查工作,理想的方法是在建设初期及时发现违建场地并制止,可以极大程度地避免由拆除违建引起的一系列纠纷。

在前期的研究中,无人机航拍视频利用传统的目标识别算法直接对数据集进行训练,但获得的检测效果并不理想,计算时间较长。无人机在拍摄过程中镜头方向和飞行高度均不确定,使得目标场地在视频中产生旋转、放大、缩小等形变问题。样本库中因形变目标样本数量不足导致检测器对形变目标的检测结果不理想。在当前目标检测工作中,如果学习一个对于旋转形变样本具有稳定性的目标识别检测器,需要大量数据集对其进行训练。由于样本库具有的形变数据样本较少,因此没有足够的样本实例覆盖所有可能出现的形变情况。

本文通过深度学习方法对无人机航拍视频进行自动检测,提出一种结合空间变换网络与Fast RCNN的生成对抗网络ASTN-Fast RCNN 用于建设初期的违建场地识别。利用目标检测器的反馈优化生成器,生成目标检测器难以识别的旋转形变样本,并将生成的旋转形变样本加入训练,解决检测器对形变目标识别精度低的问题。

1 相关工作

无人机航拍视频识别违建场地主要包括违建场地检测、深度学习目标检测、生成性对抗网络3 个方面工作。传统的违建场地检测方法主要通过遥感图像分析检测违建场地[2]。

深度学习目标检测的研究领域主要有3 个方向[3]:1)深度学习利用样本数据来提高检测精度[4],近年来,目标检测器通过可用性更高的数据来提高检测器的检测精度,例如,在样本训练策略方面进行改进,研究人员提出OHEM 算法,该算法在训练过程中主动选择难样本加入训练,在提升网络性能的同时使训练更高效,其他工作[5-6]也是通过数据本身提高检测性能;2)通过改变神经网络的基础结构和增加神经网络的层次来提高检测器的性能[7-8],这个方向的研究工作包括ResNet[9]、Inception-ResNet[10]和ResNetXt[11];3)利用多个卷积层特征来提高目标检测性能,例如使用上下文推理和多尺度特征提高小目标检测精确率[12-13],通过上下文的语义关联学习互补信息[14],采用自上而下的上下文语义分割提高Faster RCNN 的检测性能[15]等。

文献[16]在GAN 中设计卷积神经网络,改进图像生成技术;文献[17]引入新的方法,提高网络的收敛和GAN 中图像生成模型的性能;文献[18-20]利用GAN 改进传统机器学习的算法;文献[21]采用GAN 改进口语识别算法;文献[22]提出GAN 架构,解决目标识别中样本不足的问题;文献[23]提出一种利用GAN 框架进行半监督或无监督的算法。GAN 的样本是通过学习大量的形变样本,生成接近真实的形变图像,但是此过程需要大量的形变样本来加入训练,或者生成所有可能的形变样本,然后利用这些形变样本来训练检测器。由于产生形变的范围很大,因此训练效率较低。文献[1]指出,选择难样本得到的检测器相较于加入所有样本的训练更优。

本文通过样本数据来提高检测精度,但是由于样本库中的形变样本数量不足,在样本库中直接筛选难以识别形变样本的方法并不可行。本文利用GAN 生成检测器在识别时易出错的难以识别形变样本。在GAN 中,生成器通过检测器的反馈来学习预测检测器难以识别的样本,同时检测器通过难以识别形变样本来提高识别精度。GAN 通常是用于训练优秀的图像生成器,而在本文算法中GAN 用于完成相反的任务,即通过GAN 竞争训练一个对形变样本具有鲁棒性的检测器,利用对抗学习提高识别形变样本的能力。

2 网络设计

2.1 Fast RCNN 目标检测器

本文基于Fast RCNN 进行目标检测识别[24]。Fast RCNN 网络主要由2 部分组成:1)卷积网络提取图像特征生成特征图,作为后续网络的输入;2)RoI-pooling 层和全连接层输出目标类别概率和边界框。

将图像输入Fast RCNN 网络,该图像依次通过卷积网络、RoI-pooling 层和全连接层。卷积网络通过对图像进行卷积和最大池化提取图像特征,最终输出卷积特征图。因此,输出特征图的空间尺寸并不是固定的,将随着输入图像尺寸变化而改变。RoI-pooling 层为候选区域池化,通过坐标投影方式将特征图中的候选区域投影到特征空间,并对该候选区域进行池化,得到统一大小的的特征向量输入全连接层。全连接层定义了损失函数,通过Softmax分类器和boxbounding 回归器分别输出候选区域的类别概率以及包围框坐标。

2.2 空间变换网络

为解决形变目标的识别问题,本文算法通过对抗网络对原始样本进行形变产生新样本,加入检测器的训练。针对生成器网络,本文算法选用空间变换网络(Spatial Transformer Network,STN)[25]。STN 网络作为一个可微分的网络,可以插入到卷积神经网络框架中,使神经网络学习对输入图像进行空间变换,以提高检测模型对目标几何变化的鲁棒性。本文算法通过对抗形变网络ASTN-Fast RCNN 训练,得到对形变目标具有鲁棒性的目标检测器。

STN 网络通过神经网络学习如何对输入图像进行空间变换,以提高模型的几何不变性。STN 网络结构如图1 所示,其运作机制可分为本地网络、网格生成器和采样器3 个部分。

图1 STN 网络结构Fig.1 Structure of STN network

本地网络将特征图输入STN 网络,根据特征图预测产生的空间变换,并输出对应的参数变量。

网格生成器根据本地网络预测的变换参数值θ,通过矩阵运算目标图V中每个位置对应原图U的坐标位置,生成Tθ(G),如式(1)所示:

采样器根据Tθ(G)中的坐标信息和输入的原始特征图对原始图目标特征U进行采样并复制到目标特征图V中,输出变换后的特征图。本文算法根据STN 网络的可微分特点,通过反向传播直接优化本地网络参数。

2.3 生成对抗网络

GAN 包含生成器G 和判别器D 这2 个神经网络模型,GAN 训练过程是生成器G 与判别器D 对抗竞争的过程,通过一次迭代训练,生成器G 与判别器D在对抗博弈状态中相互调整改进,以最大程度减小最小-最大损失以达到最佳状态。

在本文的对抗形变网络(ASTN-Fast RCNN)中,STN 网络作为生成器,Fast RCNN 网络用于识别分类的全连接层与分类回归器并作为判别器。首先将原始图片进行卷积池化得到特征图;然后将特征图输入训练模型中。特征图作为ASTN 网络输入,生成器主要对特征图产生变换,然后将变换后的特征图输入到判别器进行训练识别,同时判别器将分类结果反馈给生成器。因此,在对抗学习过程中生成器可以生成检测器不易识别的形变样本。在生成器ASTN 中用于预测空间变换参数变量的本地网络由3 个完全连接层构成,其中第1 层与第2 层均使用ImageNet 预训练网络进行初始化。

GAN 在进行正式训练前需要对判别器进行初始训练,当判别器具有一定的判别能力后,在对抗训练中才能更有效对生成器进行反馈。本文网络模型结构如图2 所示,将特征图输入到STN 网络中,将形变特征图作为Fast RCNN 的输入,由于STN 网络是可以微分的,因此ASTN-Fast RCNN 网络通过分类损失对ASTN 的本地网络中空间变换参数进行调整。

图2 本文网络模型结构Fig.2 Structure of the proposed network model

2.4 ASTN-Fast RCNN 网络

数据集不包含所有可能的形变样本。本文通过生成目标检测器难以识别的形变样本来提高对形变样本的识别精度。设原始目标检测器网络为F(X),则原始检测器损失函数如式(2)所示:

其中:X为候选区域;Fc为检测器输出的目标类别;Fl为检测器输出的边界框坐标;C为候选框区域的真值;L为空间位置。

训练生成对抗网络的损失函数如式(3)所示:

其中:A(X)为对抗网络。

检测器很容易对GAN 的形变样本进行分类,则生成器即STN 网络将获得高损失,相反,如果检测器对生成的形变样本难以分类,则检测器获得高损失,而STN 网络获得低损失值。

3 实验与结果分析

本文将数据集按2∶1∶1 分为训练集、验证集和测试集。原始数据来自于国土局下属单位无人机采集视频库。无人机在外进行飞行拍摄,并将实时拍摄视频传输并存储到视频库中。

3.1 实验设计

3.1.1 本文实验设计

在实验之前,本文考虑到无人机拍摄范围广,相机拍摄清晰度要求高,导致图片过大,在对图片进行处理时,计算量也会变大。因此,在训练之前,本文首先对视频帧图像进行去均值处理,在训练自然图像时,由于图像任一部分的统计性质都与其他部分相同,因此对每个像素单独估计均值和方差意义不大。去均值处理归一化可以移除图像的平均亮度值。在对图像进行训练之前,本文去掉图像中无关的特征值,能够减少后处理中的计算量,提高训练速度。

实验需要对模型进行预训练,ASTN-Fast RCNN网络模型使用标准Fast RCNN 并加入STN 对抗网络。ASTN-Fast RCNN 模型采用分阶段式训练,训练流程如图3 所示。

图3 ASTN-Fast RCNN 网络模型训练流程Fig.3 Training procedure of ASTN-Fast RCNN network model

从图3 可以看出,首先训练标准的Fast RCNN目标检测器,使用Image Net 预训练模型作为初始化网络的权重,迭代1×104训练Fast RCNN 目标检测器得到预训练模型。ASTN 网络利用Fast RCNN的共享卷积层、RoI-pooling 层,与自身独立的完全连接层来预训练GAN 模型以创建旋转形变。将得到的预训练STN 网络和Fast RCNN 放在同一个网络下联合训练得到ASTN-Fast RCNN 网络模型。实验过程遵循标准的Fast RCNN 训练过程。训练采用选择性搜索算法产生候选区域,利用随机梯度下降对模型进行8×104次迭代。学习率初始值设置为0.01,在大约6×104次迭代后学习率下降到0.000 1。

3.1.2 对照实验设计

本文设计了2 组对照实验,分别为:1)对照实验1,本实验为了对照生成形变样本加入训练对检测器的影响,直接训练标准的Fast RCNN 目标检测器,原始样本集使用Image Net 的预训练模型作为初始化网络的权重,采用选择性搜索算法产生候选区域,利用随机梯度下降对模型进行8×104次迭代;2)对照实验2,本实验利用外部软件对样本集中的每个样本进行旋转生成形变样本,由于产生形变的空间较大,本文考虑到实验效率问题,将形变限制在可接受范围内的5 个旋转度与放大缩小,样本集扩充到原始的8 倍,用扩充样本集训练标准的Fast RCNN 目标检测器,同样使用ImageNet 的预训练模型作为初始化网络的权重,采用选择性搜索算法产生候选区域,利用随机梯度下降对模型进行8×104次迭代。

3.2 实验结果分析

为验证检测器对旋转形变目标的识别效果,本文在数据集中选取包含形变目标图像。违建场地如图4 所示,2 个场景下有3 处目标需要识别,已用方框标出。

图4 违建场地Fig.4 Unauthorized construction sites

对照实验1 的识别结果如图5 所示,使用原样本集直接训练标准的Fast RCNN 目标检测器产生的部分实验结果。从图5 可以看出,在拍摄过程中,检测器并未有效地识别出目标旋转。每个实验抽出两个场景下相同的15 张图像展示旋转过程的识别结果。组图中主要包含目标从倾斜旋转到平行的过程。

图5 对照实验1 的违建场地识别结果Fig.5 Recognition results of unauthorized construction sites on controlled experiment 1

对照实验2 的识别结果如图6 所示,采用外部软件对原样本进行无差别旋转生成形变样本,扩大样本集加入训练得到的部分实验结果。从图6 可以看出,通过人工添加有限的形变样本改进形变目标的识别结果,但效果并不理想。

图6 对照实验2 的违建场地识别结果Fig.6 Recognition results of unauthorized construction sites on controlled experiment 2

本文网络对违建场地的识别结果如图7 所示,使用本文提出ASTN-Fast RCNN 网络进行联合训练后的部分检测结果,虽然仍有漏检状况,但相较于对照实验1 与对照实验2 的结果,能够有效提升识别结果准确率。

图7 本文网络对违建场地的识别结果Fig.7 Recognition results of unauthorized construction sites using the proposed network

3 个实验的mAP 值对比如图8 所示。mAP 为AP 的平均值,在目标检测任务中通常用mAP 值衡量模型性能。

图8 3 个实验的mAP 值对比Fig.8 mAP comparison of three experiments

从图8 可以看出,对照实验1 在训练的前期使用原样本集直接训练标准Fast RCNN 目标检测器的mAP 上升较快,在大概4×104次迭代后曲线趋于平稳,mAP 值不再上升,检测器对测试集中的形变样本识别困难。对照实验2 用外部软件进行旋转生成形变样本,扩大样本集之后进行训练,由于样本集数量过大,模型在约7×104次迭代后,mAP 值趋于稳定。本文ASTN-Fast RCNN 网络模型尽管在训练前期不稳定,在1×104~1.5×104次出现下降的情况,但是随着迭代次数的增加,mAP 值在6×104次迭代后趋于稳定,mAP 值约为91%。3 个实验的检测结果对比如表1 所示。从表1 可以看出,对照实验1 使用原样本集直接训练标准的Fast RCNN 目标检测器在全部测试集上得到的检测结果是76.53%,通过人工扩大样本集在Fast RCNN 上训练得到的检测结果是84.69%,本文提出的联合网络训练出检测器的检测结果是91.84%。实验结果表明,数据集可以结合基于Fast RCNN 的生成对抗网络研究旋转检测,并取得较优的结果。

表1 3 个实验的检测结果对比Table 1 Detection results comparison of three experiments %

4 结束语

目前对违建场地的检测方法主要通过人工对无人机拍摄的视频进行查验,不仅耗时费力,而且容易遗漏。本文提出一种结合空间变换网络与Fast RCNN 的生成对抗网络ASTN-Fast RCNN,将深度学习与无人机航拍视频相结合用于违建场地的自动检测识别。将空间变换网络作为生成器生成形变样本,通过Fast RCNN 目标检测器与生成器的竞争式训练,提高检测器的鲁棒性。实验结果表明,该网络能够提高形变样本的检测性能和违建检查的工作效率。下一步将在本文工作基础上对复杂场景下违建场地的特征提取与背景分割进行研究,以提升网络的通用性,使其适用于更多复杂场景下违建场地的自动检测工作。

猜你喜欢
检测器样本特征
用样本估计总体复习点拨
如何表达“特征”
不忠诚的四个特征
当代陕西(2019年10期)2019-06-03 10:12:04
推动医改的“直销样本”
抓住特征巧观察
车道微波车辆检测器的应用
随机微分方程的样本Lyapunov二次型估计
一种雾霾检测器的研究与设计
工业设计(2016年11期)2016-04-16 02:49:43
村企共赢的样本
线性代数的应用特征
河南科技(2014年23期)2014-02-27 14:19:15