范继伟,杨小冈,卢瑞涛,李清格,夏 海
(火箭军工程大学 导弹工程学院,西安 710025)
近年来,在爆发的多场局部战争中,战争的特点与制胜机理发生了重要变化,精确打击成为了主要形式,人类战争形态正在由信息化向着智能化形态转变,武器装备的智能化程度改变未来战争作战样式与作战方法,战争的无人化成为重要发展趋势之一[1]。当前,军用人工智能技术发展势头强劲,各种无人作战平台在战争中开始显示出巨大的发展潜力,其中精确打击武器已经成为无人机载武器装备的一个重要发展方向。精确打击武器的核心技术是飞行器的精确制导技术,而飞行器精确制导技术的核心在于对飞行器精确导航定位技术,对于巡飞武器来说,制导的精度是影响其精确打击的关键因素[2]。因此,将人工智能技术与飞行器精确制导技术相结合将成为提升武器作战效能的重要手段和必经之路。景像匹配技术是实现飞行器精确制导定位的重要途径之一,具有自主性强、末制导精度高、误差不随航程累积等优势。景像匹配定位技术是指飞行器在预定飞行区域内选取地物景像作为基准图数据库。当飞行器到达预定区域时,机载相机实时获取当前景物作为实时图像送到机载计算机中与数据库中基准图进行匹配比较,根据实时图的匹配位置,即可确定飞行器的当前位置。在景像匹配定位技术中,景像匹配区域的可匹配性直接关系到系统的整体匹配性能,景像匹配区域的选择应该满足景物特征明显、唯一性好、适配性强、图像区域信息量大等特点,这不仅是飞行器航迹规划的依据和前提,同时也是减少导航偏差的关键因素[3]。如何确定一个匹配性强、适应性高的适配区域选取准则一直是景像匹配定位技术的研究重点,对景像匹配区域进行适配性分析的目的是在原始的基准图中找到合适的区域进行景像匹配定位,由此实现飞行器的精确导航。目前,适配区选择方法主要有三种[4]:(1)基于人工的经验选择法。此方法通过专业人员的人眼判断当前区域是否适合作为适配区,由于没有通过科学检验,该方法不能很好地符合客观匹配性且需要大量的人力成本。(2)基于层次规则的选择法。此方法通过研究已标注的图像,找到与适配性能相关的适配指标,例如:主次峰比、边缘密度、信息熵等。针对不同类型的图像使用不同的特征指标,通过逐层筛选,得到适配区。由于层次规则只考虑了多个特征对匹配概率的影响,忽略了多个图像特征在影响适配性时的相互关系,因此很难直接构建出图像特征参数与其匹配性能间的关系模型,且对不同种类的景像区的适应性较差。(3)基于回归器/分类器的选择方法。此方法使用卷积神经网络对景像区的深度特征进行提取,通过深度学习模型来建立图像特征与适配性之间的映射关系,将适配性分析问题转化为模式识别中的聚类判别问题。在经过适当的处理后能够呈现比较稳定的特征区域,具有良好的适应性与适配性。常用的基准图适配区选择技术如表1 所示。
表1 常用基准图适配区选择技术总结Tab.1 Technical summary on selection of common reference map suitable area
对于适配区域的特征提取,传统的经典特征提取方法有SURF 特征[5]、SIFT 特征、ORB 特征、HOG特征、LSD 线特征、Sobel 边缘特征、Canny 边缘特征、Affine SIFT 特征和FSD-BRIEF 特征等[6,7]。目前有许多特征提取算法都是基于这些经典算法进行优化与改进,由于传统的特征提取方法没有充分地利用数据来构建特征提取模型,所以每一项特征提取方法往往只能提取到图像某一方面的特性。导致这类方法大都只适用于特定场景下的景像匹配任务,当匹配环境发生较大的变化时,很难保证匹配结果的可靠性。在大数据的背景下,基于深度学习的特征提取方法也在快速发展,深度学习方法通过训练模型可以学习到图像的形状、颜色、纹理以及语义层面等特征,对于图像的缩放、平移、旋转都具有一定的不变性,相比于传统的特征提取方法描述能力更强、泛化性更高,可以进一步提升视觉导航的定位效果。在深度学习领域,可以通过增加卷积神经网络的深度来实现对图像更深层次特征提取[8]。但并非网络层越深越好,当网络层数不断增多时,梯度逐层减小,会出现训练误差逐渐增大的现象,从而影响模型精度。如果采用深度学习方法进行景像匹配,就需要充分利用基准图所提供的特征信息,导致待匹配区域的特征信息必须存储到景像匹配算法中,从而使得网络结构和运算量极大,无法满足嵌入式系统的实时性要求。一个实用的景像匹配算法要对场景中存在的诸如形变、旋转、成像角度变化等因素的影响不敏感,特别是在少量样本的前提下,如何使用深度学习进行特征匹配运算,这对于网络的泛化能力有着极大的考验。由于训练样本的缺失与实时性要求,限制了卷积神经网络、深度学习等一些算法在工程中的应用。本文针对景像匹配定位过程中的基准图适配区选择问题,设计了一套实用的智能景像匹配基准图适配区选择方法,对于提高精确制导武器自主定位的可靠性以及有效性具有重要意义。
匹配实验的实时图一般通过飞行实验和仿真实验两种方式获取。飞行实验是指通过导引头挂飞或飞行器进行多次飞行来获得实时图,飞行实验结果客观准确,但耗时较长、成本较大。仿真实验是在计算机上模拟实时图进行仿真匹配实验,与飞行实验相比,仿真实验易于操作,通过对大量仿真实验结果的统计分析,也能较好地真实反应适配区的匹配性能,应用范围较为广泛,因此本文采用仿真实验的方式,通过参考子图来模拟生成大量的实时图。
飞行器在飞行时由飞行高度带来的图像模糊干扰,可以对实时图添加高斯模糊函数模拟实现,具体定义如下:
其中,G(x,y)为高斯噪声,σ为高斯滤波器的标准差,x与y分别为像素点与高斯核中心的相对距离,即像素点坐标,img(x,y)为原图像,⊗为矩阵外积运算,img′(x,y)为高斯模糊后图像。经高斯模糊变换后结果如图1 所示。
图1 高斯模糊仿真生成图Fig.1 Gaussian fuzzy simulation generated images
椒盐噪声是飞行器在采集实时图过程中受到图像传感器与传输信道产生的随机干扰噪声,设定椒盐噪声密度d,循环读取图像像素点生成随机数n。当n>d时,该像素点为图像灰度最大值;当n>2d时,该像素点为图像灰度最小值;其他情况,图像灰度值不变。添加椒盐噪声变换后结果如图2 所示。
图2 椒盐噪声仿真生成图Fig.2 Simulation generated images of salt and pepper noise
飞行器在飞行过程中由地形起伏、姿态变化、镜头畸变等因素引起的实时图几何畸变,可由仿射扭曲变换仿真生成。设定仿射变换公式如下:
其中,x′与y′为经仿射扭曲变换后像素点x与y的位置,ρ为缩放系数,θ为旋转角度,e为横向偏移量,f为纵向偏移量。经仿射扭曲变换后结果如图3 所示。
图3 仿射扭曲仿真生成图Fig.3 Affine distortion simulation generated images
飞行器在飞行过程中由于存在飞行高度、飞行姿态、拍摄角度等变化,难以保证实时图与基准图在拍摄时二者的相机三个轴坐标平行,所拍图像会存在视角差异,此种差异可由透视变换仿真生成。设定透视变换公式如下:
其中,w与h为仿真实时图大小,kp0为透视系数,kp1为拉伸系数,yp0为偏移量。经透视变换后结果如图4所示。
图4 透视变换仿真生成图Fig.4 Perspective transformation simulation generation images
为了筛选出更加鲁棒的适配区域,将高斯模糊、椒盐噪声、仿射扭曲与透视变换进行叠加组合出新的混合噪声,模拟出情况更加复杂的仿真实时图来提高方案的真实性,使得匹配结果更加可靠。添加混合噪声变换后结果如图5 所示。
图5 混合噪声仿真生成图Fig.5 Hybrid noise simulation generated images
传统的适配区选择法一般采用基于统计特征的层次规则法,从图像的信息量、显著性、稳定性、唯一性四个方面来表述景像的适配性。选取的指标主要有图像方差、边缘密度、信息熵、主次峰值比、领域峰值比等,这类方法多数通过模式分类、多属性决策等方式来建立适配性与图像特征之间的映射关系。
图像方差主要反映图像各个像素点灰度值相对于图像灰度均值的偏离程度,通常表示图像所包含信息量的大小,方差大表示图像信息量越大,方差小表示图像特征差异较小,即图像适配性能差。图像方差定义为:
式中,Var为图像方差,f(i,j)为图像在(i,j)处的灰度值,m、n分别为图像的宽、高,为图像灰度均值。
边缘密度反映了图像信息量的丰富程度,通常表示适配区的显著性,边缘特征越丰富则适配性能越好。具体表示为:
式中,ρedge为图像边缘密度,Nedge为图像中边缘点像素个数,Ntotal为图像中像素点的总数。
信息熵反应了图像信息量的大小,通常表示适配区的稳定性。信息熵越大表明图像的适配性能越好,计算方法如下所示:
式中,H为信息熵,Pij为img(i,j)处灰度值在整幅图像中出现的概率。
峰值比可分为主次峰值比与领域峰值比,两者通常用来衡量适配区的唯一性,如果最高峰值与一个或多个峰值差别较小,则表明特征差异较小,适配性能较差。两者具体定义如下:
式中,SMR为主次峰值比,NMR为领域峰值比,Vmax为最高峰值,Vsub为次高峰值,Vngb为最高峰周围的8个像素领域中最大峰值。
该方法针对不同图像构造不同的选择指标来评价匹配区内景物的信息量、显著性、稳定性与唯一性,根据选取指标来判定匹配性能,通过逐层筛选的方式,将不满足条件的区域进行剔除,以此来得到适配区[9-11],此算法的大致流程如图6 所示。
图6 基于层次规则的适配区选择方法Fig.6 Adaptive region selection method based on hierarchical rules
针对在传统适配区选择方法中存在的图像特征参数设计困难、人工选取图像特征对适配性表达不准确以及适用范围小等问题,本文提出了基于深度特征的适配区选择方法。该方法将模拟实时图与参考图进行深度特征匹配,将得到的正确匹配概率作为当前参考图的适配性能。对于一幅基准图上的多个参考图子块,通过合理控制匹配概率阈值从而得到相对更加适合匹配的区域。本文所提出的适配区选择方法与传统适配区选择方法相比,避免了复杂特征指标选取流程,提高了适配区选取的有效性和泛化性。基于深度特征的适配区选择方法在分析过程中一般存在基准图、参考图与实时图三种图像。基准图为质量较好的大范围图像,是作为筛选适配区的基准图像;参考图是从基准图中选取特定尺寸、适配性能较好的子图;实时图是飞行器实时拍摄的景像图或是通过模拟生成的实时图。虽然模拟生成的实时图与真实场景下拍摄的实时图存在一些差异,但却能得知模拟实时图在参考图中的精确位置,方便精确计算出与参考图的匹配概率与匹配误差。在现有的景像匹配适配性能分析过程中,大多数的方法是将基准图直接分割成不重叠的参考图分别评估其匹配性能。但在这种情况下,同一个显著目标有可能被划分到不同的参考图中,从而影响基准图整体的适配性能分析。因此本文采取一定步长的方式,将基准图分割成重叠的参考图,适配区选择方案的流程如下:
(1)在参考图中随机截取实时图大小的子图;
(2)对于从参考图中选取的子图采用模拟实时图生成的方式,每张参考子图生成不少于100 张模拟实时图;
(3)用参考图与模拟生成的实时图进行深度特征匹配,统计匹配次数,由此计算匹配概率与匹配误差;
(4)当匹配概率与匹配误差均满足要求时,选为适配区。反之,为非适配区。
经典的深度学习特征提取模型主要有VGG 系列[12]、Inception 系列与ResNet 系列[13]。从模型结构上考虑,VGG 系列模型网络深度较浅;Inception 系列模型网络结构较为复杂;ResNet 系列模型结构较为简单,当网络层数加深时,可以很好地解决梯度消失问题,并且在特征提取方面具备强大性能和优秀泛化能力。ResNet 网络模型可以分为ResNet-18、ResNet-34、ResNet-50、ResNet-101、ResNet-152 等结构,ResNet-18与ResNet-34 网络模型层数较浅从而导致算法性能不够理想,ResNet-101、ResNet-152 网络层数较深从而导致速度下降,综合考虑本文将以ResNet-50 网络为特征提取方法,其主要结构如图7 所示[14]。
图7 ResNet-50 网络结构图Fig.7 ResNet-50 network structure
图7 中以 STAGE0 为例子,CONV 为卷积(Convolution)的缩写,7×7 指卷积核大小,64 指卷积层输出的通道数,/2 指卷积核的步长为2,BN 是Batch Normalization 的缩写,即常说的批归一化层。RELU指ReLU 激活函数,MAXPOOL 指最大池化层,(64,56,56)是该阶段输出的通道数(channel)、高(height)和宽(width)。Keras 提供了ResNet-50 的预训练权重模型,该权重模型可以选作空间上提取特征层次结构的通用模型,在利用ResNet-50 进行深度特征匹配时,深度特征提取匹配过程如下:
(1)添加ResNet-50 网络模型,但网络结构不包括全连接层;
(2)加载图像,提取ResNet-50 卷积层的输出作为图像特征;
(3)索引图像特征向量,将图像特征位置与对应的特征向量保存到变量中实现索引化;
(4)相似性度量,按照适配区选取方案中深度特征匹配方法计算图像特征对应关系,完成匹配任务。
深度特征匹配是一种利用深度神经网络提取的特征来寻找两幅图像之间点对应关系的方法,它不需要外部检测和特征描述,而是直接计算两幅图像之间的对应关系[15]。本文采用ResNet-50 网络的预训练模型来提取景像特征,利用神经网络最深层的平移不变性、尺度不变性与亮度不变性等特点,在语义层面上找到图像之间的匹配,而不需要对特征匹配进行任何特殊的训练。对于参考图A与实时图B,首先利用ResNet-50 网络对这两幅图像进行深层特征提取,得到特征块FA与FB,采用密集最邻搜索算法搜索FB以找到FA每个元素的最佳匹配位置。密集最近邻搜索算法是指在密集特征地图中采用相互最近邻搜索和比率测试来进行搜索匹配。设定2L为最近邻匹配距离,对于特征映射FA中的点PA,如果L2距离与最佳匹配的PB和次最佳匹配的PB-1比率低于给定阈值τ,则点PA与PB匹配。但只有相互匹配时,才接受该对。如果PB也与PA匹配,则PA和PB作为匹配对返回。对于匹配对集,采用分层细化方法进行从粗到精的匹配策略,利用深层网络的语义特性和浅层网络细节特性,通过将最深层的特征映射到最浅层来达到精确匹配的目的。表示位于第n层的匹配对,表示位于第n-1 层的特征映射。在ResNet-50 网络中,匹配对中的每一个点都是前一层网络中四个点的父点。对于每一对匹配,构造点集 ΩA和 ΩB以表示PA和PB在n-1层中的感受野。为了优化匹配对,将特征映射FA和FB的特征块提供给密集最邻搜索算法,并得到n-1 层中的匹配对。由于在神经网络的浅层特征对于几何变换的鲁棒性不如深层,正确的匹配对通常都是在较深的网络层中生成,而这些匹配对在分层细化匹配过程中向较浅层移动时被消除。因此在进行分层细化匹配前,利用密集最近邻搜索算法来获得一组匹配点。利用这组匹配点,得到一个单应性矩阵HBA,扭转实时图B得到图像C,使得参考图A与实时图B初步旋转位置对齐,参考图A与图像C再进行层次细化匹配,寻找可能的匹配对。最后将图像C的匹配点通过单应性矩阵HBA映射到图像B,完成匹配任务。深度特征匹配方法过程如图8 所示,深度特征匹配方法伪代码推导过程如表2 所示。
图8 基于深度特征匹配方法图Fig.8 Matching method based on depth feature
表2 深度特征匹配方法伪代码推导过程Tab.2 Pseudo-code derivation process of depth feature matching algorithm
采用Opencv3 和MATLAB2016b 进行相关实验验证,操作系统为 Ubuntu18.04,处理器为 Intel(R)Core(TM) i7-11800H@2.30GHz 32GB 的笔记本电脑。目前在景像匹配适配性分析领域并没有公开的标准数据集,需要自行构建基准图样本进行适配性能分析。由于成像方式与实验场景的不同,匹配区域的边缘信息、纹理信息与灰度起伏将会有很大的差异,因此按照不同的景像类别与成像方式进行适配性分析将会更有意义。为了验证本文方法的泛化性,针对不同场景下两幅遥感影像基准图与两幅航空影像基准图进行适配区选择分析。四幅基准图如图9 所示,基准图分辨率均为3840×2160pix,将每幅基准图以128pix 为步长不重叠地切分成分辨率为512×512pix 小的参考图,每幅基准图共得到338 张参考图。将每张参考图随机按照分辨率大小截取为256×256pix 的模拟实时图,对于每张模拟实时图采用高斯模糊、椒盐噪声、仿射扭曲、混合噪声等实时图模拟生成方式生成100张模拟实时图。
图9 四种场景下基准图Fig.9 Reference maps in four scenarios
适配区选择的评价指标通常与所采用的匹配算法有关,依据任务的不同,匹配算法具有多样性,导致无法用统一的标准进行度量分析。但不管采用何种匹配方式,都可以通过匹配误差与匹配概率对适配区选择进行评估。
1)匹配误差
在飞行器景像匹配定位过程中,由于实时图与参考图存在噪声等干扰因素,即使参考图与实时图能够正确匹配,匹配点与真实点之间也会存在一定的像素偏差,这种偏差是随机的。匹配误差是指依据匹配后的特征点相对位置关系,确定匹配位置与其真实位置之间的接近程度,本文采用欧式距离L2来度量实时图与参考图之间的匹配误差,计算方法如式(10)所示:
式中,(x1,y1)与(x2,y2)分别为图像中两个点的像素坐标,欧式距离越小,匹配精度越高,适配性能越好。参考图与模拟实时图的匹配结果如图10 所示,其中图10(a)的匹配误差在误差允许范围之内则判定匹配成功,图10(b)的匹配误差较大则判定匹配失败。
图10 匹配误差计算结果图Fig.10 Calculation results of matching error
2)匹配概率
匹配概率是指当匹配算法与候选适配区域固定时,实时图通过匹配算法在适配区匹配到真实位置的概率。匹配概率越高,表明该候选匹配区域的适配性能越好,作为基准图进行匹配时得到的匹配结果越可靠。计算公式为:
其中,P为匹配概率,n为正确匹配次数,N为试验匹配的总次数。当候选适配区域固定时,不同的景像匹配算法都会导致正确匹配次数的不同。
为了验证本文所采用深度特征匹配算法的匹配性能,选用四种场景下的参考图与模拟实时图进行匹配对比实验,实验对SIFT、SURF、ORB、AKAZE、AffNet+HardNet、R2D2、D2-Net 等算法进行特征匹配分析。由于图像匹配方法的应用领域不同,因此很难用统一的评价指标来界定图像匹配结果的好坏。为了评估深度特征匹配算法在复杂环境下的匹配性能表现,本文选用匹配误差作为评价指标进行对比分析,参考图与模拟实时图的匹配误差在5 个像素以内,认定为匹配成功。图11 给出了四种场景下的八种匹配算法的匹配对比结果。实验结果表明,本文所采用的深度特征匹配算法在鲁棒性与实用性等综合性能上表现较为优异,相比传统匹配算法的准确率与成功率也有显著提升。相比于AffNet+HardNet、R2D2、D2-Net等深度学习算法不存在误匹配现象,能够有效地应对尺度变化、模糊、形变、低分辨率等复杂的环境情况。
图11 场景一至场景四匹配算法实验结果对比Fig.11 Comparison of experimental results of matching algorithms in scene I to IV
为了验证所提出的智能景像匹配基准图适配区选择方法的有效性,本文将与传统具有代表性的基于层次规则的适配区选择方法进行对比分析。基于层次规则的适配区选择方法选择流程如下:对于给定参考图,分别提取图像方差数值在30 以上、边缘密度数值在0.03 以上、图像信息熵数值在4 以上、主次峰值比与领域峰值比数值在10 以上的统计特征,通过逐层筛选,计算统计特征适配区选择预测图,当参考图各项统计特征满足选定条件时,将该参考图作为适配区,反之为非适配区。对基于深度特征的适配区选择方法,提取参考图的深度特征,采用深度特征匹配方法进行匹配,计算匹配概率,得出适配区选择预测图,通过计算误差选定适配区,当匹配误差在5 个像素范围以内且匹配概率大于70%的参考图选为适配区,反之为非适配区。图12-13 为航空影像基准图适配区域选择结果,图14-15 为遥感影像基准图适配区域选择结果,其中图12-15 中图(a)为基于层次规则法适配区选择结果预测图,图12-15 中图(b)为基于深度特征法适配区选择结果预测图,图12-15 中图(c)为适配区选择结果(蓝色为基于层次规则的适配区选择结果,红色为基于深度特征的适配区选择结果)。表3-6 为场景一至场景四的适配区域选择置信区间分布情况。对于层次规则适配区选择方法的置信区间是指参考图各项统计特征满足选定条件的置信度估计区间。基于深度特征法适配区选择方法的置信区间是指模拟实时图与参考图的正确匹配概率区间。为了更好地对比两种适配区选择算法的实用性,选用场景一与场景四中层次规则法选择的适配参考图与深度特征法选择的适配参考图进行匹配分析,表7 为场景一至场景四的适配成功率情况。本文所采用的适配成功率是指适配区选择算法所选择的适配参考图与模拟实时图通过匹配算法匹配成功概率。从表3-7 中可以看出,层次规则法选择的适配区虽然在较高的置信区间中有较多的适配参考图,但层次规则法没有考虑到层次规则指标对匹配算法的影响,因而选择的部分适配区适配性能较差。
表3 场景一适配区域选择分布情况Tab.3 Scene I selection and distribution of suitable areas
表4 场景二适配区域选择分布情况Tab.4 Scene II selection and distribution of suitable areas
表5 场景三适配区域选择分布情况Tab.5 Scene III selection and distribution of suitable areas
表6 场景四适配区域选择分布情况Tab.6 Scene IV selection and distribution of suitable areas
表7 场景一至场景四适配成功率Tab.7 Success rate of suitable from scene I to IV
图12 场景一航空影像基准图适配区域选择结果Fig.12 Selection results of suitable area of scene I aerial image reference map
图13 场景二航空影像基准图适配区域选择结果Fig.13 Selection results of suitable area of scene II aerial image reference map
图14 场景三遥感影像基准图适配区域选择结果Fig.14 Selection results of suitable area of scene III remote sensing image reference map
图15 场景四遥感影像基准图适配区域选择结果Fig.15 Selection results of suitable area of scene IV remote sensing image reference map
从仿真实验结果可以看出,基于层次规则的适配区选择方法选取了轮廓清晰、纹理丰富、特征明显的景像区作为适配区,将地形平坦、没有明显特征的景像区作为非适配区。但层次规则的适配区选择方法将灰度均匀、纹理特征较少的区域也划分到了适配区,并且很难在特征明显但适配性较差的场景下分辨出非适配区,因而存在一定程度的误选情况。而本文提出的基于深度特征的适配区选择方法可以通过ResNet-50 网络模型的深层特征提取特性,弥补人工特征提取不能很好地表达适配性问题,场景一至场景四适配成功率平均提高了40%以上,能够在多场景下选取适配性相对更合理、更全面的适配区。
本文根据景像匹配适配区选择的实际需求,提出了一种基于遥感影像的智能景像匹配适配区选择方法。采用高斯模糊、椒盐噪声、仿射扭曲、透视变换与混合噪声等方式生成模拟实时图,利用ResNet-50深度特征提取网络结构,通过深度特征匹配的方式计算匹配误差与匹配概率,选取适配区。仿真实验结果表明,本文方法能够有效地完成景像匹配适配区的选择工作,改善了传统适配区选定方法对景像区描述的片面性和不完整性,相比于传统方法适配成功率平均提高40%以上。由于本文提出的方法并不是针对某一种图像特性,因而该适配区选择方法可以广泛地应用于CCD 图像、红外图像、SAR 图像。未来可在如何完善深度特征训练样本,使得适配区选择方法更具针对性与专业性,适用范围更加广泛上开展深入研究。