自然资源多时相遥感影像智能匹配方法研究

2021-09-27 18:08:18史迪超黎慧斌李亭谕史晓明

地理空间信息 2021年9期

史迪超，黎慧斌，李亭谕，史晓明

（1.中国地质大学（武汉）地理与信息工程学院，湖北武汉 430074；2.广东省国土资源技术中心，广东广州 510075；3.湖北省航测遥感院，湖北武汉 430074）

全民所有自然资源资产清查是一项摸清全民所有土地、矿产、森林、草原、湿地和海洋等自然资源资产底数的基础工作。遥感影像以其信息量丰富、现势性好、实用性强、量测方便等特点，成为全民所有自然资源资产清查工作中的一项重要基础数据，在实物量属性清查、地类等因子内业核查、经济价值核查等阶段发挥着重要作用。时序影像是提高遥感影像自然资源资产清查单元解译精度的关键，然而同一地区不同时相的遥感影像同名点的空间位置存在差异，不能直接使用，时序影像智能匹配是遥感影像在全民所有自然资源资产清查工作中规模化应用的基础。

常见的影像匹配包括立体匹配和二维匹配，立体匹配是根据不同视点的影像找到对应匹配点，进而重建三维场景[1]；二维匹配是在不同时相或不同传感器的影像间识别同名匹配点，从而实现同一地区影像间的空间坐标同化。时序影像匹配属于二维匹配，具体步骤为：①检测提取影像空间不变特征；②构建特征描述符，并根据相似性提取时序匹配点对；③根据基准影像与待匹配影像之间的畸变特点确定几何变换模型；④对影像进行坐标变换与插值。其中，提取更多的影像空间不变特征和构建信息丰富的描述符是时序影像精准匹配的关键。对于影像空间不变特征的提取，传统方法首先提取两幅影像间的不变特征，再进行影像空间匹配[2]；De C E[3]、CHEN Q S[4]和Reddy B S[5]等则利用傅里叶梅林变换分别将图像配准扩展到了旋转、平移、缩放等情况，但这些方法处理平坦地形时获得的正确匹配点较少，匹配效果不佳。因此，本文提出了一种基于计算机视觉顾及地形梯度特征的时序影像匹配方法，已应用于自然资源资产清查工作中，并取得了良好效果。

1 基于视野感知的CNN-SIFT描述符

1.1 视野感知区域划分

视觉对特征定位和特征描述具有先天优势，首先关注大范围场景（中高级语义）信息，视野感知范围大、信息量多，形成高级语义；然后随着注意力集中、视野缩小，信息密度降低，形状、位置等低级特征形成区域的主要描述[6]。高级语义与低级语义相结合形成完整的视觉描述，CNN提取高级语义，SIFT获取低级语义，语义融合形成视觉的CNN-SIFT描述符。以时序影像同名点对描述为例，同名点对提取是空间场景信息（中高级特征信息）和内部结构信息（梯度信息）综合比对衡量的结果。受视野感知的启发，特征点区域分为注意力区和关联区，如图1所示。其中，CNN提取关联区的高级特征，SIFT提取注意力区的局部特征，再根据不同的感受野进行自适应权重分配，以提高描述符在影像匹配中的能力。

图1 视野感知区域划分示意图

1.2 CNN-SIFT描述符结构设计

深层次孪生网络能根据样本相似性标签训练，分支网络可作为特征提取器单独使用。本文设计了一个时序影像特征提取的孪生网络感知模型，用于提取鲁棒的影像神经网络相似度特征。

1.2.1 孪生网络视野特征结构

孪生网络构建结构相似的双重分支网络，使正样本相关性尽可能高，负样本相关性尽可能低。本文选用AlexNET网络，如图2所示，左右支路具有相同的网络结构，并共享权值。根据对应匹配特性将样本影像块分为正、负样本，正样本代表对应特征点的时序影像块，负样本代表误匹配或随机分配影像块。加入激活函数非线性单元，使该神经网络能进行有效的深度特征学习，实现非线性特征映射。对比度损失函数使训练中负样本距离度量增加，正样本距离度量降低。在测试过程中，选取RGB局部影像块样本X1、X2分别输入分支网络，再采用分支网络特征Gw(X1)、Gw(X2)的相似性度量创建损失函数，并利用欧氏距离判别，分支网络的结构参数与传统的AlexNet参数相似。卷积层后加入采用双曲正切单元（Tanh）的激活层，通过全连接层控制分支网络提取的特征维数。

图2 孪生网络结构示意图

1.2.2 SIFT特征分析

SIFT匹配后仍有大量错误匹配点对，且经过模糊处理和降采样后提取的平坦地区匹配点较少，为了得到精确匹配点集，通常采用GMS、RANSAC等方法进行二次筛选。GMS基于正确匹配点附近存在较多匹配点支持的思想，认为匹配后每个匹配点邻域内匹配点数超过阈值则为匹配正确，此时梯度平坦地区的匹配点会因分布稀疏而被剔除。RANSAC算法则从初始点集中随机选取内点拟合数学模型，其余点作为验证，符合模型则加入内点，迭代后选择内点最多的模型。该方法没有考虑点的空间分布，平坦地区匹配点由于数量少被选为初始内点的概率较小，且因没有相似点支持而被淘汰。这些算法容易漏掉平坦地区的匹配点，不能全面反映地形总体特征；且目前已有的低、高级特征融合描述符局限于固定权重比[7-8]，限制了匹配精度的提高。因此，本文提出了基于视觉感知的孪生网络与顾及梯度的SIFT自适应融合描述符，能增加平坦地区的匹配点，实现精确高效的时序影像匹配。

1.2.3 自适应权重分配策略

CNN-SIFT描述符的构建采用了神经网络特征与SIFT描述符的加权融合策略，注意力区提供低级特征信息，关联区提供中高级特征信息。

SIFT算法在差分金字塔层间检测极值点，在对应的高斯金字塔影像上构建描述符。本文采取4×4的邻域构建描述符[9]，每个子区域的半径为3σ_oct，对应的表达式为：

式中，S为子层数；s为高斯金字塔影像所在的层数。

针对不同尺度的特征点，其映射在原图上的范围为D×D。D的表达式为：

式中，0为金字塔的组数。

本文将注意力区与关联区的面积比值作为描述子加权融合的权值。不同SIFT特征点所在的尺度空间不同，因此其映射在原图的范围也不同。本文根据特征点尺度自适应设定动态权值，CNN-SIFT描述符可表示为：

式中，S1为SIFT特征点映射的原图面积；S2为神经网络样本面积；D1为SIFT描述符；D2为CNN描述符。若SIFT映射区域大于CNN提取区域，则以CNN特征作为最终的CNN-SIFT特征。

1.3 样本数据集的构建方法

神经网络模型的学习能力依赖于训练数据集的质量和数量[9]，构建准确、可分的样本集是模型拟合的关键。本文选取时序影像构建初始正负样本集，如图3所示，首先检测时序影像特征点，构建特征描述符，并采用空间位置自适应分块策略处理影像；然后选取双向最邻近匹配策略匹配影像块，正样本由匹配的特征点对裁剪影像块构成，负样本由正样本打乱后非同名特征点对的影像块构成，正负样本比例为1∶1；最后通过人工二次筛选保证样本集的正确性。

图3 样本集制作流程图

2 基于CNN-SIFT的视野感知模型匹配方法

首先分别对输入的基准影像和参考影像进行SIFT特征点位提取，并根据输入影像尺寸与SIFT相应保留N个特征点位；再对特征点位计算SIFT描述符，提取局部影像块，并将影像块输入对应分支网络进行CNN特征提取，N的取值决定了CNN视野范围；然后对SIFT特征与CNN特征进行基于空间注意力模型的自适应权值融合，构建完整的CNN-SIFT描述符；最后将特征点对应的CNN-SIFT描述符输入描述符匹配器（最邻近搜索库）中进行匹配，并根据匹配点选取影像转换模型，进行影像匹配。虽然描述符描述能力的提升减少了误匹配率，增加了匹配点位的个数，但仍存在异常点位。因此，本文对CNN-SIFT描述符获取的初始匹配结果进行优化，根据CNN-SIFT描述符进行一阶多项式拟合误差分析，迭代删除单点误差较大的特征点；并以“横纵扫描线”的思想分析偏移点位的灰度曲线特征，增加点集中的可用点。对于高分辨率遥感影像匹配来说，均匀分布的特征点是保证影像匹配质量的前提条件[7]。基于格网划分的思想，本文在影像单个网格内利用图像信息熵、特征点与格网中心的欧式距离进行综合评判，以保留网格内的最优特征点，改善点集的空间分布。

3 实验结果与分析

3.1 实验数据

1）SIFT-PATCH训练数据集。为了验证CNN-SIFT描述符在影像匹配中的有效性以及视野扩张的效果，本文基于2 m分辨率的全色影像和8 m分辨率的多光谱影像，制作了128×128、180×180、256×256三个SIFT-PATCH数据集，覆盖建筑、农田、道路、水域等典型地物，如图4所示，顾及时序影像水色变化，加入了多水色的正负样本。本文采用样本尺度、旋转、亮度变化等方法提高网络能力，得到增强后的网络训练集，样本数量为20万，正负样本各占一半。

2）测试数据。本文选取4组影像数据验证CNNSIFT的鲁棒性，分别记为P-A、P-B、P-C、P-D，具体参数如图4所示。

图4 实验影像数据

3.2 实验环境

实验采用Intel Xeon Scalable Silver 4210 CPU和Nvidia RTX 2080Ti服务器，神经网络在深度学习平台Tensorflow上进行训练。

3.3 评价指标

本文采用均方根误差、正确匹配点对数、正确匹配率和同名点覆盖度进行评价。

均方根误差用以衡量影像配准控制点的精准度。其计算公式为：

式中，(x r,yr)为待匹配影像特征点坐标；为基准影像特征点根据多项式模型预测的点坐标；N为匹配点数量。

正确匹配点对数为单点均方根值小于一定阈值（本文选取两像素为有效阈值）的匹配点对数量，是限制匹配精度的关键因素，证明了描述符的鲁棒性以及匹配策略中几何约束的正确性。

正确匹配率用以评价描述符的稳定性，其值越高，描述符描述能力越强，计算公式为：

式中，CR为正确匹配率；Nreal为匹配结果中正确匹配点对数量；Ncors为所有匹配点对数量。

同名点覆盖度[8]用以评价匹配点对的均匀分布情况，计算公式为：

式中，N为匹配区域被划分的网格数；Nmatch为存在特征点的网格数。

3.4 基于视野感知的CNN-SIFT描述符实验

3.4.1 神经网络特征维度对比实验

基于SIFT-PATCH数据集，通过对比实验，综合描述符在后期匹配中的检索速度，本文选取神经网络全连接层特征维度为128维。

3.4.2 CNN-SIFT自适应权重评价实验

CNN-SIFT描述符是对CNN描述符和SIFT描述符的动态加权融合，固定特征权重与自适应权重的对比结果如图5a、5b所示，其中特征权重比是指SIFT描述符占完整描述符的权重比例。实验结果表明，不同特征影像的特征权重比最优区间不同，固定特征权重的描述符难以适应复杂地形，而自适应权重策略则可通过权重的调整，利用SIFT描述符保证位置的精确度，利用CNN描述符保证匹配的准确率，使匹配结果始终处于最优范围区间。

图5 CNN-SIFT权值分配和视野扩张对比实验图

3.4.3 视野扩张对比实验

特征点SIFT描述符在平坦地区梯度特征相似，误匹配率较高；然而随着视野扩张，描述符中包含田埂和岸线等轮廓特征时，视觉特征可分性大幅提高。CNN-SIFT描述符处理富含水域的P-D组影像时，选取视野128×128、180×180、256×256的关联区范围进行实验，以验证视野对影像匹配的影响。实验结果如图5c～5f所示，可以看出，单纯的湖泊水体可供描述符提取的特征有限；但随着视野关联区面积的增大，可提取的差异特征增多，正确匹配率上升。综合正确点数量、正确匹配率以及覆盖度的变化规律，本文选择180×180为最优视野范围。

3.5 匹配实验结果与分析

本文在P-A、P-B、P-C、P-D四组影像上选取SIFT描述符、CNN描述符（视野128×128）、CNNSIFT描述符（视野180×180）进行对比实验；采用正确匹配点对数和正确匹配率作为评判匹配能力的指标，以分析描述符结构和地形特征对正确匹配的影响；利用覆盖度和算法耗时来评价SIFT、CNN和CNN-SIFT描述符的匹配质量和性能。

3.5.1 描述符内部结构对匹配的影响

P-A、P-B、P-C三组实验的具体结果如表1所示，可以看出，与SIFT描述符相比，CNN-SIFT描述符的正确匹配点对数平均增加了41.32%，正确匹配率增加了13.63%。

表1 各分辨率影像匹配结果表

在正确匹配点对数量方面，CNN-SIFT描述符匹配点对最多，SIFT次之，CNN最少。CNN描述符受限于网络池化，神经网络提供特征点区域大，范围准确性、精确定位能力弱。正样本场景空间相似，负样本区分度较高，空间位置相近的相似影像块限制了神经网络的精确定位。CNN描述符为抽象层次的中高级特征，属于匹配的强约束条件，为特征点提供局部范围约束，能更准确地定位特征点所在区域。SIFT描述符属于梯度描述符，能反映小距离尺度的低级结构特征，获取空间距离相近的精确匹配点位。CNN-SIFT描述符融合了高级特征与低级特征，同时具有抽象的场景区分能力和邻近点位判别能力，能始终保持匹配的正确性，获取优于CNN 描述符和SIFT 描述符的匹配结果。

在正确匹配率方面，SIFT描述符的正确匹配率偏低，存在一些局部特征相似但空间距离偏移量较大的点对，说明SIFT描述符的能力不足；CNN描述符在P-B与P-C中取得了优于SIFT描述符的正确匹配率，在P-A 中略逊于SIFT描述符。其原因在于，在P-A 图像对中，部分点位空间位置接近，CNN描述符获得准确的大范围匹配区域后，小范围内具有多个点位，但CNN定位精度不足，导致匹配正确率下降；而P-B与P-C的特征点密度低于P-A，促使CNN的正确匹配率有一定提升。在3组实验中，CNN-SIFT描述符均获得高于SIFT 描述符10%以上的正确匹配率。

3.5.2 平坦地形对匹配的影响

农田和湖泊地区地势平坦是影像匹配的难点[10]，为了验证CNN-SIFT描述符在平坦地区的匹配能力，本文设计了P-D实验（平坦湖泊地区影像匹配），效果如图6所示。随着CNN-SIFT描述符视野范围的扩张，产生了湖泊轮廓的堤岸匹配点以及SIFT描述符也无法获取的湖汊水体匹配点（图6a、6b）。平坦匹配点的增加使得正确匹配点对数和匹配率大幅提升，与SIFT描述符相比，平坦地区匹配率提高了19.20%。CNN-SIFT描述符也存在少量误匹配，如图6c所示的平原区块田匹配点，其原因在于：①误匹配特征点所在的高斯图像尺度过大（过小），导致描述符权值过高，造成匹配；②存在特征相近的局部影像块，使得描述符无法区分。通过扩张视野能有效解决该问题，如图6d所示。

图6 部分匹配结果实例图

3.5.3 匹配质量与性能分析

匹配点分布均匀是确保高质量影像匹配的关键，同名点覆盖度定量表征了匹配点空间分布的均匀程度。CNN-SIFT描述符获得了最高的同名点覆盖度和正确匹配率，如图7a所示，SIFT部分根据局部特征产生大量特征点，CNN部分根据视觉可分抑制密度过高的重复匹配点，二者自适应融合能有效调剂匹配点的合理分布，使正确匹配点的平均同名点覆盖度比SIFT描述符高9%以上。

神经网络描述符匹配的主要耗时为CNN计算，感受野越大，计算速度越慢，如图7b所示。因此，自适应的依区域地形梯度、并行分块处理能显著提升描述符匹配性能。本文改进了单线程模式，GPU并行模式和多线程计算使资源得到充分利用，极大提升了CNNSIFT描述符影像匹配的效率，能满足自然资源资产清查实际工作的要求。

图7 影像匹配结果性能分析图

4 结语

本文构建了基于视野感知的CNN-SIFT描述符，将影像特征提取转换为相似度学习，采用孪生网络提取中高级特征，增强了描述符的视觉可分性，提高了时序影像正确匹配率。本文首先验证了CNN-SIFT描述符能涵盖高中低级特征，正确匹配点数和匹配率均显著优于其他两种描述符；然后验证了CNN-SIFT描述符的匹配能力，自适应增强视野感知能有效处理平坦地形匹配的难点问题；最后验证了CNN-SIFT描述符的匹配性能，同名点覆盖度体现匹配质量高， GPU分块并行运算解决了耗时瓶颈，综合作用使得CNN-SIFT描述符性能全面优于其他两种描述符。描述符匹配能力来自于视觉可分的中高级特征和地形可分的梯度特征，CNN描述符在视野范围较大时匹配率较高，SIFT描述符在地形复杂、梯度特征为主时匹配率较高，CNN-SIFT描述符依地形自适应调整视野感知范围和描述符权重，能同时提升影像正确匹配率与匹配速度。利用CNN-SIFT描述符匹配技术制作的高分辨遥感影像能满足全民所有自然资源资产清查实际工作的要求，为其他卫星影像进行大范围批量正射影像生产提供借鉴。