基于深度学习的图像特征匹配方法*

2022-07-15 13:11徐梦莹刘文波郑祥爱

传感器与微系统 2022年7期

徐梦莹，刘文波，郑祥爱，蔡超

(1.南京航空航天大学自动化学院, 江苏南京 211106;2.高速载运设施的无损检测监控技术工业和信息化部重点实验室, 江苏南京 211106)

0 引言

图像匹配技术是图像处理中非常重要的一个分支，被广泛应用于各种不同领域，如人脸识别、图像拼接、视觉跟踪、三维重建等。图像匹配是指通过对两幅或多幅图像之间的相似性或一致性进行分析，判断图像间的相似关系。成像设备对某一物体或场景记录时，由于受设备焦距、成像方式、角度变化、光照变化等因素影响，会产生不小的差距(图像间存在较大的几何差异和灰度变化)。现有的图像匹配方法主要分为基于灰度的图像匹配[1,2]和基于特征的图像匹配[3,4]。普遍应用的是基于特征的图像匹配算法，其特点是匹配速度快、性能稳、运算量小等。

基于特征的图像匹配算法主要提取图像的点特征、线特征、边缘特征等局部不变特征。点特征具有计算简单、鲁棒性强等特点应而受到众多研究人员和学者的青睐[5]，基于点特征的图像匹配算法包括三个步骤：特征点检测、特征点描述以及特征点匹配。基于特征点的图像匹配算法主要有SIFT算法[6]、SURF算法[7]、ORB算法[8]等，这些特征点的提取多以手工设计为主，虽然手工设计的特征点具有很好的效果，但它们通常依赖于预先设计的结构，在复杂场景或剧烈光照变化下难以取得稳定的精度。随着深度学习的快速发展，越来越多的工作尝试使用学习的方式来提取特征点或者是计算特征点的描述符。基于学习的特征点提取方法可以针对各类场景和成像条件训练特征点模型，如LIFT[9],SuperPoint[10]。

在特征点匹配方面，一般计算需要匹配的两个特征点的最近邻与次近邻欧氏距离的比值对比设定好的阈值进行取舍，并采用随机抽样一致性(random sample consensus,RANSAC)算法[11,12]进行误匹配点的去除。虽然RANSAC算法具有极大的容错性和较好的鲁棒性，但当所提取的匹配点对集中错误的匹配点对占有较高比例时，该算法的运算时间会呈指数增加，经过剔除误匹配后仍然存在着错误的匹配点对。Bian J等人[13]提出了一种基于网格运动统计(grid-based motion statistics,GMS)的特征匹配算法，可以快速可靠地区分正确匹配和错误匹配。

综上所述，本文提出了一种基于深度学习的图像特征匹配方法，着重进一步提高图像匹配的正确率。首先，使用SuperPoint特征点学习模型提取图像的特征点并进行描述，用最近邻和次近邻比值法得到初匹配点对，使用GMS算法区分初匹配点对中的正确匹配和错误匹配，最后采用RANSAC算法完成图像匹配。

1 SuperPoint框架

1.1 总体结构

2018年，DeTone D等人[10]设计了一种称为SuperPoint的全卷积神经网络结构，该结构可在全尺寸图像上运行，并在单次前向传递中产生带有固定长度描述符的兴趣点。该框架的实施过程如下：1)在简单的合成数据集上采用全卷积网络训练兴趣点基础检测器。该合成数据集由三角形、四边形、线、立方体、棋盘和星形等简单的几何形状组成。受过训练的探测器具有良好的抗噪能力。2)用上面生成的检测器检测未被标注的真实场景图像，应用单应性变换(homographic adaptation)自动标记未标记区域的图像，生成带标签的数据集。3)生成的标签数据集来训练全卷积神经网络，该网络可以从图像中同时提取兴趣点和描述符。SuperPoint框架一共包含三部分，共享编码器、兴趣点解码器和描述符解码器。如图1所示。

图1 SuperPoint框架

1.2 共享编码器

共享编码器其实就是共享的卷积网络，共享卷积层不仅提取了图像中的特征，同时还对图像进行了降维。SuperPoint框架使用VGGNet网络模型中的卷积部分充当共享卷积层。假设输入图片的尺寸为H×W，经过共享编码器的输出张量尺寸为Hc×Wc，其中，Hc=H/8，Wc=W/8。定义一个低维输出的张量Hc×Wc为一个单元，则一个尺寸为H×W的图像有8×8个单元。对于输入图像I∈RH×W经过编码器，输出一个中间张量B∈RHc×Wc×F。其中，Hc1。

1.3 兴趣点解码器

对于兴趣点检测，输出的每个像素对应于输入中该像素是特征点的概率。解码器将低维的输出张量还原到和输入一样的维度。兴趣点解码器处理X∈RHc×Wc×65并输出张量为RH×W，即图像的尺寸。这里的65表示原图8×8的局部区域，加上一个非特征点Dustbin。然后经过SoftMax函数处理，将Dustbin这一维度移除。最后执行Reshape函数，完成RHc×Wc×F到RH×W过程。为了使模型易于训练，解码器使用非学习的上采样。

1.4 描述符解码器

描述符解码器含有两个卷积层，两个卷积核的尺寸分别为3×3×256和1×1×256。描述符解码器处理D∈RHc×Wc×D，并输出尺寸H×W×D的张量。然后，解码器执行描述符的双三次插值，最后执行L2标准化输出描述符。这个非学习的描述符解码器如图1所示。

2 基于GMS的特征匹配算法

GMS算法具有快速、强鲁棒性的特点，能够将高数量的匹配转换为高质量的匹配。该算法将运动平滑性约束转化为统计量，以剔除错误的匹配[14]。图2为正确匹配和错误匹配的特征分布图。左边为参考图像Ia，右边为待匹配图像Ib分别有M,N个特征点，其相应的特征点集合为{M,N}。使用暴力匹配(brute force,BF)算法得到图像Ia到图像Ib的匹配点对集合χ={x1,x2,…,xN}。GMS算法通过计算法每个匹配点对邻域内支持匹配点对的特征点数量来区分集合χ中正确与错误的匹配点对。a,b分别为图像Ia和图像Ib的子区域，其匹配点集合为x={x1,x2,…,xn}。xi为正确匹配对，xj为错误匹配对。对于图3中的区域a，用Si表示xi邻域匹配点支持估计量，则有

Si=|xi|-1

(1)

式中 -1为除去区域a的原始特征点。

图2 正确与错误匹配特征分布

由于匹配点对是相互独立的，Si服从二项分布，如式(2)所示

(2)

式中K为与不相交区域的个数，n为区域点邻域特征点数量，pt为xi正确匹配的概率，pf为xi错误匹配的概率。Si的均值和标准差分布如下

(3)

GMS算法定义区分正确与错误匹配能力P，用均值的差除以标准差的和表示

(4)

3 实验结果与分析

为了验证本文算法的可靠性和有效性，选用了Mikolajczyk标准数据集中图像模糊Bikes集、光照变化Leuven集、视角变化Wall集进行测试，每组中包括6张变化程度依次增强的图像。图3(a)与(b)，(c)与(d)，(e)与(f)分别为Leuven，Bikes和Wall的第一幅和第六幅图像。采用结合RANSAC算法的SIFT，SURF，KAZE特征算法和本文算法进行匹配对比实验。实验平台为Windows 8.1操作系统，CPU为Intel®CoreTMi5—4210U，4 GB内存的个人电脑。编程环境为Pycharm，基于OpenCV 3.4.1进行仿真实验。

图3 实验中所用的样本图像

采用匹配正确率(correct matching rate,CMR)和运行时间等评价指标对图像匹配算法进行全面的评价与定量分析。CMR值越大，该匹配算法匹配效果越好，CMR定义为

CMR=mc/m

(5)

式中mc为正确匹配点对数量，m为所有匹配点对数量。

图4展示了各算法在三种图像条件变化下的CMR。CMR越高,该算法的匹配效果就越好。横轴的1～5代表每个数据集中的第一幅图像依次与后面5幅图像进行匹配(记为对比组1～5)。

图4 不同算法在不同图像变换下的CMR

从图4中可以看出，对于光照变换的图像，在变换强度增加的情况下，相比于其他三种算法，本文算法具有良好的匹配效果，其CMR基本保持在97 %以上，适用性强。其次是SIFT算法、KAZE算法，SURF匹配效果欠佳。相比较于SIFT算法，本文算法在光照变化条件下平均CMR提高了2.2 %。对于不同程度模糊的图像，本文算法匹配效果不是很好。对于视角变化的图像，在最后一组图像匹配时，由于视角变化程度太大，本文算法、KAZE、SIFT和SURF算法的匹配到的特征点对数都小于设定的最小匹配点对数，不能有效匹配，认为匹配失败。本文算法在前几幅图像匹配中保持较高的CMR，基本在95 %以上。综上所述，本文算法在图像模糊的图像集中匹配效果欠佳，在其他场景测试下，本文算法CMR都高于其他三种算法，并且平均正确率达95 %以上。

表1给出了各算法在实验图像数据集上的运行时间进行对比。从表中可以看出，本文算法平均运行时间最长，在实时性上略有欠缺，后期需要在时间上进行优化。

表1 不同算法针对每组图像的平均运行时间 s

4 结论

本文提出了一种基于深度学习的图像特征匹配方法。将卷积神经网络应用于图像的特征匹配工作，采用了特征点提取和描述同步进行的SuperPoint网络架构。并共用了大部分网络结构和参数，减少了网络的训练量。通过最近邻和次近邻距离比值法得到初始匹配点对，使用GMS算法对其筛选，提高了匹配点对数据集的质量，最后通过RANSAC算法进一步剔除了误匹配点对。实验结果表明:与SIFT算法、SURF算法和KAZE算法等3种算法相比，本文算法拥有较高的CMR，并且在光照变化、视角变化下具有很强的鲁棒性。本文算法对模糊变化的图像匹配效果欠佳，并且本文算法运行时间较长，对此如何解决，也将成为后续研究的重点。