基于置信度策略优化的SuperGlue口腔特征匹配算法研究

2024-11-30 00:00:00郭瑀璐李占利
现代电子技术 2024年23期
关键词:深度学习

摘" 要: 随着深度学习技术的不断进步,特征匹配算法在计算机视觉领域的重要性日益凸显。传统的SuperGlue算法在特征匹配准确度上已经表现出了优异性能,但在处理低光照和纹理复杂的口腔图像时,其效率和准确性仍有提升的空间。针对上述问题,文中提出一种基于置信度策略优化的SuperGlue口腔特征匹配算法。首先,通过引入一个置信度评分机制,可以更准确地评估特征点对之间的匹配可能性,让算法聚焦于更可能正确的匹配点对;其次,提出动态置信度阈值调整策略,根据口腔图像对的特性和特征点分布自动调整阈值,以达到匹配数量与质量平衡的目的。经过一系列实验验证,改进后的算法在效率和准确性方面都取得了显著提升,尤其是在特征点多样性和图像质量不一的情况下,展现了更好的鲁棒性。设计算法的成功实现,为口腔视觉领域中的特征匹配问题提供了一种新的解决思路,具有重要的理论价值和实际应用前景。

关键词: 口腔图像; 特征匹配; SuperGlue; 置信度评分; 动态阈值调整; 深度学习

中图分类号: TN911⁃34; TP391.41" " " " " " " " "文献标识码: A" " " " " " " " " " 文章编号: 1004⁃373X(2024)23⁃0022⁃07

Research on oral feature matching algorithm based on SuperGlue

optimized by confidence strategy

GUO Yulu, LI Zhanli

(College of Computer Science and Technology, Xi’an University of Science and Technology, Xi’an 710054, China)

Abstract: As the deep learning technology continues to advance, the significance of feature matching algorithms in the field of computer vision is increasingly prominent. The traditional SuperGlue algorithm has exhibited excellent performance in accuracy of feature matching, yet there is still room for improvement in efficiency and accuracy when dealing with oral images with low illumination and complex texture. In view of the above, an oral feature matching algorithm based on SuperGlue optimized by confidence strategy is proposed. Initially, by incorporating a confidence scoring mechanism, the possibility of feature point pair matching can be assessed more accurately, allowing the algorithm to focus on the most likely correct matching point pairs. Subsequently, a dynamic confidence threshold adjustment strategy is introduced, which adjusts thresholds automatically according to the characteristics and distribution of feature points of oral image pairs, so as to balance the quantity and quality of the matching. After a series of experimental validations, the improved algorithm has shown significant advancements in both efficiency and accuracy, particularly demonstrating better robustness in situations that the images have diverse feature points and are of uneven quality. The successful implementation of the designed algorithm provides a new approach for feature matching in the field of oral vision, so it holds significant theoretical value and practical application prospects.

Keywords: oral image; feature matching; SuperGlue; confidence scoring; dynamic threshold adjustment; deep learning

0" 引" 言

在计算机视觉领域,特征匹配[1]算法是理解和解释图像的基本工具,对于诸如自动化识别、三维重建和机器人导航等任务至关重要[2]。特征匹配的难点在于如何在不同的视觉环境下保持其鲁棒性和精确性,特别是在诸如口腔内部这样的低光照、纹理结构复杂的场景中。在这些特殊环境下,传统特征匹配算法往往遇到性能瓶颈,尤其是在细节捕捉和错误匹配的减少上。针对这一挑战,本文提出了一种基于置信度的优化策略,旨在提升特征匹配算法在口腔医疗图像中的应用性能。

SuperGlue[3]算法作为现有的一种高性能特征匹配方法,已在多个领域证明了其效率和准确性。然而,当面对光照不足和纹理丰富的口腔环境时,其性能表现并不理想[4]。这主要是因为该算法未能充分考虑到口腔图像特有的视觉特性,如局部的光照变化和复杂的生物组织纹理。

本文首先分析了口腔图像的特点,包括光照条件的限制和内部结构的复杂性,这些因素都极大增加了特征匹配的难度。在此基础上,提出了一种基于置信度的优化策略,以改善在这些困难条件下的匹配结果。本文提出的算法通过动态调整特征匹配过程中的置信度阈值,从而适应各种复杂的口腔图像环境,以提升口腔特征匹配的效率。

通过在不同的口腔图像数据集上进行实验,本文提出的置信度优化策略在特征匹配的时间效率和鲁棒性上都显示出显著的改进。这一结果不仅证明了本文策略的有效性,同时也为特征匹配算法在类似的复杂医疗图像分析领域的应用提供了新的思路。

1" 相关工作

特征匹配作为计算机视觉领域的关键技术,近年来取得了显著的进步。在众多创新之中,SuperGlue算法以其强大的特征匹配能力受到了广泛关注。本节首先介绍SuperGlue算法的起源和基本构成,然后详细解析其核心组成部分——图神经网络和最优匹配层的原理,并讨论其存在的局限性。

1.1" SuperGlue算法概述

在深度学习的影响下,特征匹配领域出现了从经典算法向学习型算法转变的趋势。尽管如SIFT等经典算法在特定场景下表现出色,但它们往往无法适应复杂环境中的变化[5]。这促使研究人员开始探索能够捕捉更多上下文信息和拥有更高适应性的方法。

SuperGlue算法就是为了应对此类特征匹配在复杂场景下的挑战而设计的,特别是当图像之间存在视觉相似性不高的情况时[6]。在现有的特征匹配方法中,尽管单独的特征描述符可以提供有关关键点的丰富信息,但它们常常忽略了特征点之间和跨图像的关系,这在特征点密集或模式重复的场景下尤为关键。SuperGlue的出现正是为了弥补这一缺口[7],其核心创新在于融合了注意力机制和图神经网络并结合最优匹配层,从而能够有效地处理特征点的相关性[8]。通过这种方式,算法不仅能够利用局部信息,还能够理解和利用图像中全局和长距离的特征点关系,显著提高匹配的精确性。

1.2" 注意力图神经网络

SuperGlue算法的一大创新是其引入了注意力图神经网络(AGNN),这是一种特别为特征匹配问题设计的结构,能够有效捕捉图像中特征点的关系和交互作用[9]。AGNN由以下几个关键部分组成。

1.2.1" 关键点编码器

AGNN的第一步是使用关键点编码器将每个关键点及其视觉描述符映射到高维空间,这不仅增强了特征点的独立表示能力,而且为后续注意力层处理提供了基础[10]。

每个关键点都被编码成一个特征向量,其中包含了位置信息和视觉描述符。编码器通过多层感知机(MLP)实现,将位置和视觉信息结合到一起,为注意力机制的输入准备了合适的表示。

1.2.2" 自注意力和交叉注意力

接下来,AGNN利用自注意力(Self⁃attention)机制和交叉注意力(Cross⁃attention)机制来进一步处理关键点特征。自注意力层允许网络在同一幅图像内部特征点之间进行比较和关联,从而捕捉局部的特征关系[11]。交叉注意力层则使得网络能够对两幅图像间的特征点进行关联,这对于识别图像间相对应的特征点至关重要。

这些注意力机制通过权重系数来加强或减弱特定特征点之间的联系,权重系数由特征点之间的相似度动态决定[12]。通过这种方式,AGNN能够区分和突出重要的特征点对,从而提高匹配的准确性。

1.2.3" 动态图结构构建

AGNN通过构建动态图结构来实现上述功能,图中的每个节点代表一个关键点,每个边代表节点间的潜在匹配[13]。通过在多个注意力层中迭代这个过程,网络能够细化每个关键点的特征表示,并在图中形成复杂的特征关系模式。

在此过程中,特征点不仅基于其自身的视觉描述符被考虑,还根据与其他特征点的关系进行评估[14]。这种基于关系的评估是SuperGlue算法的核心优势,因为它允许网络捕捉更加全面的图像内容和结构信息。

1.2.4" 信息整合与增强

AGNN通过多层信息整合,逐渐增强关键点特征的表达力[15]。每一层都在前一层的基础上进一步加强特征点之间的正确关系,并压制无关或错误的连接。这种多层次的整合使AGNN能够适应不同层次的特征变化,并对特征点之间复杂的空间关系进行编码。

AGNN的这些特点使其在处理具有高度动态变化和复杂场景下的图像时特别有效。通过聚焦于特征点之间的关系,SuperGlue能够在一系列挑战性任务中实现精确的特征匹配。

1.3" 最优匹配层

SuperGlue的最优匹配层是其结构中的另一核心部分,负责生成高质量的特征点匹配对。此层的设计利用了匹配矩阵和优化算法来确定最终的特征匹配结果。

1.3.1" 最优匹配层原理

最优匹配层(如图1所示)接收由注意力图神经网络处理后的特征点描述符,并以此构建一个得分矩阵。每个矩阵元素代表了一对特征点之间的匹配得分,这个得分是基于它们视觉相似性和几何一致性的综合考虑。算法的目标是找到一个最大化全局匹配得分的特征点对集合,这相当于解决一个线性分配问题。

1.3.2" Sinkhorn算法

为了解决这个优化问题,SuperGlue采用了Sinkhorn算法,这是一个有效的迭代过程,能够平衡并规范匹配矩阵[16]。Sinkhorn算法将匹配矩阵转化为一个双随机矩阵,即每行每列的和都为1。这一步骤确保了最终的匹配方案既遵循特征点之间的单一匹配原则,又满足了双向一致性约束。通过这种规范化,算法能够在满足一定条件的情况下迅速收敛到最优解。

1.3.3" 匹配得分与分配

在Sinkhorn算法的帮助下,最优匹配层输出的是一个部分分配矩阵,表示了图像A中的每个特征点在图像B中的最佳匹配点。这个矩阵反映了可能匹配对的置信度,并作为下一步决策的依据[17]。这一过程考虑到了潜在的假阳性匹配和假阴性匹配,旨在通过提高真阳性率来提高匹配的整体质量。

1.4" 局限性分析

SuperGlue算法作为一种先进的特征匹配框架,虽然在多个视觉任务中表现出色,但其在特定应用场景,如低光照和纹理复杂的口腔图像中,仍显示出一些局限性。这些限制主要集中在时间效率和环境适应性两个方面[18]。

1.4.1" 时间效率的局限

SuperGlue的时间效率局限主要体现在其复杂的计算过程中。算法中的注意力机制和图神经网络需要处理大量的运算,特别是当输入的特征点数量较多时。每个特征点都需要与其他所有特征点计算关系和相似性,随后通过多次迭代来优化匹配结果。尽管这种方法可以提高匹配的准确度,但也大幅增加了计算负荷。

Sinkhorn算法虽然为匹配问题提供了一个有效的优化途径,但在实现全局最优的特征点匹配时,也需要进行多次迭代。每次迭代都涉及到大规模矩阵的规范化和分配操作,这在资源受限的环境中,尤其是需要快速响应的临床医疗应用中,可能会成为效率瓶颈。

1.4.2" 环境适应性分析

在低光照和纹理结构复杂的口腔场景中,SuperGlue面临着环境适应性的挑战。低光照条件可能导致图像中的特征点信息不足,使得算法难以准确识别和匹配。同时,口腔内部的复杂纹理结构可能引起特征点描述符的混淆,增加了匹配的难度。

2" 本文算法

虽然SuperGlue算法在口腔的特征匹配准确度上已经表现出了优异性能,但其效率仍有提升的空间。本文针对上述问题,同时鉴于SuperGlue的原理机制,提出了一种置信度策略的优化方案,来弥补SuperGlue在口腔特征匹配过程中时间效率方面的不足。首先,通过引入一个置信度评分机制,可以更准确地评估特征点对之间的匹配性,让算法聚焦于更正确的匹配点对;其次,研究提出了动态置信度阈值调整策略,根据图像对的特性和特征点分布自动调整阈值,以达到匹配数量与质量的平衡。

2.1" 置信度评估机制

在视觉特征匹配领域,SuperGlue算法由于其出色的性能和高效的匹配能力而受到广泛关注。其基础在于利用图神经网络(GNN)来理解和匹配两个图像中的关键点。然而,随着应用场景的多样化及数据量的增加,原始SuperGlue算法面临着效率和准确性的新挑战。为了应对这些挑战,本文提出了一种基于置信度策略优化的SuperGlue算法(如图2所示),旨在通过精细化的匹配策略和动态调整机制,进一步提升算法的性能。

本文改进的第一步是引入一个置信度评分机制,该机制通过评估特征描述符之间的相似度及其在图结构中的位置信息,为每个特征匹配对分配一个置信度得分。这一得分不仅反映了两个特征点在视觉内容上的匹配程度,还考虑了它们在各自图像中的上下文关系。

置信度评分机制旨在为每个特征点对分配一个量化的置信度得分,该得分反映了匹配对的可信度。如公式(1)所示,置信度得分[C(i, j)]可以通过结合特征描述符间的相似度[Sim(i, j)]和图结构信息[G(i,j)]来计算。

[C(i, j)=λ∙Sim(i, j)+(1-λ)∙G(i, j)] (1)

公式(2)表示余弦相似度的计算过程。

[Sim(i, j)=desci⋅descjdescidescj] (2)

特征描述符的相似度评估是置信度评分的基础。通过深度学习模型提取的特征描述符包含了图像关键点周围的丰富信息。对于两个特征点,通过计算它们描述符的相似度,可以初步评估它们的匹配概率。相似度的计算通常采用余弦相似度或欧氏距离等度量。

[G(i, j)]利用图神经网络从图结构中提取的上下文信息,[λ]是一个调节参数,用于平衡这两部分的贡献。

特征点在其所属图像的图结构中所处的位置及与其他点的关系也是判断其匹配置信度的重要依据。通过GNN的聚合机制,可以有效地利用图中的结构信息,为特征点的匹配增加一层上下文约束,从而提高置信度评分的准确性。

2.2" 动态置信度阈值调整

在确定了每个匹配对的置信度得分后,如何利用这些得分来指导最终的匹配选择成为关键问题。通过设定置信度阈值,仅当匹配对的置信度得分超过此阈值时,该匹配对才被认为是有效的。然而,固定的阈值可能不适用于所有情况,因此,本文提出了一种动态置信度阈值调整机制,根据当前处理的图像对和其特征点的分布情况,自适应地调整置信度阈值。

为了动态调整置信度阈值,考虑到不同图像对或场景可能需要不同的阈值以优化匹配效果。动态置信度阈值的调整可以基于图像对的特征分布密度或特征描述符的整体置信度平均值[MC]。动态阈值[T]可以表示为:

[T=T0+α∙f(D,MC)] (3)

式中:[T0]是基础阈值;[α]是调整幅度的系数;[f(D,MC)]是一个关于特征分布密度和置信度平均值的函数,用于动态调整阈值大小。

动态调整策略考虑了图像的特征密度、特征描述符的平均置信度以及图像对之间的相对几何约束等因素。例如,对于特征点较为稀疏或特征描述符整体置信度较高的图像对,可以适当降低阈值,以增加匹配的可能性;反之,则提高阈值,以避免过多的误匹配。

2.3" 匹配对的优化选择

在动态调整了置信度阈值后,接下来的任务是在所有潜在的匹配对中,根据置信度得分进行筛选和优化。这不仅包括剔除低置信度的匹配对,还包括在满足一致性和几何约束的前提下,优化整体匹配的质量。此过程涉及到复杂的决策逻辑,旨在保证匹配准确性的同时,最大化匹配对的数量。

在获得每个特征点对的置信度得分并根据动态调整的阈值过滤之后,剩下的任务是在所有可能的匹配中选择最佳匹配对。这可以通过求解一个优化问题来实现,该问题旨在最大化总置信度得分,同时满足一致性约束。设[X]为匹配矩阵,其中[Xij=1]表示特征点[i]与[j]匹配,否则,为0。优化问题可以按照式(4)来表示,式(5)给出了约束条件。

[maxXi,jCi,j∙Xij] (4)

[s.t." " iXij≤1, jXij≤1," Xij∈{0,1}] (5)

上述优化问题旨在匹配一致性约束下,最大化整体匹配对的置信度得分总和,从而选出最佳的匹配对集合。

3" 实验结果与分析

为了全面评估改进后的SuperGlue算法在实际应用中的表现,本文设计了一系列实验,旨在通过与当前主流的特征匹配方法进行比较,来展示其在牙齿模型和真实口腔环境下的效果。

3.1" 牙齿模型

针对牙齿模型环境,本文对比了基于置信度策略优化后的SuperGlue算法与其他几种特征匹配算法(NN、LoFTR和SuperGlue)的性能。

在运行时间方面(如图3所示),基于置信度策略优化的SuperGlue用时效率最高为5 min,而未改进的SuperGlue需要8 min,LoFTR需要9 min,搭配SuperPoint的NN算法需要7 min,但r2d2结合NN算法的策略则是20 min。本文改进的SuperGlue算法在保持较高点云数量的同时,大幅减少了误匹配点,如图4~图8所示。

从图8生成的点云数据来看,本文设计的方案不仅点云数量丰富,而且轮廓更为清晰。

3.2" 真实口腔

在真实口腔环境中,本文测试了不同特征匹配算法的表现,如图9~图13所示。在实验中,基于置信度策略优化的SuperGlue算法表现出了明显的优势。

未改进前的SuperGlue在特征匹配方面虽然已经足够优秀,但在处理复杂的口腔内表面(如反光的牙面和多变的牙龈色彩)时会出现相当数量的误匹配。

NN方法虽然速度较快,但在匹配的密度和准确性方面表现不佳。在口腔结构复杂的纹理和类似模式下,NN方法容易出错,例如牙龈和牙齿的不同阴影。

相比之下,本文改进后的SuperGlue算法在精确度方面表现良好,其匹配数量更多。此外,平均重投影误差虽略高于NN方法,但综合来看表现非常出色,表明为获得在匹配密度上的显著提升而进行的微小牺牲是值得的。

本文分别对基于本文方案、SuperGlue、LoFTR和NN算法的稀疏重建结果进行了对比和评价,如图14所示。从结果可以看出,基于本文设计的算法在真实口腔环境下重建出的结果拥有更清楚的轮廓和更多的点云数量。

4" 结" 论

本文深入探讨了特征匹配算法在口腔医学领域应用的优化策略。经过一系列的改进和实验验证,本文提出的置信度策略优化SuperGlue算法显示了其在口腔特征准确匹配与运算效率上的双重优势。本文内容的重点在于展现基于置信度策略优化后的SuperGlue算法,如何有效地提升算法的鲁棒性和匹配性能。

本文通过对SuperGlue特征匹配算法的深刻剖析与理解,结合先进的置信度阈值策略,实现了在复杂口腔环境中更加可靠的特征识别和匹配。此外,对算法进行效率优化,使其在不牺牲精度的前提下,大幅提升了处理速度,从而适应口腔三维重建操作的实时性需求。

实验结果验证了优化后的算法在真实口腔数据集上的应用效果,通过与其他算法的对比,明显展示了本文算法在特征匹配精度、运算效率以及鲁棒性方面的优势。

综上所述,本文不仅提供了一个更为精确和高效的口腔特征匹配方案,也为将来在口腔医疗领域中的其他依赖特征提取实验的进一步研究和开发,奠定了坚实的理论基础和实践经验。

参考文献

[1] 刘亦博,吴传文,周宗锟,等.融合SuperGlue方法的深度单目视觉惯性导航算法[J].测绘通报,2024(2):113⁃117.

[2] SARLIN P E, DETONE D, MALISIEWICZ T. SuperGlue: Lear⁃ning feature matching with graph neural networks [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 4937⁃4946.

[3] 刘爽,徐长波,于青峰.基于OFAST和BRISK特征耦合三重过滤策略的图像匹配算法[J].工业控制计算机,2024,37(2):99⁃100.

[4] LIU Y Q, XIA C, ZHU X B. Two⁃stage copy⁃move forgery detection with self deep matching and proposal SuperGlue [J]. IEEE transactions on image processing, 2020, 31: 541⁃555.

[5] 唐强.基于关键区域特征匹配的生产现场隐患识别方法[J].现代电子技术,2024,47(4):143⁃147.

[6] HONG Q S, ZHAO T X, ZHANG Y. A superglue image registration algorithm based on adaptive dynamic attention mechanism [EB/OL]. [2023⁃06⁃08]. https://doi.org/10.1117/12.2681017.

[7] 马正见,文志诚,尹欢一.基于局部相似性的特征匹配筛选算法[J].现代电子技术,2021,44(1):58⁃63.

[8] 罗潇姝.融合无人机载雷达与RGB影像的建筑物特征研究[J].信息记录材料,2023,24(11):246⁃248.

[9] 刘全海,谈嵘.手持SLAM在室内不动产测绘中的研究与应用[J].城市勘测,2024(1):133⁃138.

[10] 闫兴达,冯云剑.基于颜色和纹理特征匹配的集装箱视觉识别与定位方法[J].工业控制计算机,2024,37(1):100⁃102.

[11] WANG C, DENG C Y. On the global self⁃attention mechanism for graph convolutional networks [C]// 25th International Conference on Pattern Recognition. New York: IEEE, 2020: 8531⁃8538.

[12] WANG A, PRUKSACHATKUN Y, NANGIA N. SuperGLUE: A stickier benchmark for general⁃purpose language understanding systems [EB/OL]. [2020⁃02⁃13]. https://arxiv.org/abs/1905.00537.

[13] 王一波,梁伟鄯.基于特征匹配的低照度图像增强评价方法研究[J].物联网技术,2023,13(11):103⁃105.

[14] 田丹,陈钰坤.基于改进ORB算法的遥感图像匹配[J].沈阳大学学报(自然科学版),2024,36(1):34⁃39.

[15] LEE J B, ROSSI R A, KONG X N. Graph convolutional networks with motif⁃based attention [C]// Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM, 2019: 499⁃508.

[16] 胡茂伟.基于纹理增强的ORB特征点提取与匹配算法[J].长春理工大学学报(自然科学版),2023,46(6):121⁃127.

[17] SUN J M, SHEN Z H, WANG Y A. LoFTR: Detector⁃free local feature matching with transformers [C]// IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 8922⁃8931.

[18] EDSTEDT J, SUN Q Y, BÖKMAN G. RoMa: Robust dense feature matching [EB/OL]. [2023⁃12⁃11]. https://arxiv.org/abs/2305.15404.

作者简介:郭瑀璐(1996—),男,内蒙古人,硕士研究生,研究方向为计算机视觉、三维重建。

李占利(1964—),男,陕西西安人,教授,博士生导师,CCF高级会员,研究方向为图形图像处理。

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
现代情报(2016年10期)2016-12-15 11:50:53
利用网络技术促进学生深度学习的几大策略
考试周刊(2016年94期)2016-12-12 12:15:04
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49