基本的开放性词汇目标检测综述

2024-04-06 10:04吴坚
电脑知识与技术 2024年3期
关键词:目标检测开放性词汇

吴坚

关键词:目标检测;开放性;词汇

中图分类号:TP37 文献标识码:A

文章编号:1009-3044(2024)03-0025-03

1 概述

目标检测是图像处理的一个重要分支。开放性词汇检测可以检测任意类别的目标,并以文本的形式體现。本文介绍基本的开放性词汇目标检测。通过基本的规范设置,训练带有固定分类的目标检测数据集来进行基准检测。进行基准检测的主要方法是从图像学习开放的词汇知识,并通过知识精馏或迁移学习将知识传递给检测器[1-7]。

2 具有变换的点到点目标检测

Carion 首先提出了具有变换的点到点目标检测。DETR是由骨架组成的点到点的检测模型,并紧接着编码-解码变换器 [1-2]。

DETR编码操作是根据二维平面图形的骨架特征应用一系列的变换层。解码是利用N个学习嵌入集合即目标查询作为输入,它可以被视为插槽,是需要用检测的目标来填充的模型。所有这些目标查询和解码器平行,使用交叉关注层来查看编码的图像并预测每个查询的输出嵌入。每个目标查询最终的表示独立于使用方框坐标的解码和使用共享前馈层的类标签[1-2]。

DETR使用匈牙利匹配损失进行训练,该损失对N个建议目标和真实目标之间计算一式两份的匹配。每个匹配目标受到相应的目标例如真实图像的监督,同时不匹配的目标也受到监督并预测为没有目标的标签。分类的标题受到标准交叉熵的监督,同时图形边框的标题受到绝对误差(L1损失)和概括的IoU的综合监督。[1-2]其中,Intersection over Union(IoU) 是联合基础上的交集,它是用于比较两个随意形状的相似度,定义如下:对于两个任意的凸形状A 和B,其中A,B ? S ∈ Rn。找到最小的且封闭的凸目标C,其中C ? S ∈ Rn。定义IoU和GIoU如下:[3]

算法将GIoU 作为方框回归边界的损失。二维目标检测的任务是根据校准的图形边框来与轴比较,选用GIoU 是直接的解决方案。由于反向传播中最小、最大函数是可用的,每个组成部分都是可以推导出。这样IoU 和GIoU 可以直接作为损失,用于基于目标检测的深度神经网络的优化[3]。

3 运用于点到点的多模态理解的调制检测

3.1 调制检测的结构

Kamath 首先提出了MDETR,是基于DETR 的点到点的调制检测框架。通过与自然语言理解的结合完成目标检测。目标检测是形成多模态理解系统的有机组成部分,使用黑盒来检测图像中的固有概念词汇,紧接着对词汇进行多模态的校准[2]。

MDETR和DETR类似,图像运用卷积骨架进行编码并平滑。为保留空间信息,将二维位置嵌入并添加到这类平滑向量中。该算法对文本使用预训练的变换语言模型进行编码,以产生和输入同等尺寸的一系列隐藏向量。然后使用模态依赖的线性投影,将图像和文本投影到共享的嵌入空间。这些特征向量在序列维度上连接,产生单一的图像和文本特征序列。该序列联合变换编码作为交叉编码项。和DETR相似,在目标查询中使用了变换解码,同时交叉地参加交叉编码的最终隐藏状态,解码输出被用于预测实际的方框[2]。

3.2 调制检测的训练

算法添加两个用于MDETR的两个损失函数:软标记预测损失(Soft Token Prediction Loss) 和文本查询对比校准(Text-Query Contrastive Alignment) ,这两个损失函数可以促进图像与文本之间的校准[2]。

软标记预测损失:算法的目标是预测参考每个匹配目标的初始文本的标记范围。首先,设置标记的最大数量。对于每个与真实方框相匹配的预测方框使用一式两份的匹配,模型被训练来预测一个相应于目标标记位置的均匀分布。任何与目标不匹配的查询被预测为没有目标的标签。注意到在文本中的若干单词可能相应于图像中相同的目标,相反,若干目标也可能相应于同样的文本。通过以这种方式设计损失函数,训练模型能够从同样的参考表示中学习到同一所指的目标[2]。

7 结束语

本文介绍了近年来迅速发展起来的基本的开放性词汇目标检测的几种算法,通过这些算法,通过目前的词汇目标检测的关键技术的解决,使越来越多的开放性词汇目标检测技术向着更高的方向迈进。

【通联编辑:唐一东】

猜你喜欢
目标检测开放性词汇
例析三类开放性问题的解法
本刊可直接用缩写的常用词汇
一些常用词汇可直接用缩写
初中英语开放性探究式阅读教学策略
本刊可直接用缩写的常用词汇
视频中目标检测算法研究
行为识别中的人体运动目标检测方法
移动机器人图像目标识别
基于P3电位的目标检测研究
寻求开放性道路