基于自然语言的目标检测算法综述

2021-03-27 13:06
中文信息 2021年1期
关键词:检索模态特征

(重庆交通大学 信息科学与工程学院,重庆 400074)

目标检测是计算机视觉领域的重要研究内容,近年来得益于GPU的并行计算能力以及深度神经网络强大的特征表达能力,深度学习在图像处理领域取得了很大的进步。但在目标检测中除了使用图像信息以外,学术界早已提出使用多模态的信息来提升某一个任务的性能,其中自然语言就是一种重要的多媒体信息。与其他类型的信息相比,自然语言可以提供一种灵活而紧凑的方式来描述区分不同的视觉特征。

自然语言与图像的匹配方法主要分为两种类型,一种是匹配式:提取图像特征与自然语言特征,将二者的特征进行匹配,返回相似度最高的图片区域。另一种是生成式:为每个图像的候选区域生成自然语言描述,与目标自然语言对比,返回相似度最高的区域。

本文将从匹配式和生成式两个方面介绍基于自然语言的目标检测算法,并对该领域的发展趋势进行展望。

一、匹配式算法

2017年,Shuang Li等人首次提出使用自然语言进行行人重识别,并且首次建立了一个包括不同来源图片样本和详细自然语言注释的大型行人资料数据集CUHK-PEDES,其中提出了一种基于门控神经注意机制的递归神经网络GNA-RNN,该网络中包含一个视觉子网络和一个语言子网络,视觉子网络用于提取图像特征,语言子网络用于提取语言特征并为不同的词语赋予权重,根据查询对象的文本描述,利用搜索算法对数据库中的所有样本进行排序,从而检索出与描述最相关的样本[1]。

Tianlang Chen等人针对Shuang Li的算法中对图像空间中的关键属性感知能力不强的问题,设计了一个动态阈值机制来计算单词与局部图像块的关联度。对于每个单词都设置一个阈值来判定是否和图像匹配,并对关联度进行一个动态压缩以缓解匹配时的敏感问题。Ying Zhang在隐空间特征学习的跨模态检索方法基础上提出了两个损失函数,分别为Cross-Modal Projection Matching(CMPM)和Cross-Modal Projection Classification(CMPC),用以提升跨模态特征的匹配性能。Dapeng Chen等人针对行人重识别的问题,提出在训练阶段利用自然语言来辅助进行图像特征的学习,使用注意力函数构建自然语言和图像特定区域的关联,形成加权聚合特征向量,最终测试时利用学习到的图像特征进行检索。Kuang-Huei Lee分别对文本和图像应用注意力机制,学习比较好的文本和图像表示,然后再在共享的子空间中利用三重损失度量文本和图像之间的相似性。周炫余[2]首先利用图像分析的方法初步获取图像目标的候选框,其次通过文本分析的方法获取文本中有关图像目标的实体表达,并提出一种基于马尔科夫随机场的模型用于推断图像候选框与文本实体表达之间的共指关系,以此联合图像和文本信息以辅助机器视觉提高交通场景下行人检测精度。

匹配式方法计算量小、速度快,但是训练过程中图像特征不能被优化,模型准确率不高。

二、生成式算法

Bokun Wang等人基于在不同模态之间进行对抗学习可以获得一个有效的共享子空间,提出了一种对抗性的跨模态检索方法。Yan Huang等人发现使用券积神经网络提取特征向量时,背景的一些细节将会被忽略,像素级别的图片描述缺少高层次的语义信息。针对该问题Yan Huang提出了语义增强图片及语句匹配模型,该模型中设计了一个门融合单元将全局特征和局部特征组合在一起,通过对图片进行语义学习并组织为正确的语义顺序来实现语句生成。

Jiuxiang Gu第一次同时利用生成对抗网络(Generative Adversarial Networks,GAN)和强化学习做跨媒体检索,提出了可以同时做三件跨媒体任务的生成式跨模态特征学习框架(Generative Cross-modal Feature Learning Framework,GXN)。主要包含三个步骤:Look、Imageine、Match。Look:给出一个查询文本或图像,提取出对应的抽象表示。Image:将第一步中得到的一种模态的特征表示生成为另一种模态表示,并将其和真实数据进行比较来生成一个更加精细的底层表示。Match:使用组合了高层抽象表示和局部底层表示的特征表示来进行图像和文本对的关联匹配。莫建文[3]在堆叠式文本到图像生成模型的基础上,针对其生成样本分布不均匀导致多样性不足的问题,提出了一种结合局部-全局互信息最大化的堆叠式文本到图像的生成对抗网络模型。

生成式方法可以在训练的过程中端到端的训练图像区域特征,但是对每个图像区域特征都需要生成自然语言,计算量大。当图像中候选区域较多时,生成式方法计算速度慢,消耗资源多。

三、数据集

大量免费公开的数据集用于图像及文本的研究,这些数据集中的图像与文本描述相关联,不同的数据集中图像张数,自然语言描述的条数、句子长短、句子格式等也不相同。常用的数据集包括CUHK-PEDES数据集、Flickr8K数据集、Flickr30k数据集、MSCOCO数据集、Cops-Ref数据集等。

结语

目前基于自然语言的目标检测算法发展相对缓慢,主要原因在于建模理解图像和自然语言之间的联系比较难。图像中有颜色、位置、纹理等多种属性,自然语言可能描述其一种或多种属性。针对这些挑战,未来可以考虑结合更复杂的多任务或注意力机制,充分融合图像特征和语言特征向量。

猜你喜欢
检索模态特征
如何表达“特征”
2019年第4-6期便捷检索目录
不忠诚的四个特征
抓住特征巧观察
专利检索中“语义”的表现
国内多模态教学研究回顾与展望
基于HHT和Prony算法的电力系统低频振荡模态识别
由单个模态构造对称简支梁的抗弯刚度
线性代数的应用特征
国际标准检索