徐存亮+王孝通
摘 要:图像数据是舰船VDR(Voyage Data Recorder)记录的关键数据之一,其高效检索为舰船情景复现奠定了基础。文章首先分析了图像数据检索的发展,以视觉词袋模型为研究对象,以空间相似度为依据,按照尺度不变的原则对图像进行矢量处理,并根据倒排索引的方法进行检索。最后,通过仿真从准确率和效率两个方面验证该方法的有效性。
关键词:空间相似度;VDR;图像检索;研究
中图分类号:U665.26 文献标志码:A 文章编号:2095-2945(2017)24-0008-03
VDR(Voyage Data Recorder),即船舶航行数据记录系统,也称船用黑匣子[1]。它以一种安全、可恢复的方式,实时记录并保存每隔一定时间和每发生某件事件的相关信息,包括时间、位置、航向、航速、通信、雷达图像等,重点提供包括船舶静、动态信息和船舶操作等信息。如果出现海上事故,可借助VDR记录的上述数据,再现事故相关场景,从而有利于了解船舶当时相关状态及指挥流程,便于科学地分析事故发生的原因,客观公正地判明责任。
当前对VDR的判读工作主要是依靠人工来完成,由于VDR系统配置了大容量的存储介质,依靠人工对这些海量数据进行判读效率低下且难于全面准确。因此,有必要通过技术手段对VDR数据进行准确的判读。总体看来,VDR系统存储体记录的数据主要有四大类,即:舰船设备状态数据、音频数据、视频数据、日志数据。而对于视频数据(包括部分静态图像)来说,由于其复杂性,难以迅速对其进行全面高效的检索与关联分析,因此,如何更加合理、高效地检索VDR的相关图像数据,将直接影响最终的船舶事故分析结果及效率。
1 图像检索的发展
图像检索技术始于上世纪70年代。早期的方法本质上属于基于文本的图像检索(Text-Based Image Retrieval, TBIR)[2],借助相对成熟的文本检索技术,首先从图像尺寸、名称、作者等方面描述图像的相关信息,然后采用关键词进行精确查询。由于该方法的前提是人工对图像的注释,而人工注释时的主观性、经验性和非全面性将给图像检索带来不确定性,此外,由于图像数据的数量越来越大,单纯依靠人工进行注释已无法胜任。上世纪90年代后,基于内容的图像检索技术(Content-Based Image Retrieval, CBIR)[3]逐步得到大力发展。该技术专注于图像内容本身,无需人工注释,而直接从图像中提取诸如颜色、形状、纹理等视觉特征,通过这些客观的参数,进行匹配以检索图像。该检索方式将传统的“以字找图”转化为“以图找图”,将关键词的匹配转变为视觉特征间的匹配。
基于内容的检索方法专注于图像本身,对图像提取视觉特征并建立相应的索引结构,这些都由计算机自动完成,从而克服了人工注释带来的不确定性,增加了检索结果的可信度,但由于成像的差异使得具有相同内容的图像可能有不同的表现形式,因此,基于内容的检索方法与文本检索时的精确匹配不同,基于内容的检索往往属于近似匹配,即满足一定相似度的概要匹配,而无法实现精确匹配。目前,以图像为代表的数据检索是信号处理领域的热点之一,已有很多付诸实用的成果,但大都具备一定的针对性。同样由于VDR设备中存储的图像数据较为敏感,甚至具有一定的保密性,因此有必要结合VDR设备数据的特点与属性,针对VDR图像数据的相关特征,对其检索问题进行针对性研究,为实现VDR图像数据的准确、快速检索提供合理有效的解决方案,为VDR数据判读奠定技术基础。
2 基于空间相似度的基本思路
当前,基于内容的图像检索方法大多沿用视觉词袋模型的框架,即将图像进行矢量化表示,然后利用图像矢量进行相似性度量。该模型虽简单有效,但未能考虑局部特征的空间关系,从而在一定意义上影响了检索的准确率。为此,在视觉词袋模型给出图像检索结果后,可结合空间相似度对待检结果进行二次验证,从而增强检索的准确率。对于VDR记录的图像数据而言,虽然数据量较为庞大,但是由于设置记录图像数据的部位有限且相对固定,该类数据在很大程度上有一定的空间关联度,因此,在沿用视觉词袋模型这个方向研究VDR图像数据检索时适合考虑该属性。
目前,包括几何验证法[4]、金字塔匹配法[5]等均在考虑空间对应关系的基础上对图像检索进行分析,利用空间关系度量待检索图像和数据库图像的相似度,对图像检索准确率有一定提高,但上述方法也存在一定问题。比如几何验证法计算量较大,不适合对全体检索结果进行二次检索;金字塔匹配法通过划分网格捕捉图像中的空间信息,但该信息不能进行几何变换。总体看,现有图像检索方法大多在检测局部特征后才形成局部特征的空间关系。从而导致大多数检索方法形成的空间关系难以完全保证尺度不变性。为此,文章考虑基于尺度不变的思路来构建新的空间相似度图像检索方法,并验证其有效性。
视觉词组的概念是在视觉单词基础上,根据各单词在图像中的不同属性,定义不同方法来提取和形成视觉词组,比如視觉单词出现的频率、出现的网格空间等特征。但上述方法大都聚焦与图像特征本身,而未考虑空间关系的尺度变化问题,使得图像间的相似度检测因成像的变化而受影响并降低检索准确率。本文的基本思路框图如图1所示。首先对数据库图像进行预处理,主要工作是结合尺度不变性和空间相似度特征,构建图像对应的视觉词组,然后按照倒排检索的方法进行相关排序。图像检索处理时,对于待检的图像作同等处理,然后依照倒排索引的方法,进行相似度比较,并最终得到检索结果。本文的核心是要针对图像合理构建尺度不变的视觉词组,使得空间关系能够容纳一定程度的几何变换,从而为后续的有效检索提供更多的支撑。基于该目的,本文在图像检测过程中构建了相应特征间的局部空间关系。检索图像时,结合这种空间关系和视觉词组,找出相似度最大的图像作为检索的结果。实际操作中,将图像特征分为主特征和次特征两部分,将这两部分经过视觉词组统一量化处理后,作为图像的空间关系。endprint
传统的视觉詞袋模型仅将图像表示为图像矢量,并通过该矢量的简单计算来比较图像的相似度,并未考虑图像局部特征的空间关系。此外,本算法在考虑空间关系的基础上,兼顾了空间尺度不变性,从而对图像的空间变化提供了兼容,使得图像检索能在理论上保持更高的准确率及效率。实际处理过程中,如果在检索时将待检图像与数据库中的每幅图像逐一进行计算和比较,计算成本将极大,为此我们借助预处理对数据库进行先期处理,并结合倒排索引的方法组织数据库图像,检索时,只需计算和比较图像间对应特征及空间相似度的情况,从而判断图像的相似度并给出检索结果。
3 实验结果与分析
本实验主要针对传统的视觉词袋模型进行比较,实验借助Matlab平台,采用ImageNet数据库作为数据源[6]。检索性能主要包括检索准确率和检索效率两个关键参数。对于准确率,采用均值平均准确率进行评估;对于检索效率,主要采用检索所耗费的时间来表征。在对数据库的图像进行预处理的过程中,首先采用快速Hessian检测法检测图像的主要特征,该算法具有较好的计算效率;图像特征中的主特征及次特征分别用64维向量表示。算法中采用k-means算法对数据库中的特征进行聚类,并根据聚类结果创建词典,最后通过词典中的视觉单词量化数据库中的图像,并生成尺度不变视距词组。
通过实验可以发现,由于传统的视觉词袋模型仅关注了图像的矢量化,而没有考虑图像的空间信息,因此,同样采用倒排索引的方法时,传统的视觉词袋模型检索准确率显然低于本文的方法。如图1所示,在采用不同数量的数据库图像检索过程中,本文的方法均优于传统的视觉词袋模型,尤其在数据库图像数量增大时,两者之间的差异更加明显。
对于检索效率来说,主要衡量标准是针对同等容量的数据库图像,两种不同方法所花费的时间。如图3所示,从实验数据来看,基于尺度不变的方法优于传统的视觉词袋模型。显然,随着数据库图像数量的增加,两种方法检索花费的时间均相应增长,尽管如此,实验结果表明,采用本文方法检索时的效率要高于传统方法,且随着图像数据库的增大,本文方法检索时间的增长比传统方法趋缓。
综上,不难看出,在结合了尺度不变性及空间相似度的前提下,对于图像的检索而言,无论从检索的正确性还是检索的基本效率,本文的方法较传统视觉词袋模型均有了明显的提高。本方法在对图像数据矢量化的基础上,基于尺度不变的原则确定图像之间的空间对应关系,并将该关系用于判断检索图像与数据库图像的空间相似性,同时采用了倒排检索的基本方法进行图像检索,实验结果表明了该方法的有效性。
4 结束语
图像数据由于携带信息更加直观丰富,已逐渐成为获取和交换信息的重要载体。一方面,图像数据的大量增长给信息的传递带来了便利;与此同时,如何快速准确地从大量图像中获取感兴趣的部分却变得相对困难。也就是说,如何高效地检索出满足需求的图像,成为图像检索领域亟待研究的问题。
VDR作为现代舰船的关键设备之一,实时记录了舰船运行的多类关键数据,其中图像数据占比较大,类型也比较丰富,因此,对于VDR图像数据的梳理及检索对于判断VDR数据来说至关重要。但总体来说,对于VDR记录的图像数据而言,由于图像采集的各部位相对明确,因此,可以借助图像数据间的空间相似度来为图像数据的检索提供帮助,本文在基于内容检索的框架下,借助视觉词组的基本思路,利用尺度不变性对图像进行预处理,并结合倒排检索的方法对待检图像进行检索,从仿真结果看,该算法无论从检索的准确率和效率来说,都比传统的视觉词袋模型更加有效,可以作为一个可行方法对VDR图像数据进行检索。
参考文献:
[1]徐存亮,等.VDR数据判读关键技术综述[A].第十二届军事海洋战略与发展论坛论文集[C].2015:960-963.
[2]Rui Y., Huang T.S., Chang S.F., Image retrieval: current techniques, promising directions, and open issues, Journal of Visual Communication and Image Representation, 1999,10:39-62.
[3]陈秀新,邢素霞.图像/视频检索与图像融合[M].机械工业出版社, 2012.
[4]Philbin J., Chum O., Isard M., et al., Object retrieval with large vocabulary and fast spatial matching, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Minnesota, USA, 2007:1-8.
[5]Lazebnik S., Schmid C., Ponce J., Beyond bag of features: spatial pyramid matching for recognizing natural scence categories, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, New York, USA, 2006:2169-2178.
[6]Deng J., Dong W., Socher R., et al., ImageNet: A large-scale hierarchical image database, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Florida,USA,2009:248-255.endprint