基于大数据的图像检索关键技术

2018-02-25 06:21杨颖李冬睿
电子技术与软件工程 2018年9期
关键词:大数据

杨颖 李冬睿

摘要 随着当前社会信息时代的发展,图像检索的相关技术也得到了逐步的完善。传统的图像检索方法在操作过程中不仅需要耗费大量的实践也无法充分适应用户的需求,因此,而通过大数据挖掘的方式来对图像数据实时分布式存储并进行后续的处理,不仅会进一步缩短图像检索的时间,也会进一步挖掘图像与语义上的关联,促进检索效率的提升。因此,本文将会对大数据挖掘做简要的阐述,并分析海量图像检索的处理技术,期望为大数据的应用提供新的方向与思路。

【关键词】大数据 图像检索 关键技术研究

自进入互联网时代以来,越来越多的信息数据来源被扩充,对存储系统的性能也提出了更多的要求。而如何规范这类数据并挖掘数据的可用性,采取更方便的工具来提取信息,扩大信息的存储空间,是信息资源发展与应用需要充分关注的内容。尤其是在信息资源与媒体种类逐渐更新的今天,每天近十几亿的图像信息的缠身,行业内对于数据库的研究也更加复杂,快速的存取与检索已经成为时代发展下的迫切需求。图像通过文件的方式在操作上已经十分便捷,因此,图像检索效率的提升成为关键。

传统意义上的圖像检索是通过文本的方式来进行,这需要对图像文件的情况做信息描述,才能在检索上提取到相应信息。但不可否认,这种描述的字符或者数值存在较大的主观性,无法全面满足图像内容的多样性,并且在海量信息充斥的背景下,传统的方式也会暴露出更多的问题。比如,在基于文本的图像检索技术上,无法管理具备时空关系的多媒体信息,且没有对图像特定特征提取的公爵,并且缺乏多样化的客观性查询方式。

而基于文本的检索,是通过语义上下的联系来进行查询,利用语义特征来检查具有类似特性的图像,这项技术会与图像本身结合起来,无论是在理论研究上还是现实的应用上,都是各行各业的热点关注对象,也是当前数字图书馆发展中的一项重大技术。

1 图像的内容性

图像的内容设置可以认为是一项精简的层次模型,如图1所示,对于图像特征的表示主要包含三种方式,数值、语义、关系等表示。一般情况下,图像检索的方式会以第二层与第三层来表示,包括对颜色、纹理、形状等内容特征。首先,对于颜色特征来说,它是一种全局性的特征,也是可以描述图像最为简单并有效的形式。它是图像视觉特性的最佳体现,因此,在图像检索中,这种特征也会最快被采纳,但是这种特性由于对图像区域的大小、旋转等缺乏敏感度,因此存在较强的鲁棒性。关于图像特征的索引,可以包含颜色集、颜色聚合向量、颜色直方图、颜色相关图等。利用平均查全率与平均查准率两项,可以有效比较各自的性能,并且很少会受到数据库尺寸的影响;其次,形状特征是一个该物体被描述的一项重要特征,通常在2D的图像中其形状是一条封闭性的曲线以及被其所包围的部分,因此,对于形状的描述,主要涉及到区域特性与轮廓边界特性;此外,纹理特征属于统计型的特征,它可以有效描述图像在空间上分布的图像像素灰度级,这不同于图像基于像素点的特性,它需要对区域内的像素灰度级进行统计计算,从一定程度上来说,纹理是对图像局部强度变化的重复性模式。这种特征常见的会通过统计法、频谱法等来完成;而空间关系主要是指分割出的对象所处的空间位置与方向,通常这种位置信息设计到绝对空间与相对空间两个,这其中利用绝对空间可以有效描述相对方位。综合上述几项特征的描述,对于图像的颜色特征是一项较为有效的选择。

2 大数据挖掘概述

计算机网络技术快速发展的背景下,海量图像信息检索需求在逐步攀升,目前的图像包含了多样化、大容量、处理速度快且价值密度低等特征,这也是当前传统检索技术中所无法满足的部分。根据当前学者在图像检索中的研究,大数据的应用价值是其重要的环节。大数据的核心应用便是大数据挖掘技术,也是其价值体现的重要内容。通过高效的技术方法对数据信息进行分析,挖掘其潜在的过滤,消除杂质信息的干扰,提炼出利于用户决策的关键信息。

针对当前大数据的应用概况,云计算是其中一项较为主流的挖掘方式。2006年Google公司首次提出这项概念,其提供的资源聚合的技术可以有效支持大数据挖掘的需求,利用web定制化的方式可以帮助用户迅速选择可用的存储方式以及应用服务,不仅降低其频繁访问的实践,也为其数据检索服务提供了强有力的支持。

3 海量图像信息检索

传统单机处理的检索方法并行处理能力较弱,并且存在较低的时效,而采用分布式架构的大数据技术可以帮助其实现快速的检索。Hadoop可以帮助快速获取多台计算机之间并行处理的能力,也能完成对大量图像信息进行相似度运算,并被存储到分布式数据库中,通过若干台的计算机作为从属节点来实现分布式管理,促进其检索效率与准确率的提升。而在大数据挖掘技术的应用中,数据存储、处理以及视觉模式挖掘则是成为其重要的组成部分。

3.1 分布式文件系统

作为Hadoop集群架构,HDPS利用分布式的存储与数据访问模式可以帮助更快的处理数据。如图2所示,其主要包含主体系架构与从体系架构两项,前者设置主节点,并对其他部分处于从属节点的机器分配任务,并进行系统协调、数据复制等和内容。在整个数据处理系统中,根据其节点位置的差异可将数据细分成元数据与数据两项,这其中元数据处于主节点中,通过客户端对这几项数据进行存取,在基于数据分块粒化的方式实施对子快的分布式存储,这也是数据处理中最为基础的单元,帮助信息处理更快的实现。根据当前大数据应用的现状来看,HDFS具有两项优势,一是可以通过“单输入多响应”的方式实现对流数据的访问,提高信息的存取效率,二是数据的处理不会受到单机硬件环境的影响,不需要投入高性能的计算机设备,不仅可以有效降低其集群的成本,对于挖掘数据技术也有着较大的应用价值。

3.2 并行数据处理

MapReduce是一项并行计算模型,包含映射与约简两项,对于海量图像的相似度计算有着较大的帮助,通过图像匹配可以有效适应用户的需求。在并行数据处理中,键值对是图像数据类型的体现,在映射之前表示为图像的属性与位置,在映射之后表示为其特征的相似度与图像的编号。映射操作可以对具有相似度的图像进行合并并处理,这项并行处理的流程定义通过基于MapReduce以HDFS分布式图像输入,再通过检索结果来进行输出。

3.3 视觉模式检索

在图像的检索中,其较为关键的是如何区分图像之间的相似度,虽然对于人类自身而言,并不是一项复杂的事情,但是如果要通过计算机来实现,那么则需要其能够具有类似于人类的提取语义概念的能力,这也是大数据挖掘中的一项难点与关键点。传统的检索方式,是基于颜色、纹理等上述描绘的图像特征来进行展现,并且也易于实现,但是不可否认的是,这种模式依然无法有效满足图像检索的需求。在大量的图像数据中,他们有各自相对的图像视觉模式单元,这些也会在数据库中重复的出现并反映图像的数据结构,这也是本文所探讨的视觉模式的概念。这种模式可以有效缩小图像的高层语义与底层特征的距离,并通过图像检索来作为其判别条件,提升图像的检索效率。

4 结束语

综上所述,在如今大数据时代背景下,图像检索的技术要想更好的替身其检索效率与时效,应当在大数据挖掘方向上做进一步的投入与分析。传统的基于文本模式的检索方式已经无法满足当前海量信息的需求,随着人们信息获取途径的拓展,实际的数据使用必然更加追求精准性与效率性。上文在探讨当前图像特性中,了解到图像的颜色、纹理、形状等特性,通过对各项信息特性的融合,可以帮助更快的找到用户需要的图像。因此,本文在结合当前大数据挖掘的基础上,通过阐述分布式文件存储、并行数据处理以及视觉模式的应用,深入了解其与传统图像处理方式相比的优势,这些也真是未来图像检索的关键技术。行业相关的研究者应当对此引起重视,深入挖掘具有代表性的视觉特性,帮助提升图像检索系统的处理技术,实现更大规模更加复杂的图像检索,为信息使用率的增加提供支持。

参考文献

[1]郭飞,詹炳宏,刘刚,基于Hadoop的服饰图像存储与检索关键技术研究[J].计算机应用研究,2014,31(04):1086-1089+1126.

[2]徐华珺,韩立新,图像检索系统关键技术的研究与应用[J],电子测量技术,2014,37 (05):33-37.

[3]胡二雷,冯瑞,基于深度学习的图像检索系统[J].计算机系统应用,2017,26 (03):8 -19.

猜你喜欢
大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路