基于云计算的多媒体检索系统设计

2012-05-11 00:45曹健朱信忠赵建民徐慧英
微型电脑应用 2012年5期
关键词:检索系统检索语义

曹健,朱信忠,赵建民,徐慧英

0 前言

近年来,数字图书馆和互联网等信息资源库飞速发展,从中查找自己感兴趣的多媒体信息已成为人们生活中不可缺少的部分[1]。但现有多媒体检索系统大多采用B/S单节点架构,实现检索时间无法让人满意,特别在多用户并发操作以及面对多媒体数据量的快速增长时,系统的实时性急剧降低,已不能满足人们当前对于高清视频和图像等多媒体信息检索的需求。而且现有的多媒体检索系统基本采用基于内容的多媒体检索技术,它是通过媒体底层特征进行相似匹配进行检索,以目前的计算机技术,人们还无法找到完全合理确当的描述底层特征的方法和手段,所以基于内容的多媒体检索的准确性还不够理想。因此如何及时高效地从浩若烟海互联网多媒体资源库中检索自己所需的数据也是现今研究的热点。

1 基于云计算多媒体检索系统的体系架构

对于传统B/S单节点系统的无法保障多媒体检索实时性问题,近年兴起的云计算为此提供了解决思路。Hadoop是云计算模型的一个开源实现,通过分布式处理技术充分利用空闲的计算机资源构成Hadoop集群,提高系统的资源利用率;在Hadoop集群中通过MaPReduce并行计算框架,将用户的多媒体检索请求分配给Hadoop集群中“空闲”节点进行处理,可以有效解决多用户并发访问以及从海量数据库中检索目标资源带来的实时性问题。

对于现在基于内容的多媒体检索遇到的“语义鸿沟问题”,本文采用相关反馈技术提高系统的检索的准确性。相关反馈是通过人机交互,如果用户对系统检索结果不满意,可以标注部分检索结果为正反馈信息,部分不满意检索结果是标注为负反馈信息。系统根据用户提交正负反馈信息,调整内部检索参数,从而优化检索结果并反馈给用户[2]。

因此基于这两点,本文提出了基于云计算的多媒体检索系统。它能有效解决传统单节点架构存在的局限性问题,也提高了检索结果的准确性。系统图框架结构图以及多媒体系统检索流程图,如下图1、2所示:

图1 系统图框架结构图

2 基于云计算的多媒体检索系统中关键模块设计

2.1 HDFS模块设计

HDFS是一个分布式文件系统,采用Master(Job Tracker)/Slave(TaskTracker)架构,由主节点NameNode和数据节点DataNode组成。HDFS为多媒体检索系统提供媒体库以及特征库的存储,为MapReduce提供相关信息的交互以及处理所需的数据。

对于原始的网络上多媒体数据,需要对其进行相应的预处理后才可以存储于HDFS中。基于内容的多媒体检索突破了传统的基于文本检索的局限,直接对图像、视频、音频内容进行分析,抽取其内容特征建立特征库[3],检索时web服务器提取待检索媒体的特征,通过MapReduce进行特征匹配,实现多媒体检索。因此,HDSF模块需要对网络上多媒体资源做以下几个步骤的处理:

(1)将网络上的多媒体数据经过预处理后,分析多媒体文档的基本框架,分析将其中文本库、图片库、视频库、音频库存储于相HDFS中,用于媒体对象的特征提取以及用户获取图像检索结果。同时,设置交叉参照知识库,作为相关反馈查询的语义基础[4]。

图2 多媒体系统检索流程图

(3)对HDSF中各媒体数据库分别进行特征提取,提交MapReduce任务,生成媒体特征库。例如图像特征提取,Map阶段,map函数每次读入一幅图像,提取其形状、纹理以及颜色特征。Reduce阶段,将Map阶段提取的图像特征数据存储于HDFS中。

(4)MapReduce框架虽然可以处理多种数据格式,但为了便于Map任务更好的的执行,因此将每个媒体对象的特征作为一条特征记录,其特征数据以文本格式进行存储。

3.2 MapReduce模块设计

并行计算MaPReduce技术是云计算的核心技术,本模块实现的主要功能是多媒体检索过程中的媒体特征匹配计算,也即相似度的计算。MapReduce任务是由客户端提交一个MapReduce作业,由Job Tracker进行相应的初始化以及调度,将MapReduce程序分发到各TaskTracker节点进行运行。MapReduce程序在运行时需要读取存储于HDFS中相关的媒体特征数据。MapReduce模块实现媒体对象匹配的工作框图,如图3所示:

图3 MapReduce工作框图

MapReduce的工作流程可以分为以下几个方面:

(l)MaPReduce程序在运行时,将HDFS中存储的相对应的多媒体特征库进行分割,如需要检索图像,就对图像特征库进行分割,得到图像特征数据的分片。

(2)对于每块数据分片,由DataNode节点传送至各TaskTrackcr节点。每个Map任务读取一个数据分片,然后把数据分片再分解为一系列键/值对(Key/Value),其中Key值就是相应多媒体特征在数据分片中的偏移距离量,Value值就是多媒体的特征值。然后由MaP()函数对这些Key/Value对进行匹配运算,匹配结果以相似度和特征库中的多媒体名作为中间结果Key/Value对。

(3)对于MaP任务输出的中间结果Key/Value对,合并其相同结果(如果存在多个相同的数据,只取其中一个结果)并以Key值大小进行排序[5],将最终的Key/Value对传递给Reduce任务。

(4)Reduce任务读取排完序的Key/Value对,对其进行汇总,按相似度的大小进行排序,最终得到多媒体检索的结果,并将结果写入HDFS中[6]。

3.3 相关反馈模块设计

相关反馈是多媒体检索系统获取语义的重要手段,通过用户相关反馈可以不断提高检索的准确率。在检索过程,用户可以对部分结果分别标注为相关媒体对象和不相关媒体对象,得到正反馈集合和负反馈集合,这两种集合构成相关反馈信息。本文中用户相关反馈功能主要体现在交叉参照图模型的更新以及构建新一次查询的语义基础。

3.3.1 交叉参照图模型更新

通过用户的相关反馈信息,系统自动更新交叉参照模型。对于属于正反馈部分的任意两个媒体对象,增加它们之间的权重,对于负反馈部分的媒体对象,则减少它们与正反馈部分每个媒体对象之间的权重,如果它们减少后的权重变为零,则自动删除这两种媒体对象之间的链接关系[7]。随着相关反馈次数的增加,媒体对象之间的链接关系更加趋于合理。

3.3.2 构建新一次查询的语义基础

在基于内容的多媒体检索过程中,初始查询例子往往不能更好地表达用户的查询意思,因此需要利用相关反馈进行调整。系统在获得用户反馈回来的带标注的媒体对象,采用上下文分析算法计算出检索对象语义上下文,构建新的检索的语义基础,并且对相应检索通道下的查询向量以及相似度计算方法进行调整。系统在新构建的语义基础上做基于内容的检索。

在此部分,语义上下文算法是关键。在相关反馈信息基础上,语义上下文分析算法需要考虑两个方面:(1)扩展,找出那些不属于检索结果却满足用户查询语义的多媒体检索对象;(2)优化,提取检索结果中与用户语义相关的内容,减少不相关的部分。

语义上下文分析具体算法如下[4]:

4 实验结果及分析

在Linux环境下,通过几台普通的PC机搭建一个云计算平台即Hadoop集群。在不同节点数的平台上进行多媒体检索的测试,将其测试结果与传统B/S架构下的多媒体检索系统的测试结果进行对比,并对基于云计算平台的的多媒体检索系统的性能进行分析。

本文以多媒体图像检索为例进行试验,当图像特征的数据量分别为40万、70万、110万以及150万条时,在不同节点数(节点数分别为1,2,3,4)以及B/S单节点模式下,测试图像检索的耗时,实验结果,如图4所示:

图4 不同节点数图像检索耗时图

实验表明,随着图像特征数据量大幅增加,系统检索时间呈线性递增状态。但相比于B/S单节点模式,从图4可以发现Hadoop集群节点数越多,检索速度越快,耗时越少。只有当Hadoop集群节点数为1时,检索速度才比B/S单节点慢,这是由于Hadoop分布式系统在执行MapReduce程序时,任务的初始化、作业的分配与清空的耗时所造成的。

5 小结与展望

本文介绍了通过云计算的架构体系搭建多媒体检索系统,提高多媒体检索的及时性。实验证明了Hadoop集群节点数越多多媒体检索系统的速度越快,检索耗时越低。相比于昂贵的服务器,通过廉价的pc搭建的Hadoop集群在多媒体检索领域具有广阔的应用前景。针对多媒体检索遇到“语义鸿沟”问题,本文借鉴文献[4]的思想,通过在检索系统中加入相关反馈模块,可以有效提高多媒体检索的准确性,相关反馈模块的测试可见文献[4]。由于目前计算机技术还无法有效解决“语义鸿沟”问题,因此对多媒体相关反馈技术的进一步深入研究将会助力于多媒体检索检索技术的快速发展。

[1]徐晓.多媒体信息检索模式研究[J].大众商务,2009,(06):101.

[2]WWW 环境下信息第一检索策略的实验调查研究[J].情报科学,2005,(11):1704-1707.

[3]张翠玉.基于内容的检索技术与多媒体数据库[J].科技信息,2010,(26);632-633.

[4]汪燕云,刘翔,吴飞.面向多媒体文档的多通道检索系统[J].计算机应用与软件,2009,(07):9-13.

[5]霍树民.基于Hadoop的海量影像数据管理关键技术研究[D].国防科学技术大学,2010.

[6]李波.基于Hadoop的海量图象数据管理[D].华东师范大学,2011.

[7]庄越挺,吴聪苗,吴飞,刘翔.多媒体交叉参照检索系统研究[J].计算机辅助设计与图形学学报,2005,(04):834-839.

猜你喜欢
检索系统检索语义
语言与语义
收录《信号处理》的检索系统及数据库
收录《信号处理》的检索系统及数据库
本刊被以下检索系统及数据库收录
本刊被以下检索系统及数据库收录
“社会”一词的语义流动与新陈代谢
“上”与“下”语义的不对称性及其认知阐释
专利检索中“语义”的表现
“吃+NP”的语义生成机制研究
国际标准检索