多媒体数据的查询与检索

2014-03-25 15:59刘一鸥
电子测试 2014年13期
关键词:文档形状音频

刘一鸥

(西安外事学院,陕西西安,710077)

多媒体数据的查询与检索

刘一鸥

(西安外事学院,陕西西安,710077)

采用任何数据模型对数据进行存储、管理,都要解决多媒体数据复杂得多的查询问题。本文从三个方面归纳了多媒体信息的查询检索方法:给予结构化属性(媒体文件的属性、外部特征MPEG7描述)、给予描述媒体信息的自由文本和基于内容(如图像中物体的形状、图像纹理、颜色,视频的关键帧等),并对此做出了详细阐述。

多媒体;查询;检索;存储

无论是哪种媒体信息,无论数据的存储、管理采用了哪种模式,都要解决多媒体数据复杂得多的查询问题。在多媒体应用中,不能简单地通过关键词精确查询、模糊查询、组合查询来获得用户所需要的信息,一般不可能的带精确解,因此,对多媒体信息的查询往往使用“检索”“搜索”等词。由于多媒体信息本身的多样、复杂性,每一类信息的查询、检索都涉及多个学科,如模式识别、认知科学、统计分析,······。

多媒体信息的查询、检索技术的评价指标理论上有两个:查准率、查全率,就可用性而言还有一个重要指标:响应速度。在信息爆炸的今天,对一个庞大的系统,例如WWW,查全率显然难以证明,从应用角度讲重要性远远小于响应速度和查准率。

1 基于外部特征属性的查询

基于外部特征的多媒体数据查询只是针对采用关系型数据库存储管理多媒体数据外部特征而言,自然查询方法采用的也是传统关系型数据的查询方法。例如,为了便于教育资源的整合、共享,国家教育部颁布了国家教育元数据规范,所有教育资源,包括多媒体资源均要使用元数据规范进行描述、管理。凡是遵循该规范建立的教育资源库都可以运用传统的关系数据库查询技术查询资源库中的多媒体信息。

2 基于文本的检索

应用文本注释图、声、像,然后基于文本搜索图、声、像信息。这种方法采用的核心技术,与基于文本内容的文本信息搜索是一致的,所以,它们被归类在一起进行分析。但是,对图、声、像信息采用这种检索方法之前,必须人工的或者自动地为图、声、像做文字描述、注释,例如,应用语音识别将语音转化为文本。基于文本内容的检索方法有若干种,这里简要介绍其中的5种。

2.1 布尔检索模型

在布尔检索中,需要自动建立索引,过城如下:识别词汇(分词);利用专用词典、非用词表、高频词表消除非用词;代替同义词;确定主干词;计算主干词出现频率;计算主干词权重;建立倒排文件;根据检索关键词进行检索。

2.2 矢量空间检索模型

首先将文档表示为词索引集合;应用同样的方法将每一个查询也表示成词索引的集合;依次计算所有文档和查询之间的相似度;按相似度从大到小对结果排序;应用相关反馈技术或者修改查询(仅适用于用户个体),或者修改文档索引条目(可用于所有用户);循环修正不断提高结果的准确率。

2.3 基于聚类的检索模型

应用分级聚类法或启发式聚类法将相似文档聚类;计算每个类的中心(类特征向量);

计算查询与各类的距离,找出最相近的类;如果该类很大,

则计算每个文档和查询的距离,找出相似文档;否则,该类所有文档极为相似文档。

3 基于内容的多媒体要求

基于内容的多媒体检索以认识科学、用户模型、图像处理、语音识别、人工智能、知识库系统、计算机图形学、计算机语言学为学科基础。

3.1 检索原理与步骤

基于内容的检索的步骤如下。

1)分析多媒体数据的内容,抽取其中的特征和语义元素,如图像中的颜色、纹理、形状,视频中的场景、镜头的运动,声音中的音调、响度、音色等,建立元素索引库。

2)为提高查准率,要建立媒体数据特征库。

3)检索时首先提取问题的语义和问题产生的特征向量,并通过元素索引进行查找,其次运用媒体数据库特征库进行筛选,最后按匹配程度给出结果。通常,一个良好的查询检索技术还要建立一种有效的处理算法和可视化接口,让用户以最简单的操作方式得到最好的结果。

3.2 基于内容的多媒体检索办法

基于内容的多媒体检索需要支持各种多媒体数据类型;支持建立在检索结果基础上的多次求精查询;支持基于实例的查询(相似性查询);支持基于同步关系的查询;支持多层次的检索要求。下面就图像、视频、音频的检索技术做如下介绍:

(1)图像检索

1)基于颜色的检索 基于颜色的图像索引与检索涉及的概念简单,易于实现。颜色特征的特点:与物体或场景关系密切;与图像的尺寸、方向、视角依赖关系小,稳健。

对颜色进行检索主要是利用颜色空间直方图进行匹配。根据颜色数据进行检索时,数据库中的图像和被检索图像之间的距离可用加权欧几里得距离表示,采用基于颜色分布的匹配将获得视觉效果上更接近被检索实体的结果。常用的检索算法有HIS空间全局累加直方图法。

2)基于形状的检索 形状是图像的重要性能;每种形状特征具有唯一的表示,不随大小、方向、位置的变化而变化;相似的形状具有相似的表示。

基于形状的检索可以分为:基于二维形状和基于三维形状的检索。形状检索主要有针对图像边缘轮廓的检索和针对图形矢量特征的检索,常用检索算法有边界直方图法、不变矩、傅里叶形状描述、基于区域的形状表示和Hough变换等。在实际应用中,为了减少算法时间和空间复杂性,一般用形状参数(如面积、周长、矩阵等)来描写形状,可以有效提高检索的效率。

3)基于纹理的检索 纹理特征主要由表纹理的均匀度、对比度和方向性的特征向量表示。均匀度反映纹理的尺寸,对比度反映纹理的清晰度,方向反映实体是否有规则的方向性。常用的检索方法有基于传统数学模型的共生矩阵均值方差法、频谱分析和结构方法以及近几年出现的基于视觉模型的多分辨率分析等。

(2)视频检索

基于内容的视频检索首先要对视频进行处理,包括视频节结构的分析、视频数据的自动检索引和视频聚类。视频结构的分析是指把视频分割成基本的组成单元——镜头;视频数据的自动索引包括代表帧的选取以及静止特征与运动特征的提取;视频聚类就是研究镜头之间的关系,把内容相近的镜头组合起来,聚合成类,以便缩小检索范围,提高检索效率。在视频处理中代表帧要能够正确、完全地反映镜头的主要事件,同时要考虑计算的复杂性,常用选取代表帧的方法有:帧平均值法和直方图平均法。

(3)音频检索

音频检索要从音频数据中提取听觉特征信息。音频特征可以分为感知特征和听觉特征(物理特性),听觉感知特征包括音量(用声波信号的均方根近似描述)、音调(通过一系列较短时间段音频信号的傅里叶频谱来计算)、音强(用较短时间段音频信号的傅里叶频谱的质心表示)等。非感知特征包括对数频谱系数、线性预测系数等,其中线性预测系数在音频压缩码领域和音频信息检索方面有极其广泛的应用。同视频特征类似,音频特征随时间而动态变化,分析时间计算不同时间段的声波信号的波形,并将波形的均值、方差和自相关系数等记录在波形数据库中;对音频数据进行采样、帧抽取后,运用方差分析等统计方法对音调、音量、音强等音频特征进行量化,并在音频数据库中记录这些量化值,形成索引树,在检索时可以利用特征进行示例和指定特征值查询。

4 结束语

许多查新问题还处于研究、试验阶段,尚未有非常成熟的产品,特别是基于内容的图像检索、视屏检索,就连世界著名搜索公司Google的图片搜索应用的还是基于文字的技术。甚至连基于语义的文本检索经过10多年的研究、实践,查准率和查全率,特别是查准率还存在许多问题,相关的研究人员还在持续进行研究、实验。

[1] Snodgrass R T,Gomze S,McKenzie.Aggregates in the Temporal Query Language TQuel.IEEE Transactions on Knowledge and Date Engineering,5,Qct . 1993.826~842

[2] 陈明,多媒体技术与应用。北京:清华大学出版社,2004

[3] 刘云生,关于实时数据库事务,软件学报,1995(10)

multimedia data’s query and retrieval

Liu Yiou
(Xi’an Internation University,Xi’an,710077,China)

It needs to solve the complicated query problems of the multimedia data using any data model for storage and management. The text summarizes multimedia information query retrieval method from three aspects:giving structured property(the properties of media file、description of MPEG7’ s external characteristic)、giving free text describing of the media information and content(like the shape of the objects in the image、image texture、color、the key frame of video and so on),and then make a detailed description of it.

multimedia;query;retrieval;storage

刘一鸥(1978-),女(汉族),陕西省西安市人,硕士,讲师,研究领域为计算机技术。

猜你喜欢
文档形状音频
挖藕 假如悲伤有形状……
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
你的形状
基于Daubechies(dbN)的飞行器音频特征提取
音频分析仪中低失真音频信号的发生方法
火眼金睛
基于RI码计算的Word复制文档鉴别
Pro Tools音频剪辑及修正