多媒体数据挖掘技术在数字图书馆中的应用

2009-06-05 03:59吴懿慧
新媒体研究 2009年9期
关键词:数字图书馆数据挖掘多媒体

吴懿慧

[摘要]随着网络技术的发展,数字图书馆越来越被人所重视,多媒体数据挖掘成为数字图书馆信息检索的一个重要手段。在分析多媒体数据挖掘的概念及特点的基础上,提出多媒体数据挖掘系统的一般结构,阐述多媒体数据的挖掘过程, 并就多媒体数据挖掘中的几个关键技术进行讨论。

[关键词]多媒体 数据挖掘 数字图书馆

中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0510051-01

随着网络技术的发展,数字图书馆越来越被人所重视。对于数字图书馆这样一个分布的信息空间,多媒体数据挖掘可以迅速、准确为用户提供适量的所需信息,因而成为数字图书馆信息检索的一个重要研究方向。

一、多媒体数据挖掘的概念及特点

(一)多媒体数据挖掘的概念

多媒体数据挖掘是数据挖掘技术和多媒体技术的综合产物。通过综合分析视听特性和语义,发现隐含的、有效的模式,得出事件的趋向和关联,从而为用户提供决策支持能力。

(二)多媒体数据挖掘的特点

(1)多媒体数据相对于常规数据为非结构化、异构数据。要在这些非结构化或半结构化的多媒体数据中抽取隐藏的知识必须将这些非结构化数据转化为结构数据[1]。(2)多媒体数据的特征向量通常是数十维甚至数百维。(3)多媒体信息语义关联性强。各自独立的对象内蕴含极为丰富的语义联系。(4)知识表达和解释比较困难,通过挖掘所得出的模式往往较隐晦。

二、多媒体数据挖掘的一般系统结构

因为多媒体数据是非结构化的,而且包含丰富的难以用常规数据库属性描述的信息内容,因此要引入新的媒体处理、描述方法和新的处理模块的支持。其系统结构见图1所示:

1.多媒体数据库。多媒体数据库中包含原始数据库和元数据库。原始数据库中包含原始的多媒体数据,如图像、视频和音频等,它们的媒体结构与元数据库中描述关联,用于可视化表现和存取。元数据库是一种按照挖掘要求组织的多维、多层次、多媒体属性数据库,支持高效的多媒体数据挖掘。

2.预处理模块。它是对多媒体原始数据进行预处理,提取有效特征,可以是对多媒体数据的结构化处理,如图像对象分割、视频和音频对象分割、视觉和听觉特征提取、语义关联等,它们以元数据的形式记录在元数据库中。

3.挖掘引擎。其包含一组快速的挖掘算法,如分类、聚类、关联、总结和摘要、趋势分析等,系统可以根据具体的应用选择一个或多个相应的挖掘算法,对元数据进行挖掘。

4.用户接口。挖掘结果的可视化和解释界面,也可以为用户提供交互接口和扩展SQL挖掘语言。由于多媒体的视听和时空特性,挖掘出来的模式应该以新的表现方式呈现出来,如导航式知识展开和交互式问题求解过程,以及提供挖掘结果的可视化接口。

三、多媒体数据挖掘过程

多媒体数据挖掘要经过数据准备、挖掘、结果表达和解释四个阶段。在数据准备阶段,多媒体的集成可以增强自动预处理分析的准确性,解决语义模糊性;在挖掘阶段,各种媒体的元数据可以互补使用,挖掘出意想不到的合理的信息线索、模式、趋势或关系[2];在结果表达和解释阶段,多媒体的同步和互补成形式的知识可视化和交互接口更直观、更易于理解。

四、多媒体挖掘技术

(一)图像相似搜索

图像相似搜索主要考虑两种检索,一是基于文本的图像检索用文本对图像进行标注;二是基于内容的图像检索用颜色、纹理、形状等低层可视特征或小波系数等对图像的标识进行相似检索。在基于内容检索系统中,通常有两种查询[3]:基于图像样本的查询和基于图像特征描述的查询。基于图像样本的查询是把从样本中提取的特征向量与已经提取出并在图像数据库中已经索引过的图像特征向量相比较,基于这一比较结果,可以得到与样本图像近似的图像。图像特征描述查询是指给出图像的特征描述,把其转换为特征向量,与数据库中已有的图像特征向量匹配。

(二)时序趋势分析

数据挖掘中的趋势和奇异点分析方法可以用来挖掘视频的特征、对象行为、事件随时间发生的模式与趋势。文献[4]的挖掘算法简单而强大,它利用视频和音频特征在全局与局部时窗中的不同分布状态,实现了从状态突变中检测视频主角、体育精彩镜头及异常事件的功能。

(三)多维分析

多媒体数据的多维分析可以按传统的从关系数据库中构造数据立方体的方法去设计和构造出多媒体数据立方体。多媒体数据立方体的建立有助于多媒体数据的多维分析和多种知识挖掘。

(四)关联规则挖掘

多媒体数据的关联规则挖掘是在相关的多媒体对象集中,找到一组关联规则,显示一组对象或特征的模式或相互关系的发生频率。一个典型的关联规则为

X→Y[s%,c%」 (1)

其中,X和Y是一组特征描述的谓词,s%是规则的支持度(X,Y共同出现的概率),c%是规则的可信度(X出现时Y出现的概率),为说明这个问题,我们以图像中关联规则的挖掘为例:

图像的关联规则是指图像对象或特性之间频繁出现的模式。设D为图像集,那么关联规则可以表示为:

P1∧P2∧...∧Pn→Q1∧Q2∧...∧Qm(c%) (2)

其中,P1,P2,...,Pn,Q1,Q2, ...,Qm是D中图像的描述谓词,可以是图像的大小、颜色、纹理、密度、对象、空间位置、文本描述等;c%表示该规则的可信度,其含义为当P1,P2,...,Pn都发生时,Q1,Q2,...,Qm也都发生的概率。

在挖掘过程中,首先建立描述集,如{P1,P2,...,Pn}。对于每一个描述,定义一个支持度来表示该描述在整个图像集中出现的概率,记作σ(Pi/D)。描述集的支持度表示集合内的所有描述同时发生的概率,记作σ(P1∧P2∧...∧Pn/D)。满足最小值尺度的描述集被称为频繁描述集,从频繁描述集中可以推导出规则。例如,从频繁描述集(P1,P2,P3,P4)可以推出规则:

P1→P2∧P3∧P4 (3)

P1∧P2→P3∧P4 (4)

P1∧P2∧P3 →P4(5)

...

只有满足最小可信度的规则才是我们所关心的规则,即强关联规则。规则的可信度可以用条件概率公式求得,如式(4)表示的第一个规则的可信度为:

P(P1|P2∧P3∧P4)=σ(P1∧P2∧P3∧P4)/σ(P1) (6)

图像的关联规则的挖掘分两个步骤:找出所有的频繁描述集;从频繁描述集中推导出关联规则,并确定强关联规则。

五、总结

本文在分析多媒体数据挖掘特点的基础上,阐述了多媒体数据挖掘的一般系统结构和挖掘过程,并就挖掘技术进行了讨论。有关多媒体数据的内容特征算法等还需进一步研究。

参考文献:

[1]Jiawei Han,Micheline Kamber.DataMining:Concept and Techniques[M].Morgan Kaufmann Publishes,Inc.2004.

[2]邵峰晶、于忠清,数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.

[3]王凯、渠芳、王辉,利用Web挖掘技术实现个性化推送服务[J].情报杂志,2006,(11):86-88.

[4]Radhakrishnan R,xiong Z,etal.Generation of Sports Highlights Using a combination of supervised and Unsupervised techniques in the Audio Domain[C].Singapore:IEEE PCM 2003.

猜你喜欢
数字图书馆数据挖掘多媒体
借助多媒体探寻有效设问的“四度”
多媒体情境下培养学生阅读素养的三个维度
数据挖掘综述
多媒体在高中物理教学中的应用
软件工程领域中的异常数据挖掘算法
基于云计算的数字图书馆建设与服务模式研究
基于R的医学大数据挖掘系统研究
刍议数字图书馆计算机网络的安全技术及其防护策略
浅谈HTML5的发展与应用趋势
一本面向中高级读者的数据挖掘好书