文/中国矿业大学 严悦 周晓林 贾玲 李月娥 高颖
基于案例推理技术在影像档案检索中的应用
文/中国矿业大学 严悦 周晓林 贾玲 李月娥 高颖
本文以影像档案为载体,基于案例推理技术来对影像档案中所存在的数字图像或视频检索问题进行了系统分析与探讨,对如何在影像档案中构建以案例推理技术为基础的检索系统进行了详细阐述。
案例推理技术;影像档案;检索
在信息时代下,伴随着数字化、网络化技术的迅猛发展,传统档案管理无论是在服务的模式还是在业务的流程上都发生着全方位的改变。传统管理模式下采集部门(以文献、资料分辨业务为主)的核心地位逐渐被取代,取而代之的是以社会为对象的一线服务。新时期下,如何进一步增强档案信息的生命力,最大化创造社会效益俨然是档案管理工作转型、变革过程中所面临的当务之急。与此同时,伴随着办公硬件设备的逐步完善,大量影像档案出现在人们的日常生活工作中,面对这些数字化信息(以视频、图像为主),如何针对用户的信息快速有效地完成检索与输出俨然已经成为了新时期档案管理工作者共同面临的重大课题之一。
作为一种新型机器学习与推理方法,案例推理技术的核心思想是通过对人类过去解决问题的经验的充分利用来解决崭新的问题。从整体上来看,案例推理技术主要由四个基本过程组成(即“4R”循环),即Retrieve(案例提取)、Reuse(案例重用)、Revise(案例改变)、Retain(案例保存与学习)。针对案例推理技术(CBR),多年来众多知名学者与学术团队致力于对其理论与应用方面的研究,取得了很大进展。每年举行的CBR研讨会(由国际研究界组织,1987年开始实行)使得一批又一批关于CBR的优秀研究成果得以发表,有效促进了CBR理论与应用研究的不断发展。截止目前,CBR研究的热点主要集中在五个方面,即在计划、推荐、分类及预测等工作中的理论与应用,与其他人工智能方法的比较与融合,案例改变机制的研究,作为解释机制的算法研究,在多种领域或学科中的应用研究。针对CBR系统和项目的应用,目前国外很多领域都已经实现,应用的领域也逐渐开始拓展。但就我国国内来说,CBR在实际系统中的应用成功案例相对较少,亟待进一步发展。本文研究的重点是案例推理技术在影像档案检索中的应用。
简单来说,以案例推理技术(CBR)为基础的影像档案检索,其实就是根据媒体与相应对象的上下文联系及语义内容来进行检索,整个查询过程所针对的仅仅是对象,并不是对象的标识。具体来说,需要从媒体数据中提取指定的特征,如颜色、形状以及纹理等,以这些特征为基础来检索出媒体数据库中具有相似特征的图像或视频内容。截止目前,对于图片或视频数据库的检索主要有两种方法,即基于内容的检索与基于文本的检索。无论基于内容还是文本,这两种检索方法都具有两个缺点,一方面是由于影像包含的信息量较大,不同人对相同内容的解释存在一定差异,同一人在不同时刻对不同内容的解释也可能存在相似性,所以对影像的标注就难以在标准上达成统一。另一方面是人工标注的繁琐性将直接造成相应的标注、归类的速度降低,难以实现与数字媒体产生速度的匹配,所以很难实现对互联网中海量影像的有效检索。然而,较之于这两种人工性检索方式,基于案例推理技术的影像档案检索则具有如下特征:(1)以影像内容特征为基础来进行分类,提取内容的标准为满足用户需求。(2)用户提交的检索内容以及数据库中影像经过转变之后再进行近似匹配,并不是对原始数据进行直接对比。(3)适合各种类型数据库的检索(特别是中大型数据库),检索效率较高。在案例推挤技术的支撑下,用户对影像档案的检索并不需要进行语言上的过多描述,直接将影像本身作为检索条件在系统中进行提交即可获取结果输出。
基于案例推理技术的影像档案检索,其基本过程为对用户输入特征信息的提取→在影像特征库中查询匹配的特征信息→获取索引数据。基于案例推理技术的工作流程主要具有如下功能模块:
人机交互界面:一般来说,人机对话界面都是由V B(或V C)等计算机高级语言进行编制的。通过将需要查询的内容(如图片、视频片段)提交到计算机中,获取结果。
向量化:在对具体的影像信息进行分类之前,图像或视频是以向量的形式表现出来的。部分冗余的信息将在这个过程中被过滤掉(如噪音),而具有高价值信息的特征将在向量空间中得到量化。
特征提取:特征提取是影像分类中最为关键的问题,其不仅可以简化计算过程,同时还具有降低向量维数的作用。但对视频本身来说,因其并不是简单的图像序列,相关性是相邻视频帧之间表现出的紧密关系,所以要继承传统图像在检索中广泛运用的低层特征之外(如颜色、形状、纹理等),还应该通过对视频运动信息的利用来为检索提供时序线索。同时,视频检索过程中所使用的运动信息主要包含了四种,即块运动矢量的主分量、物体运动的轨迹、摄像机运动以及时序纹理等。也正因为如此,特征提取中所包含的集合也就有两种特征,一种是高层次语义特征,另一种是低层次视觉特征。针对这两种集合,相应程序将根据用户的实际需求来将权值自动加入到其中,然后再利用评估函数来对特征集中的每一个特征的评估值分别进行独立的计算,计算结果出来后按评估值的大小来将所有特征进行排序,从而选取预定数目的最佳特征来作为结果的特征子集。在抽取特征的过程中,相应程序在一定范围内会自动选择不同的阈值来对特征进行过滤,从中获取所需要的特征向量,然后以此作为基础来构建特定的向量空间,最后再进行严格的分类检测。最终的最佳特征过滤阈值的选择也正是通过这个分类检测的结果来进行的。
自动分类:根据阈值计算影像的特征向量以及特征提取所得出的评估值,在充分采用人工智能方法的基础上寻找其类别,产生两个相互结合且彼此独立存在的两个向量集合,即高层次语义特征和低层次视觉特征。具体来说,线性分类法、支持向量机以及神经网络等是现目前最常用的算法。
相似性检索:在数据接口处将影像库中的数据与分类后的向量集合进行对比,比较相互之间的相似性,并且按照实际的相似性大小来给出具体的检索值。
低(高)层相似度:在已经提交过的向量集当中,通过在数据接口处将低(高)层次特征向量与影像数据库内容进行对比,程序将自动生成一个只对影像低(高)层次特征进行了定义的相似性。
最终相似度:分别将高层、底层相似度与各自的权值相乘,所得出的结果即为最终相似度,这个权值既可以根据用户的不同需求来设定,也可以由程序来自动设定。
检索结果:结合最终相似度,程序将严格按照相似性的大小来得出检索结果,这个结果并不一定是最终的,用户可以根据这个结果再进行二次查询或者直接完成检索。
由于视频信息通常都具有较强的复杂性,所以在视频分析的过程中就拥有诸多关键性技术。在此,对这些关键技术进行详细说明,以此来为进一步的研究和算法设计提供依据。
关键帧提取:以新视觉内容实时变化情况(如运动信息、颜色直方图等)的分析来确定所需关键帧的数目,并进行关键帧提取,是目前最为理想的关键帧提取办法。
视频镜头的检测:以直方图为基础的技术是目前应用最广泛、最普遍的镜头检测方法。通过对视频帧图像颜色直方图或灰度直方图的对比来确定边界,以此来平衡检测的速度与精度。
基于算法的角度来看,案例推理技术的应用对于整个影像档案检索工作来说,是一个调整匹配、逐步逼近的循环过程:
相关反馈:通过对监督学习与自启动技术的充分利用,用户通过对检索结果相关性的判定能够有效提升检索的性能,这个过程无疑是影像检索系统中不可获取的重要环节。截止到目前,关于反馈算法所采用的检索模型主要可划分为三种类型,即基于概率框架的方法、基于距离度量的方法以及基于机器学习的方法。与此同时,根据反馈算法中的内容又可以将其分为正负反馈法两种类型。这里主要的是,支持向量机是在机器学习过程中通过最优化理论而构建的学习训练算法,其能够将用户所标记在反馈结果中的正反例图像、视频段作为下一类图像、视频段的样本来实施训练。
主成份分析:针对特征空间的去噪、降维等问题,仅仅依靠相关反馈算法俨然是难以有效解决的。基于此,可以对检索过程中用户所提供的正反馈样本在特征空间里的分布特性进行主成分分析,以此来消除特征中的噪声,从而有效降低特征空间的维度。
动态多维索引:我们都知道,数据量庞大、特征维度较高是影像索引数据库的两大特征,所以要想提高检索的效率,就必须以影像特征为基础来构建高效的多维索引。在这个动态多维索引中,分裂算法与插入算法是最为关键的算法。
总之,作为一种新型A I推理技术,案例推理技术(CBR)的相关理论及应用方面在近年来得到了长足发展,逐渐出现了众多成熟的CBR开发工具、CBR系统。毫无疑问,基于案例推理技术的影像检索方法是信息检索与服务实现网络化的关键内容之一,所涉及的学科领域众多(如计算机网络、视频处理、数据库、模式识别以及人工智能等),因此具有很好的发展前途,理应得到我们的大力推广。
[1]片锦英.案例推理技术研究及其应用[J].人力资源管理,2010(06):128+318.
[2]杨健,赵秦怡.基于案例的推理技术研究进展及应用[J].计算机工程与设计,2008(03):710-712+721.
[3]Reidl,J,Starke,J,Omer,DB,etal.Independentcomponentana lysisofhigh-resolutionimagingdataidentifiesdistinctfunction aldomains,NEUROIMAGE,34(1):94-108JAN12007.
[4]Cheng,SX,Shih,FY.AnImprovedIncrementalTrainingAlgor ithmforSupportVectorMachinesUsingActiveQuery,PATTERNRECO GN40(3):964-971,MAR2007.