陈 斌
(杭州图书馆)
在三墩读书中心跨媒体实验平台开展的图像文献语义研究项目现已进入第二期,本期的主题是:语义描述与图像组织的新技法,属语义形态的特征研究范畴。目的是提升图像检索可视粒度的稳定性和图像检索质量的系统性(一项解决图像传递和检索的重大攻关课题)。互联网时代,数字图像资源有容量较大、色彩形式多样、内容丰富的特点,在网络或数据库中的图像资源集中在资源池,通过检索功能推送至用户界面。
2017年底,笔者在中国知识资源总库、万方数据库知识服务平台、维普期刊资源整合服务平台进行检索,通过“跨媒体图像”not(-)“跨媒体检索”,得到关于跨媒体图像语义服务研究的成果1项;通过“跨媒体图像”or(+)“跨媒体图像检索”,得到有关跨媒体图像的成果6项、有关跨媒体图像检索的成果3项;通过“跨媒体图像检索”or“跨媒体语义”,得到有关跨媒体检索的成果59项、有关跨媒体语义(服务)的成果12项;通过“图像检索”and(*)“图像语义”,得到交叉和边缘有关图像检索和图像语义服务共7,770项。可见,虽然跨媒体图像语义源自于媒体图像和图像检索的系统方法,但目前对跨媒体图像语义的研究还较匮乏。
国内关于跨媒体图像或图像语义服务的前期研究成果主要有:栾悉道提出了基于概念分布的图像语义标注与检索方法,用户可通过提交概念所在大概位置信息快速查找出与检索意图相近的图像,但该设计只实现了图像语义标注与检索系统在相似性上匹配,需加强文本语言的算法;[1]金大卫对图像固有的颜色、纹理、形状等特征进行自动识别,改进了传统的图像检索技术,认为在图像的语义空间中还包含隐藏语义特征,并依照向量空间模型方法对特征文本文件建立结构模型。[2]
跨媒体图像语义的形态特征对跨库平台的图像搜索程度造成了一定的干扰影响。石跃祥通过衡量图像之间的相似程度来实现检索,使用的各种方法都利用了图像本身客观性质的特点,但在实现过程中也出现了困惑:不大需要人为地解释与干预,应用的自动化程度较高,但也存在着检索精度不够准确和应用领域较为局限的缺点。[3]杨珺在保持分类能力不变的情况下极大地缩减图像特征向量的个数,去除了与语义判断无关的视觉特征,实现了图像视觉特征到高层语义的映射。[4]王华秋提出新的机器学习方法以及如何有效地将机器学习技术融入语义映射之中,并认为实现高效的语义映射仍会是今后一段时间的研究热点。[5]
笔者进一步分析发现,我国学者在研究图像语义和检索时,基本上是围绕图像语义层、底层视觉特征、高层语义映射、语义描述和聚类、语义向量模型等语义技术展开的,对图像语义的不同媒介属性的把握不够。图像检索的视觉特征就是图像聚类相似度和错误匹配之间精确性的提取关系。图像媒体基础分布状态的处理方法为:① 厘清在检索结果中可能存在的不相关图像;② 用户检索反馈时的图像语义参数遗落在哪个推送环节,此环节对下一轮映射有无特征提取、图像分割的变化,或在某个聚类分布单元组图像抽取的其他细节来识别图像的相似性;③ 语义类和映射对象均指向高层语义,可扩展性语义与跨媒体技术结合会不会对图像产生自动语义标注;④ 依赖型和学习型是其两大特点,语义映射需通过多特征关联的聚类分析才得以完美析出,这就需要在图像语义处理模式方面增加基于人工智能识别技术的情感对话,补充心理学、认知科学、生物仿真视觉等训练分布层的语义框架模型。
从21世纪初开始,基于内容的图像检索(Content-based image retrieval,CBIR)技术被提上研究日程,催生了信息资源整合技术,进而拓宽到信息资源应用领域和最大化挖掘信息价值的管理过程。[6]图像资源的整合是为了更好地管理图像信息资源,而信息资源特征的“分散孤立”是为了更好地实施信息推送(服务)。从用户角度来说,精准资源才是最好的资源,用户概念性检索要求的提出,有力避免了出现图像信息组织的服务悖论。
大多数用户依靠自身的认知水平去理解怎样“检索”图像信息,检索的结果是指令式的标签定位。我们把用户群分为准专业型和业余型,其中业余型用户群所占比例达到总远程用户群的80%左右。准专业型用户群懂知识、能描述、会分析;业余型用户群不懂描述、不会分析,只是运用检索通道来获取真实的、准确的、不带任何泛在“欺骗性”的唯一图像信息。我们说,能够描述出需要图像信息的用户同时是具备对图像整体把握和先验的,这类用户获取图像信息的途径与图像的元描述基本一致,而业余型用户群也期望通过“无法描述”的检索通道获取精准的图像资源。
对图像资源采取组织、管理手段,既是为了提高检索质量,又是为了满足广大用户的真实所需,摒除“类似”“相似”“联系”的查全率。我们要解决的是如何为广大用户群获取“亲和”的检索资源,让图像资源真正为用户所用。因此,建立面向用户的跨媒体图像组织管理体系,通过语义技术、语法语言描述、分类组织与主题标引、图像集成方法及数据组织等手段,以艺术图像为视角提高查准率,是本课题的研究方向。
跨媒体艺术图像检索是新型数字图像文献信息检索技术,它可以实现文本图像对图形图像的跨媒体互操作,净化图像语义形态扩展的真实关联数据的稳定性形态特征,活跃Web 5.0的链接能力。语义统一是消解异构性和多义性的知识语言,对图像资源库响应可靠、真实的请求结果后返回给检索用户。语义关系网络是组织图像检索参数的应用系统,搜索引擎能实现对图像文本的自动分类、聚合、标引等语言处理,但暂无情感语言(Emotional Language)的判断能力,即语义描述的智能化能力。跨媒体图像语义新技法凭借解析智慧语义的功能走在国内相关研究的前沿。
改善数据的叠加分布状态,提高图像信息检索正确率,充分施展检索内容的“有用性”,关键是增强检索技术的组织结构。针对目标源和上下文关系,优化XML标准标记语言的语义描述,将成为解决数据差异性和不确定性的格式工具(见图1)。[7]
图1 跨媒体语义描述标准格式拓展模型
语义技术对语言进行智能化处理,语义层负责处理自然语言,RDF和XML均提供语义描述框架中的结构关系,真正解析出图像语言之间的推理还需上升到本体层的一个可描述框架中。本体层的可视化技术与跨媒体图像技术相结合,有利于用户对图像识别作出稳定的判断。主题描述揭示图像的基本特征组织图像的内涵、特点、结构类型,建立在自然语言之上,并满足要素检索。早年,我们以信息关联性来揭示图像之间的相互关系,随着大数据的不断膨胀,关联性可用于图像组织,但用于检索推送就显得“不友好”,语义识别达不到检索用户的期望需求。
图像文献语义研究项目的第一期实验讨论跨媒体图像语义的分布形态,RDF有高语义和高分布性特点,提及XML的语法序列化问题:语义分布和语义数位点对点的关系。台湾大学典藏数位化计划项目采用DARCI工具进行架构,该工具在元数据收割时保存了原始数据的映射,与DC有良好的共融性,在图像数据转化和整合方面更显透明,是目前相关机构图像资源馆藏、中长期数字化保存、元数据组织和管理的较为理想的检索工具。
语义关联平台对XAM图像元数据映射的共融局限性的表达是图像元数据在数据特征选取上的相似度对应关系,潜隐的相似映射关系提取单位媒体流特征后进行融合分析(Fusion analysis),并同步相似对象,限制图像数据之间模态挖掘的关联度(见图2)。
图2 图像元数据映射的共融关系局限
每一种图像的成像自带有元数据,元数据是对数字化信息进行框架组织的依据型数据。可用于图像描述、分类、加工、组织、管理和推送的元数据类型有描述型元数据、技术型元数据、管理型元数据,不同类型元数据的侧重点也不同。在元数据种类中能较好支持图像检索的是DC元数据和METS元数据,目前在图书馆界广泛应用的是MARC和MODS。DC是都柏林核心元素集委员会的龙头产品,其内容描述与外形描述对RDF来说,具有语义上的互操作性。METS是元数据编码与传输标准,结合XML进行图文编码标识,与DC的复杂模式DCMI一样,均在元数据结构方面表现良好,允许可扩展性元素充分扩展,为图像的语义描述和形象定义打下结构化的映射基础。
由于图像本身含有十分复杂的特征描述,每项特征可以视为一元数据,如果我们从更高的语义层次揭示不同数据之间的联系,并建立起映射连通关系,那么在映射过程中又导出了另一种含义:图像内容的特征揭示,即图像的数字化数据利用HTML标记语言对映射对象起到稳定的复杂对接作用。在第一期实验中,我们认为跨媒体图像在多次语义描述和笔画匹配环境产生记录标识的元数据格式,新生成的数据具有较为稳定的靶向目标,这里的靶向指的是对检索而言的映射关系,元数据则提供数据存取、链接的本体框架。图像资源有其自身的分布空间作为语义空间,通过检索能够使具有相似语义的图像数据形成关联。图像数据在元数据关系空间里完成映射,纯粹的结构化框架已无法利用特征提取技术来提供最优的检索结果。
跨媒体图像由多维多模形态的数据组成,语义鸿沟跨度大,不同类型的图像数据在语义层面上统一,使不同形态的图像表达同一语义指向。跨媒体图像组织技法主要利用语义的组织方法将不同图像的媒体特征予以精准重塑,提高查准率。
跨媒体图像是重要的媒体数据之一,图像检索统一在逻辑框架中体现描述性数据语言。图像语义能形象地表述不同图像之间的特征关系,通过语义描述、信号处理、机器学习、感知推理、演绎分析等环节,在不同图像媒体之间抓取用户提交的查询对象(语言、文字、行为表达),得到较为精准的图像数据。
随着人们文化需求的日益增长,媒体图像信息资源占据了互联网总资源的60%以上。每日新增和更新的图像数据达到0.2TB。在如此多元的数字环境下,对图像进行有效检索还未能完全实现,资源利用效果缺乏精准和真实。图像基础检索一般经历六个过程:用户请求→图像抓取→特征提取→多维数据分割解析→多因素识别→反馈推送,即便如此,无序或错误的图像仍然充斥着互联网。传统索引语义归类方法只能分类对象,不能理解对象,甚至会出现图像语义鸿沟冲突。而多内容矩阵映射可消除不同图像之间的内容鸿沟。
我们已经熟悉了图像检索是相似度匹配的聚类关联和动态分布排序后的查询反馈,反馈结果视为自动生成的较高关联度特征的图像,但不排除非准确图像和真实检索图像。在艺术美学领域,Colombo等通过研究如何获取艺术图像的情感语义,建立了一系列映射规则,用以判断艺术图像传达的情感。[8]图像在从低层特征描述向高层语义转化过程中,会遇到语义鸿沟和特征匹配失败的情况,这时图像本体语义提取与外部响应语义提取就要用标引编码来交互和识别。
数据的动态表达是人为干预的结果。修改和删除使原始文本处于网络传输的边缘,有价值的真本图像随即消失,残留字符又影响正常数字信息传递的轨道。数据库有识别指令的功能,但没有识别指令情感真实与否的功能。[7]为了完善语义层次上的互操作功能,RDF以丰富的语义料为内容,实现不同领域、多语义的元数据信息交换。如,当一位用户想查询《富春山居图》原图图像时,RDF的建模可表达为:
经上述,仿制或伪造的《富春山居图》数据不应该出现在用户的终端检索界面上。RDF可提高核心约束机制定义图像之间的关系;XML关心图像结构,与RDF互为描述上的补充关系,RDF通过XML语法化来描述RDF的语法功能。从20世纪40年代的机器翻译到现今的机器学习,自然语言的处理方法经历了词义分析、词素抽取、分类标引和机器算法等自然语言处理技术的阶段性过程。
图3是以检索《富春山居图》为例的跨媒体语义特征提取标签模型。
图3 跨媒体语义特征提取标签模型
通过模型可以发现,图像文本种类以百目单位记忆,由用户提交的描述对其先验特征融合度进行扫描,分配给不同类型的映射层。在形态特征等多模语义描述析出关联度,对图像“单元数据分布回应点”的进行智能排列,语义描述进一步改变结构走势,图像的特征值有孩子(父节点的孩子;形体、颜色、纹理、空间等关系特征的数据树也有孩子节点)的变换形态排序,跨媒体返回式节点应答聚焦了正确的相关点,推离不相关点,低层数据资源层的语义分布矩阵的集合组织方法可提高查准率。图像之间有高度的特征相似度和形态概念,图像分割模块区域虽近似,但有其语法可寻,可扩展语义标注提高了识别图像的算法。如:语义标引“淡墨过渡”“前密后疏”标准化专业术语,不具备此特征的图像不能映射,亦不能进入用户检索反馈结果,只能作为后期的视觉分组训练学习。特征要素正确的图像克服遮影、光亮、角度等影响问题后又与原图匹配,传送准确的图像,无关特征图像或伪图像不在检索界面出现。
通过上述的跨媒体图像检索新组织方法实验,发现在图像检索领域仍有十分广大的研究和发展空间。基于语义描述的图像检索从用户的角度提出更为精密的学习算法、特征模型的演算和语义特征提取等技术,旨在达到精准检索。在数据挖掘和推送服务方面,主要在以下三方面提升优化。① 图像检索进入到社会公共事务(如医学、生物、生命科学、城市环境)等学科领域,以语义匹配和特征推离作为识别该领域图形图像数据处理的新途径。② 对图像数据的结构化组织分析,在融合、改良、排序上要有本体上的训练过程。适度引入人机交互的反馈评价机制,实现个性化图像数据定制服务。③ 继续对“数字图书馆”数字图像文献开展持续性研究。跨媒体图像检索可应用于数字图书馆图像馆藏及互联网资源库的检索服务,并积累元数据和数据源的同步性,实现图像数据上的精准组织推送功能和智能索引分析学习,使图像媒体具有多模认知智能。