教学资源平台中的图像检索策略研究

2018-06-22 08:25◆姜
网络安全技术与应用 2018年6期
关键词:特征提取教育资源集群

◆姜 雪



教学资源平台中的图像检索策略研究

◆姜 雪

(东北师范大学信息科学与技术学院 吉林 130000)

为了解决教育资源平台中海量图片、视频、Flash动画等资源的检索问题,本文提出一种结合Hadoop技术和基于内容的图像检索技术的教学图像检索方法。利用MapReduce并行化编程模型,提取图像颜色、纹理、形状三种底层视觉特征,实现图像资源的检索。实验表明,使用多特征综合描述图像资源的效果优于单一特征。在处理大规模图像检索时,与单节点相比,集群环境能够有效地减少特征提取和检索的时间,提高检索速度。

Hadoop;MapReduce;基于内容图像检索技术;教育图像检索;教育资源平台

0 引言

近年来,随着网络技术和多媒体技术的快速发展,其在教育领域的应用逐步深入,成为了现代化教育发展的强大动力。教学资源平台作为现代教育技术的重要组成部分,包含了多种类型的数字化资源,如文本、图像、音频、视频等。其为广大师生提供了知识获取、交流的平台,在教学过程中发挥着不可替代的作用。尤其是云计算技术的出现,有效地解决了教学资源分配不均衡、难以共享、海量数据存储以及数据安全等问题[1]。现阶段,教育资源平台的推进过程中还存在一些问题,尤其是海量资源的检索问题。

目前,基于内容的图像技术是图像、视频检索领域的主流方法。该技术根据媒体内容提取信息,解决了基于文本的图像检索过程中人工标引工作不充分、具有主观性、费时费力等问题,被广泛应用于国防安全、医学图像管理、卫星遥感图像、地理信息系统、电子商务等领域[2]。

本文结合云计算平台Hadoop的海量存储能力和并行计算能力,探究基于内容的图像检索技术在教育资源平台建设中的应用。旨在解决教育工作者使用资源平台检索图像时面临的问题。由于视频中的每一帧都可以视为一张图片,因此还可以通过提取视频、Flash动画中的关键帧信息形成图像集合,与师生提供图像信息进行对比,实现视频、动画等资源的检索[2]。

1 相关背景

1.1基于内容的图像检索(Content-Based Image Retrieval, CBIR)

基于内容的图像检索技术是20世纪90年代被研究者提出,解决了早期基于文本的图像检索技术(Text-Based Image Retrieval, TBIR)存在的需要人工标注关键词以及检索精度受关键词质量影响等问题[3]。其基本思路是根据图像本身的物理内容,由计算机自动提取出视觉特征,形成描述图像的特征空间;查询图像时,通过特征空间进行相似度计算,返回与检索图像在视觉内容上最为相似的若干副图像。面对日益增长的图像数据,CBIR技术区别于TBIR技术,存在以下特点[4]:

(1)检索以图像底层特征为依据。通过分析、提取图像的视觉特征。例如颜色、纹理、形状等, 或将多种特征进行融合,形成表示图像的综合特征向量。

(2)以特征向量的相似度为度量准则。CBIR系统的目标是找出与查询图像视觉相似的图像,并不要求准确匹配。因此,即使用户提供的查询内容本身是不准确、不完全的,系统也能够按照图像间的相似性返回可能满足要求的图像集合。

(3)海量图像数据的快速检索。特征提取过程由计算机完成,替代了关键词检索的人工标引工作,检索结果不再受人工标引主观性的影响,检索过程更高效,适应性更强。

1.2 Hadoop云计算平台

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台[5],能够为用户提供可靠、可扩展的、高效、高容错性的分布式基础架构,简化了集群环境的搭建工作。其核心包括Hadoop分布式文件系统(HDFS)和MapReduce并行化编程模型,分别负责大规模数据存储和处理的工作。

HDFS 是一个可以运行在普通硬件集群上的分布式文件系统,可存储超大文件并使用流对文件进行高速读写。该文件系统是一个主从结构,包含一个NameNode和多个DataNode。NameNode作为主服务器,是集群环境的调度中心,负责存放系统元数据以及处理客户端读写访问的工作。集群中的多个DataNode节点则用于存放文件数据。当文件进行存储时,文件会被分割成若干个数据块,被存放在集群中的各个DataNode节点,进而保证了数据的高可用。

MapReduce是一个可用于大数据处理的分布式计算框架,主要用于解决海量离线数据的计算问题。其基本思想是“分而治之,迭代汇总”。把一个大的任务拆解成多个子任务,并根据一定的分配策略将子任务分发到集群中的机器节点上运行,结果返回后再进行合并处理,从而实现Hadoop的并行任务处理功能。

2 CBIR在教学资源平台的应用现状

教育部在《教育信息化十年发展规划(2011-2020年)》中提出了建立国家教育云服务模式的目标[6]:充分整合现有资源,采用云计算技术,形成资源配置与服务的集约化发展途径,构建稳定可靠、低成本的国家教育云服务模式。经过几年的不懈努力,目前全国、各省都已基本完成教学资源平台的建设工作,真正实现了教育资源共建和共享。教育资源平台在教学过程中也发挥着越来越重要的作用。在教育资源平台的应用中,还存在一些问题,如资源建设没有遵循标准规范、资源审核、管理方面不健全等[7]。其中,随着资源数量的飞速增长,如何在海量资源中快速准确地检索到所需的资源,成为了师生目前面临的首要问题,也是教育资源平台推进过程中亟待解决的难题。

在国家教育资源公共服务平台、国家精品课程资源网等建设较为完备的平台中,图像资源的检索均使用基于文本的方式。通过资源名称或关键词与待查询关键词进行精准匹配,最终将包含资源关键词的图像集合进行展示。该方法虽然技术成熟、应用广泛,但由于目前资源的命名没有统一标准,对于同一张图像,尤其当图像中包含多个目标时,人们对图像内容的理解也不尽相同,导致一些相似资源无法被查询。此外,有些资源平台还提供了目录树形式管理资源。师生通过定位学年-学科-教材-章节的方式上传或检索资源,虽然在一定程度上解决了基于文本检索不准确、不全面的问题,但这种方式不但增加了教师管理资源的工作量,还阻断了学科、章节之间资源的互通性,检索常常无法满足师生的需求。虽然基于内容的图像检索技术还未能在教育资源平台中发挥重要作用,但已有一些学者对此问题进行研究探讨,为CBIR技术在教育领域的应用奠定了理论基础。

柳青、魏春燕[8]从图像的形状特征出发,使用Hu不变矩算法,设计了教育图像检索系统。针对苹果、蝙蝠等5类较为简单图像进行实验,取得了较好的检索效果。周勇[9]结合基于内容图像检索技术的原理与特点,探讨该技术在教学资源库中的应用。针对基于文本标引的图像检索方法更新慢,检索结果不全面以及基于图像底层特征检索无法解决“语义鸿沟”的问题,提出了综合文本标引和图像内容的检索方法。两种检索方法优势互补,有效提高了检索准确率。韩立华,王学军,王晓芬[10]使用分块直方图法,Gabor小波变换法,不变矩法描述了图像颜色、纹理、形状特征。使用多特征融合方法进行图像初次检索,然后利用基于SVM的相关反馈技术进行多次检索。通过实验表明,与单一特征相比,多特征融合方法能够更加准确地描述图像内容,提高检索效果。在此基础上,相关反馈技术的加入使检索更接近用户的检索意图。该方法有效地提高了教育资源中图像检索的查准率。

由此可见,目前基于内容的图像检索技术在教育资源平台的应用仍然处于理论研究阶段。随着云计算技术的飞速发展以及其在教育领域的应用逐步深入,教育资源快速增长,基于单一服务器节点的图像检索技术不再适用于海量数据的处理,无法应用在当今的教育资源平台中。因此结合Hadoop和CBIR技术处理图像资源是完善教育资源平台检索功能的新策略。

3 结合Hadoop 和CBIR的图像检索

3.1 CBIR系统框架

一个完善的CBIR系统,需要包含特征提取、图片检索、用户相关反馈三个重要模块。由于图像规模大,图像特征向量维数高等原因,特征提取过程和图像检索过程计算量庞大,耗费时间长,这也是图像检索效率低的一个重要原因。因此本文借助Hadoop平台的并行化计算模型MapReduce,提出了可应用于教育资源平台的图像检索方案。结合Hadoop和CBIR的图像检索系统框架如图1所示。

图1 Hadoop和CBIR的图像检索系统框架

在特征提取阶段,系统调用MapReduce作业,将存储于HDFS中的海量图像资源进行处理。分别提取颜色、纹理、形状三种底层特征,形成表示图像的特征向量和索引文件。在检索阶段,用户提交待查询图片后,系统使用相同特征提取算法得到待查询图片的特征向量,调用MapReduce作业实现特征向量间相似度计算的并行化。

3.2图像特征提取

本文借助LIRe (Lucene Image Retrieval )[11]图像检索框架,使用颜色自相关图算法、Tamura算法提取图像的颜色,纹理特征。并且考虑到形状特征与颜色、纹理特征相比,更接近于目标的语义特征,在人们对图像理解中起到重要作用。因此本文对LIRe框架进行扩展,使用Hu不变矩对图像进行形状特征的提取。该算法提取的特征值在图像的缩放、平移和旋转的情况下具有不变性[12]。

为缩短图像特征提取的时间,本文使用MapReduce并行编程模型将任务分发至集群中的各个节点运行,实现了特征提取的并行化。基本流程如下:

(1)将图像上传至分布式文件系统HDFS,使用图像路径作为图像的唯一标识imageId;

(2)在Map阶段,读取HDFS中的图像作为Map函数的输入。分别提取颜色、纹理、形状的三种特征值,并将三种特征融合,形成综合特征向量imageFeature,以键值对的形式输出;

(3)在Reduce阶段,收集所有图像特征,建立索引文件;

(4)将索引文件存储在HDFS中。

其中Map函数和Reduce函数的定义如图2、3所示。

图2 特征提取Map函数定义

图3 特征提取Reduce函数定义

3.3图像检索

为缩短检索时间,在检索阶段同样基于MapReduce中 Map函数和 Reduce 函数实现检索的并行化,具体流程如下:

(1)提交待查询图像到HDFS中,提取其综合特征;

(2)Map 阶段,比较待查询图像的综合特征和索引文件中存储的综合特征,结合三种特征的权重,计算特征之间相似性。并以<相似度,imageId>的键值对形式输出;

(3)Reduce 阶段,对 Map 阶段输出结果进行收集,按照相似度从高到底进行排序,并将查询结果写入 HDFS;

(4)根据用户需求,返回与待检索图像最为相似的前M幅图像。

在该阶段,本文使用加权的相似度计算方法。将颜色、纹理和形状三种特征的相似度融合,形成综合相似度计算公式:

Sim = wc*Simc+ wt*Simt+ ws*Sims(1)

公式(1)中,wC表示颜色特征相似性权重值,wt表示纹理特征相似性权重值,wS表示形状特征相似性权重值,且wC+ wt+ wS= 1。

随着教育图像越来越丰富,人们很难界定哪种特征在描述教育图像时最为合适。但通过多特征融合和加权相似度计算方法,师生就可以结合个人检索需求和图像特点,可选择地增大或降低某一特征对相似度的影响,检索出更满意的图像。

4 实验及结果分析

4.1实验环境

实验使用的Hadoop集群环境由4台计算机组成:一个master节点,三个slave节点。集群运行使用的Hadoop版本为2.7.0,JDK版本为1.8.0。计算机的硬件配置如下:双核CPU,8GB内存,200GB硬盘容量。

4.2检索性能评价标准

本文使用在检索领域应用最广泛、有效的评价标准:查准率(P)和查全率(R),衡量系统检索算法的性能。

其中,N表示检索相关图像个数,M表示检索结果总数,S表示相关图像总数。

此外,检索耗时也是评价系统性能的重要指标。一般来说,图像的特征向量越复杂,检索效果就越好,相应的检索时间就长。检索时间和准确率是相互制约的。因此本文通过查准率和查全率衡量检索的正确性,通过单节点和分布式环境下检索时间的对比,验证并行化检索的效果。

4.3实验结果

本文使用Corel 图像库作为测试数据集进行实验。从中选取10类图像,共1000幅进行检索正确性的检验。在每一类图像中随机选取5张作为待检索图像进行实验,取最为相似的30张图像作为检索结果。计算5次检索的平均查准率和查全率,最终的实验结果如表1所示。

由实验数据可得,对于同类图像,以单一特征进行检索时,各个特征表现出的检索效果不同。例如,对于建筑类图像,颜色自相关图算法的效果要明显优于Tamura算法。同时,多特征融合的方法在选取适当的权值分配情况下,在一定程度上提高了检索的准确率。因此在教学资源平台中,使用单一特征提取算法进行检索是不能保证结果正确性的。而多特征融合的方法,用户可依据自身对图像的理解分配特征权值,检索效果更佳。

此外,本实验使用了不同规模的数据集对系统性能进行测试。将在单节点图像检索耗时与集群环境下的检索耗时进行对比,实验结果如图4所示。

当数据量较少时,使用单节点进行图像检索的速度要快于Hadoop集群环境中的检索。其原因主要是Hadoop集群进行任务分配调度工作需要耗费一定时间。随着数据量的增长,Hadoop集群的海量数据处理能力得以发挥,与单节点相比,检索速度有明显的提升。

5 结束语

本文结合Hadoop平台和CBIR技术,提出了一种适用于当今教育资源平台的图像检索方法。利用 Hadoop 的MapReduce模型将任务分配到集群的各个节点执行,提取图像颜色、纹理、形状特征,进行特征向量的相似度计算,最终将查询结果记录在HDFS中,并将图像返给用户。实验结果证明,该方法有效提高了海量图像检索的准确性以及检索效率。将其应用于教学资源平台中,能够丰富云计算技术在教育领域的应用,优化平台检索功能,为师生提供更加便捷、完善的服务。

图4 单机环境和集群环境检索时间

[1]王凤领.云计算环境下的高校数字化教育资源共享模式研究[J].工业和信息化教育,2014.

[2]陆文婷.图像检索中的特征表示模型和多信息源融合方式的研究[D].北京: 北京邮电大学,2012.

[3]徐曼,韦志辉.基于内容的图像检索技术[J].计算机应用, 2001.

[4]杨树刚.基于内容的图像检索算法的研究与实现[D].辽宁:大连交通大学,2008.

[5]刘刚,侯宾,翟周伟.Hadoop开源云计算平台[M].北京: 北京邮电大学出版社,2011.

[6]余胜泉.推进技术与教育的双向融合---《教育信息化十年发展规划(2011-2020年)》解读[J].中国电化教育,2012.

[7]杨光.教育资源平台建设中存在的主要问题研究[J].求知导刊,2017.

[8]柳青,魏春燕.基于形状的图像检索系统及其在教育中的应用[J].中国现代教育装备,2007.

[9]周勇,陈林海,黄水清.基于内容图像检索技术在教学资源平台中的应用[J].现代教育技术,2011.

[10]韩立华,王学军,王晓芬.多特征融合及SVM相关反馈技术在教育资源图像检索中的应用[J].河北科技大学学报,2010.

[11]Lux M, Chatzichristofis S A. Lire: lucene image retrieval:an extensible java CBIR library[C]// ACM International Conference on Multimedia. ACM,2008.

[12]黄勇,王崇骏,王亮等.基于形状不变矩的图像检索算法的研究[J].计算机应用研究,2004.

[13]郭斌.对教学资源平台建设的思考[J].宁夏教育科研,2011.

[14]朱为盛,王鹏.基于Hadoop云计算平台的大规模图像检索方案[J].计算机应用,2014.

[15]王梅,朱信忠,赵建民等.基于Hadoop的海量图像检索系统[J].计算机技术与发展,2013.

[16]谭台哲, 向云鹏.Hadoop平台下海量图像处理实现[J].计算机工程与设计,2017.

[17]张永库,李云峰,孙劲光.基于多特征融合的图像检索[J].计算机应用,2015.

猜你喜欢
特征提取教育资源集群
整合校外教育资源 做好青少年道德教育
海上小型无人机集群的反制装备需求与应对之策研究
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
Bagging RCSP脑电特征提取算法
勤快又呆萌的集群机器人
面向数字化教育资源的Flash到HTML5转换研究
自主学习视角下的开放教育资源文献综述(上)