刘义红
摘要:该论文利用人类视觉记忆的工作机制和机理,提出一种基于视觉记忆的图像特征提取和语义标注方法,旨在解决图像特征提取和标注问题。这种方法首先利用图像分割技术提取图像目标区域特征,再运用隐马尔可夫模型在图像区域特征与标注词、标注词与标注词之间建立联系,现实图像的自动标注。最后,在真实数据集上仿真实验,结果表明该模型有效。
关键词:视觉记忆;特征提取;语义标注;HMM
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)15-0176-04
An Image Feature Extracting and Semantic Tagging Method Based on Visual Memory
LIU Yi-hong
(College of Computer, Huainan Normal University, Huainan 232038, China)
Abstract: This paper proposes an image feature extracting and semantic tagging method by using the working mechanism of human visual memory. It aims at solving the problems in image feature extracting and semantic tagging. The method first uses the image segmentation technique to extract the image features of the target area, and then uses Hidden Markov Model to establish the relations between the features of image area and tagged words and between the tagged words themselves, and thus automatic tagging of the images is achieved. Finally, the simulation experiment on real data set shows that the model is simple and effective and can do semantic tagging automatically.
Key words: visual memory; feature extraction; semantic tagging; HMM
1 引言
隨着计算机云存储技术和智能终端技术的飞速发展,越来越多的用户喜欢将自己日常生活、学习过程中产生的数据分享到个人空间或保存到云端服务器上,其中很大一部分是图像、视频、音频等多媒体数据,而且数据正呈指数级增长。若干年后,如何从这些海量数据中检索出用户重要的记忆信息,辅助用户回忆,是一个非常有意义的课题。为解决个人云存储中图像的特征提取和标注问题,本文提出一种基于视觉记忆的图像特征提取和语义标注方法。试图通过人类视觉记忆的工作机制和机理,建立图像低层视觉特征与高层语义,以及高层语义与语义之间存在的关联,来图理解像语义,从而实现图像语义自动标注。该方法首先利用图像分割技术将图像的目标区域分割出来,建立目标区域特征与标注词之间关联;其次利用标注词之间的共生关系,建立标注词与标注词之间的联系;然后运用隐马尔可夫模型(Hidden Markov Model,HMM)完成图像标注工作。最后,在数据集上进行仿真实验,结果显示该模型有效,能够较好地进行图像语义自动标注。
2 视觉记忆过程
视觉记忆是人脑对视觉特征编码、存储和检索的处理过程,是视觉系统中一种重要工作机制。心理学界普遍认为,人类的视觉记忆系统是由于感觉记忆、短时记忆和长时记忆三部分组成。文献[1]给出了视觉记忆信息加工模型(图1)。
根据该模型,外部信息对人的视觉器官刺激后,形成视觉痕迹首先进入到感觉记忆,感觉记忆包含的信息量大,保持时间非常短暂,很快就会消失,通常只有数秒,而且很容易被掩盖或转移。短时记忆是从感觉记忆中提取出来的非常有限的视觉特征,这些特征如果遇到与认知活动相关或具有特定的刺激就会受到注意,并重新编码进入到一个容量有限、保持时间略长旳短时记忆系统中。短时记忆通常不受新信息加工处理的干扰,它若在没有复述刺激的情况下,保持很短一段时间后就会丧失。但是若通过加工整合性的复述,便会进入到长时记忆中。长时记忆是人记住一个先前见过的、但又不在头脑中持续激活的形象能力[2]。长时记忆是一个真正的信息库,它有相当大的存储容量和很高的信息保持能力,进入长时记忆储存中的信息,相对而言是持久的、可呈现的。但是,当它们被干扰或强度削弱时,又会转入到短时记忆。
具体而言,视觉记忆的形成分视觉特征编码、存储和检索三个步骤完成。即视觉记忆系统首先通过人的眼睛采集视觉信息,其次,从这些视觉信息中提取并保存感兴趣的目标特征,再次,将这些目标特征转换为高层语义信息,构成语义信息库。当人的视觉系统再次遇到类似目标时,则从视觉记忆中联想出相应的语义,从而对该目标进行判断和检索,进而可以实现未知目标的语义标注。
综上所述,本文正是基于视觉记忆的工作机制和机理,将视觉记忆系统引入到图像处理中,模拟视觉记忆的过程,实现图像的特征提取和语义标注。
3 基于视觉记忆的图像语义标注模型
3.1 模型
本文描述的基于视觉记忆的图像语义标注模型框架如图2所示。它分为两个阶段:第一个阶段为图像特征提取过程,它利用文献3中图像分割算法,获得图像不同目标区域特征,再建立图像区域特征与标注词之间的关联,并存入特征、语义库。第二个阶段为图像自动标注过程,它通过语义标注器,得到图像初始标注词,再根据标注词之间的共生关系获得联想语义,最终完成图像标注,并存入特征、语义库。
3.2 特征提取
我们采用文献3算法对图像进行进分割,获得图像不同目标区域,再利用图像的颜色矩和区域不变矩等特性来提取图像目标区域的底层视觉特征。
3.2.1颜色矩
颜色矩是由Stricker和Orengo[4,5]所提出的,用数学计算来描述颜色特征,提取颜色的低阶矩能很好地表达颜色信息的分布。这里,我们通过计算一、二、三阶矩,最终获得9个分量(RGB,3个颜色分量,每个分量3个阶矩)的图像颜色特征值。其计算公式如下:
[μi=1Nj=1Ncij] (1)
[σi=1Nj=1N(cij-μi)212] (2)
[δi=1Nj=1N(cij-μi)313] (3)
其中,[cij]表示第j个象素的第i个颜色分量,N表示象素总数。
3.2.2区域不变矩
区域形状[6,7]用七阶不变矩描述,它具有良好的尺度、平移和旋转不变等特性。这里,我们通过计算图像区域形状的七阶不变矩,获得7个分量的图像区域形状特征值。
假设一幅图像用函数[f(x,y)]表示,若[f(x,y)]分段连续且在[xy]平面上的不全为零,则[f(x,y)]的各阶矩存在。下面给出[j+k]阶矩和中心矩计算公式。
3.3 语义标注方法
假如把一幅图像的目标区域特征集
3.3.1
定义6:(前向概率)给定隐马尔可夫模型
3.3.2 语义标注算法
语义标注算法的思路是,给定一个测试图像的区域特征序列(观测序列),得到对应的标注序列(隐状态序列),使该标注序列出现后验概率最大。具体而言,就是求
4 实验分析
硬件环境:AMD A8-5600K 3.6GHz;内存16G。
软件环境:操作系统Windows7,Matlab7.0。
实验使用的图像来源Corel图像库、Web搜索图像、自己拍摄图像,共1500张,图像像素均设为100 ×75大小,每幅图像含有标注词1至3个,标注词总数32个。采用五折交叉验证的方法,将1500张图像随机分成五份,依次选择一份作为测试图像,剩余四份作为训练图像,分别进行独立实验,最后取五次实验的均值。
本文采用准确率和查全率来衡量图像标注的性能。准确率是指标注词全部标注正确的样本数与测试样本总数之比,查全率是指标注词全部标注正确的样本数与至少有一个标注词标注正确的样本数之比。它们分别定义为:
式(16)(17)中,P表示准确率,R表示查全率,T表示标注词全部标注正确样本数,N表示测试样本总数,M表示至少有一个标注词标注正确的样本数。
实验时,为了提高HMM模型参数λ的学习效率,我们通过计算图像特征对应的标注词概率分布来初始化λ(Π0,A0,B0)。图3给出了5张图像标注的实验结果示例,表明该方法能够有效地进行图像自动标注。表1展示了与经典图像标注算法CMRM[8],CRM[9],MBRM[10],GMM[11]在32个标注词上的对比实验结果,结果表明本文图像标注方法的准确率和查全率均优于其他算法,同时,也验证了该方法具有较好的标注效果。
5 总结
通过对人类视觉记忆的工作机制和机理研究,本文提出了一种基于视觉记忆的图像特征提取和语义标注方法,它既能够较好地描述图像低层视觉特征和高层语义之间的联系,又融合了高层语义之间的内在联系,具有较好的图像语义自动标注效果。模型首先利用图像分割技术将图像目标区域分割出来,建立目标区域与标注词之间关联,再利用标注词之间的共生关系,建立标注词与标注词之间的联系,然后运用隐马尔可夫模型实现图像自动标注工作。最后,在真实数据集上仿真实验,并与其他经典标注方法进行对比实验,展示该模型的有效性。
参考文献:
[1] Atkinson R.C.,Shiffrin R.M. Human memory: A proposed system and its control processes[J] . The psychology of learning and motivation, 1968(2):89-195.
[2] Brady T.F.,Konkle T. A review of visual memory capacity: Beyond individual items and toward structured representations[J]. Journal of Vision, 2011,11(5), 1-34.
[3] 劉义红.一种改进的K-means聚类自然图像分割算法设计与实现[J].淮南师范学院学报, 2018,20(108):11-15.
[4] 韩丁,武佩.基于颜色矩的典型草原牧草特征提取与图像识别[J].农业工程学报, 2016, 32(23):168-173.
[5] 基于颜色矩的改进尺度不变特征变换的移动机器人定位算法[J].计量学报,2016,37(2):118-122.
[6] Mehtre B M,Kankanhalli M S,Lee W.F. Shape measures forcontent based image retrieval:a comparison[J].Information Processing & Management,1997,33(3):319-337.
[7] 李冰.颜色纹理形状特征分层融合图像检索方法研究[J].西南师范大学学报(自然科学版),2017,42(1):54-59.
[8] Jeon, Lavrenko V ,R. Automatic Image Annotation and Retrieval using Cross-Media Relevance Models[C].Proceedings of the 26th Annual international ACM SIGIR Conference on Research and Development in information Retrieval,Toronto,Canada,2003,119-126.
[9] Lavrenko V,Manmatha R,Jeon J. A Model for Learning the Semantics of Pictures[J].Nips, 2004: 553-560.
[10] Feng S. L., Manmatha R., Lavrenko V. Multiple Bernoulli relevance models for image and video annotation[C]. Computer Vision and Pattern Recognition, Proceedings of the 2004 IEEE Computer Society Conference on. IEEE,2010:1002-1009.
[11] Li J.F., Shi J.H., Zhang H.Z., et al. Tongue Image Texture Segmentation Based on Gabor Filter Plus Normalized Cut[M] //Medical Biometrics. Springer Berlin Heidelberg,2010.