基于BP神经网络的风景图像分类

2012-05-27 02:51谢文兰
关键词:查全率特征向量风景

谢文兰

(广东培正学院 计算机科学与工程系,广州 510830)

目前人们主要是根据图像的含义来判断图像是否符合自己的需要,这些图像的含义即是图像的高层语义.如何跨越底层视觉特征和高层语义特征的鸿沟是语义图像检索中一个难点.现实的图像类别多种多样,有的还同时属于几类语义图像.为了解决这一问题,本文采用多输出BP神经网络对自然图像进行多种语义分类,对低层特征的选取做了实验和比较,提出一种新的颜色提取方法.并且对如何选取图像的语义阈值也做了实验和比较,通过实验发现,当阈值的选取范围在[0.55,0.65]时,检索的查全率和准确率能达到一个比较好的平衡效果.

1 底层视觉特征的提取

1.1 新的颜色特征的提取

本文[1]是对风景图像进行语义分类检索.而风景图像都具有比较明显的颜色,根据风景图像的这一特点,本文提出了一种新的提取颜色特征的方法.只对风景图像的八种主要颜色进行提取,也就是对图像的八种颜色进行聚类.这八种颜色分别为黑色、白色、红色、黄色、绿色、青色、蓝色和紫/品红色.

(1)在RGB空间中提取颜色特征向量

在RGB空间中,这八种颜色分别对应RGB模型的八个端点[2].图像中每个像素点p的值r、g、b都处在这个空间中,根据下列公式分别计算p到8种颜色的距离,根据最短距离原则把像素归到相应的颜色中去.

图像中的每个像素点对应成这八种颜色中的一种.黑色c1、白色c2、红色c3、黄色c4、绿色c5、青色c6、蓝色c7、紫色c8.

本文用向量{c1/c,c2/c,…,c8/c}也就是这八种颜色在图像中所占的比例作为风景图像的颜色特征向量,其中c为相应区域中总的像素点的个数.

(2)在HSV空间中提取颜色特征向量

首先将每一个RGB空间像素的值R、G、B,转换成HSV空间中的H、S、V.在HSV空间中,我们根据HSV颜色模型做如下的特须处理,当V<0.2时,颜色为黑色c,当S<0.15时,且V>0.8时,对应颜色为白色c2.在其它情况,按照下列公式把色调H空间分成6份,分别代表红c3、黄c4、绿c5、青c6、蓝c7、紫色c8.

这样在HSV空间,也得到一组8维颜色向量{c1/c,c2/c,…,c8/c}.

在RGB和HSV空间提取了颜色向量后,再取平均值.

1.2 与目前最常用颜色提取方法(颜色直方图)的比较

图5给出了目前最常用的颜色方法对颜色特征进行提取(64维颜色直方图)[3].从图4和图5我们可以看出,图4中所代表的两组颜色向量之间具有更大的相似性,而且更好的体现了风景图像的颜色特点.本文提出的新方法不仅降低了颜色特征向量的维数,减少了计算量,节省了时间,而且在描述了风景图像的颜色内容上更加准确.

本文对图像进行均匀分割成5个区域,再对每个小区域分别提取主要颜色、灰度共生矩阵,以及对整个图片提取形状特征向量(七个不变矩).这样一共得到一组87维的向量(其中颜色特征向量40维,纹理特征向量40维,形状特征向量7维).

2 底层视觉特征到高层语义的映射

本文用BP神经网络实现底层特征到高层语义的映射[4].建立一个有87个输入节点(每个节点对应低层特征向量中的一个值),5个输出节点(每个节点对应一个语义类)的三层多输出神经网络.其中,初学习率为0.1,动量因子为0.9,隐层节点数为20.最大迭代次数(次)为10万次.

每个语义类都选用30张图片作为训练样本来训练网络,共有150张训练图片.对于每一张训练图片都分为相关、一般相关和不相关.当图片与某类相关时,说明图片只与该类有关,与其它类无关,则该类相对应的输出期望值为0.9,其它类的输出期望期为0.1.当图片与某类语义一般相关时,图片不仅与该类有关,还和其它的类有关,凡是与之相关的类对应的输出期望值为0.7,其它为0.1.当图片与某类不相关时,该类输出值为0.1.假如图片同时属于蓝天和花卉这两个语义时,则该相应的网络期望输出值为[0.7,0.1,0.1,0.7,0.1].神经网络输入向量Xk[xk1,xk2,…,xk8],(k=1,2,…,N)(图像的底层特征向量),N为训练样本的个数,期望输出向量为Tk=[tk1,tk2,tk3,tk4,tk5],(k=1,2,…,N).

通过训练,得到一个已经训练好的BP神经网络,可以对图像同时进行5种语义(蓝天、日落/日出、山、绿水、花卉)的分类.每幅图像都能得到5个输出结果,而每个输出结果分别代表图像与该类语义的相关程度.在这里,要做的工作是如何选定阈值,阈值的选取直接关系到检索效果的好坏,一般说来,阈值越低,查全率越高,准确率越低.阈值越高,查全率越低,准确率越高.所以选取合适的阈值十分重要.通过实验得出,阈值设定在[0.55,0.65]这个区间,查全率和准确率能达到一个比较好的平衡效果.一般来说,如果只要求检索出与某一类语义相关的图像,阈值可以稍微取高点.如果要求检索出与多类语义相关的图像,阈值可以稍微取低点.图6给出了日落/日出的阈值与查全率/准确率的关系.

图6 日落/日出的阈值与查全率/准确率的关系图

3 实验分析

本文是对corel图像库中的1000多张图片进行语义分类.在本文中,对每个语义的单独图像检索如图7、图8所示,取的阈值都是0.6.如果要检索出多个语义组合的图像,每类语义为0.55.表一给出了本文方法与SVM方法[5]的比较结果.

4 结束语

本文建立了一个语义图像检索模型,利用BP神经网络完成了图像的底层视觉特征与高层语义特征之间的映射.同时本文还提出了一种新的颜色提取方法,不仅降低了颜色特征向量的维数,减少了计算量,节省了时间,而且在描述了风景图像的颜色内容上更加准确.通过实验确定阈值设定在[0.55,0.65]这个区间.实验表明,该方法取得了较好的效果.由于图像语义检索技术本身涉及到计算机视觉、模式识别、图像分析等多个研究领域.因此,还有很多问题需要解决和进一步完善.

[1]谢文兰.基于BP神经网络的语义风景图像检索技术的研究[D].湖南:湘潭大学硕士学位论文,2009.

[2]周明全,耿国华,韦 娜.基于内容图像检索技术[M].北京:清华大学出版社,2007.

[3]章毓晋.基于内容的视觉信息检索[M].北京:科学出版社,2003:58-69.

[4]高 隽.人工神经网络原理及仿真实例[M].北京:机械工业出版社,2003:44-55.

[5]韩晓微,晏 磊,原忠虎,范立南.基于BP神经网络的颜色模糊量化方法[J].系统仿真学报,2006,18(10):3007-3010.

猜你喜欢
查全率特征向量风景
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
海量图书馆档案信息的快速检索方法
眺望心中最美的风景
一类特殊矩阵特征向量的求法
基于词嵌入语义的精准检索式构建方法
不可错过的绝美风景
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
随手一画就是风景
随手一弄就是风景