许庆勇,江顺亮,黄 伟,李 菁,徐少平,叶发茂
(南昌大学a.经济管理学院,南昌330031;b.信息工程学院,南昌330031)
基于多特征融合的深度置信网络图像分类算法
许庆勇a,b,江顺亮b,黄 伟b,李 菁b,徐少平b,叶发茂b
(南昌大学a.经济管理学院,南昌330031;b.信息工程学院,南昌330031)
针对现有单一特征描述符及浅层结构分类算法分类正确率较低的问题,基于底层图像特征提出一种针对自然界图像特点的深度置信网络(DBN)图像分类算法。提取样本图像中的颜色、纹理和形状特征,构成多特征融合的权重矩阵,并对特征矩阵进行归一化处理,利用构建的4层DBN分类器进行训练和分类。采用Corel图库,通过训练权重进行测试,结果表明,该算法的平均分类正确率达到85.1%,高于使用单一特征的分类算法和其他主流分类算法。
深度置信网络;图像分类;特征提取;多特征融合;图像检索
随着数字技术、信息技术和多媒体技术的快速发展,数字图像已成为人们日常生活中不可缺少的一部分,而且图像的数量正以惊人的速度增长,面对越来越多的图像信息,图像分类与检索已成为研究的重点。一些学者发现传统的基于文本和标注的分类与检索方法存在一些缺点[1-2](费时、费力;数字图像的快速增加使得对全部图像做标注几乎变得不可能;标注者主观影响很大),这使得基于文本和标注的图像分类和检索的发展受到限制[3]。随后有大量的学者开始研究基于内容的图像分类与检索[4](Content based Image Retrieval,CBIR),该技术克服了人工标注的缺点,可以实现自动、智能化的分类、检索与管理[5]。图像分类问题目前的难点主要体现在两方面:(1)特征的选择和提取问题;(2)分类器的选择和学习问题。特征选择和提取是图像分类的基础。图像特征有2类,一类是底层视觉特征,包括颜色、形状和纹理特征、SIFT[6-7]特征等;另一类是中层语义特征,主要有语义特征、区域语义概念特征、BOW特征等。
深度置信网络(Deep Belief Network,DBN)具有较好的从像素级逐层抽取的图像特征,比较适合较小的图像,但对于较大的图像处理速度较慢。本文提出一种新的DBN图像分类算法,从原始图像中先提取一般的颜色、纹理和形状等特征,然后以这些特征作为原始数据进行深度置信网络训练。通过对颜色、纹理和形状多特征融合,解决单一特征及现有算法分类正确率不高的问题,采用4层DBN网络进行训练,以克服单一特征及支持向量机(Support Vector M achine,SVM)、Boosting[8]等浅层结构算法分类效果不佳的缺点,同时也避免出现从像素级进行直接训练速度较慢的现象。
在分类器方法,当前的多数分类学习算法多为浅层结构算法,包括常见的支持向量机(SVM)、Boosting和Logistic Regre-ssion[9]等。SVM应用的典型流程是首先提取出图像局部特征,并形成特征码,然后将每幅图像的局部特征所形成特征单词的直方图作为特征,最后通过SVM进行训练得到模型[10],其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约[11]。BP算法是传统训练多层网络的典型算法,而实际上对于仅包含几层的网络,该训练方法就已很不理想[12]。深度学习通过组合底层特征形成更加抽象的高层表示(属性类别或特征),以发现数据的分布式特征表示[13]。使用高维的图像描述符和线性分类器相结合的方法是目前较常用的图像分类方法。
文献[13]提出了基于贪心逐层非监督学习过程的深度置信网络(DBN)的概念。DBN是由多层受限波尔兹曼机(Restricted Boltzann M echines,RBM)组成的深层神经网络结构,解决了传统BP算法训练多层神经网络的难题。DBN作为一种深度学习网络,其本质上把学习结构看作一个网络,则深度学习的核心思路如下:(1)无监督学习用于每一层网络的预训练;(2)每次用无监督学习只训练一层,将其训练结果作为其高一层的输入;(3)用监督学习去调整所有层,也就是堆叠多个层,上一层的输出作为下一层的输入。通过这种方式,即可实现对输入信息的分级表达。深度置信网络训练可分成两阶段,第1阶段是无监督特征学习,第2阶段是有监督网络参数微调和分类。目前深度置信网络已成功应用于手写字体识别、语音识别等领域,取得了较好的效果。随后大量学者进行了相关研究,并对DBN算法进行了改进,如文献[11]提出数值属性的DBN,并在UCI的多个数据集上进行对比验证,证明其有效性[11]。文献[14]认为现有图像分类方法不能充分利用图像各单一特征之间的优势互补特性面,导致分类不精确,其采用主成分分析对所提取的特征进行变换,使用支持向量机的集成分类器进行分类,通过仿真实验表明多特征比单一特征具有更好的图像分类精度和更快的分类速度。
图像特征的提取和表达是图像分类技术的基础。一般来讲,基于内容图像检索的特征以视觉特征为主,主要包括颜色、纹理、形状特征3类。
3.1 颜色特征
颜色特征是基于内容图像检索中最重要、应用最广泛的视觉特征,主要是因为它提取简单,具有旋转不变性、尺度不变性、平移不变性等优点,而且对观测视角的变化也不太敏感。目前应用较多的颜色特征主要有颜色直方图、颜色矩(一阶矩、二阶矩及三阶矩)、颜色相关图、颜色信息熵等。这些特征可以在不同的颜色空间中进行提取(如RGB,HSV空间等)。
3.2 纹理特征
纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征[15],纹理特征包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系[16]。纹理特征在基于内容的图像分类中得到了广泛的应用,用户可以通过纹理特征相似性对图像进行分类。
图像分类中所常用的那些纹理特征,主要有Tamura纹理特征[17]、自回归纹理模型、方向性特征、小波变换和共生矩阵等形式。
3.3 形状特征
物体和区域的形状是图像分类和检索中的另一重要特征。它不同于颜色或纹理等底层特征,形状特征的表达以对图像中物体或区域的划分为基础。由于当前的技术无法做到准确而鲁棒的自动图像分割,图像分类中的形状特征只能同其他特征一起应用。另一方面,由于人们对物体形状的变换、旋转和缩放主观上不太敏感,合适的形状特征必须满足对变换、旋转和缩放无关,这对形状相似度的计算也带来了难度。
图像分类中所用的形状特征主要有Hu不变矩、边缘方向直方图、傅里叶描述符、Z矩、方向梯度直方图等。
深度学习通过组合底层特征形成更加抽象的高层表示或特征,以发现数据的分布的特征表示[18]。DBN是在深度架构上的推广,由RBM模型扩展而来。DBN是包含多个隐层(隐层数大于2)的概率生成模型,并且可以有效地表示、训练非线性数据。当前层从前一层的隐含单元捕获高度相关的关联,建立一个观察数据和标签之间的联合分布。DBN的核心思想是自底向上每一层受限波尔兹慢机对输入数据进行提取、抽象,尽可能保留重要信息[11]。
4.1 受限波尔兹曼机模型
RBM是一个无监督学习的能量模型,它包括显层(输入层)和隐层(输出层)2层结构,对称连接且无自反馈的随机神经网络模型,层间全连接,层内无连接。如果显示单元分成2类(只有0或1),RBM可用联合概率分布来表示。
RBM网络结构如图1所示,其中v为显层,用于表示观测数据,h为隐层,可看作一些特征提取器,W为2层间的连接权重。RBM的隐层单元和显层单元可以为任意的指数族单元(即给定隐层单元/显层单元,显层单元/隐层单元的分布可以为任意的指数族分布),如softmax单元、高斯单元、泊松单元等[19]。
图1 RBM网络结构
图1 中RBM网络结构有m个显层节点和n个隐层节点,其中每个显层节点只和n个隐层节点相关,和其他显层节点是独立的,就是这个显层节点的状态只受n个隐层节点的影响,同样对于每个隐层节点也只受n个显层节点的影响,这个特点使得RBM的训练变得容易了。2002年,Hinton提出了对比散度(Constrastive Divergence,CD)算法[20],之后对其又作了改进[21],并于2006年把CD算法引入了RBM模型中,解决了RBM模型中联合分布的期望很难获得精确值的问题,提高了训练的效果和效率。由于其方便、易用、灵活度高,RBM被广泛应用于特征提取、分类、降噪、降维等方面。
RBM模型由一个显层v和一个隐层组成。用户提交的检索信息经过转换后成为显层v,显层与隐层之间通过对称的权重层W相联系。RBM定义的能量函数为:
其中,θ={wmn,bm,cn}是RBM的参数,均为实数;wmn表示显层单元m与隐层单元之间n的连接权重;bm表示显层单元m的偏置;cn表示隐层单元n的偏置。当参数确定时,基于式(1)能量函数,可以得到v,h的联合概率分布:
其中,Z(θ)为归一化因子(也称配分函数):
对于观测数据v的概率分布P(v;θ)对应P(v,h;θ)的边缘分布,也称为似然函数。对应数据的边缘分布(联合分布)可定义为:
类似的,有:
4.2 深度置信网络模型
DBN在训练过程中所要学习的就是联合概率分布,而在机器学习领域中,联合概率所表示的意义就是对象的生成模型。2006年Hinton提出了DBN的模型,它是由多个RBM模型重叠在一起的结构和一个BP神经网络构成的深度结构,其训练过程主要包括2个方面:(1)利用RBM结构训练,筛选数据特征信息;(2)将各层RBM连接,在最后一层经网络,将RBM输出作为BP神经网络的输入,并利用数据进行监督训练,构成整个深度结构。DBN将原始输入进行逐层的特征提取,从具体到抽象,使得神经网络得到的输入成为一个更加易于分类的特征向量,同时,多层RBM组成的深度结构使得在特征提取过程中的错误或者冗余信息被逐层弱化,并最终在BP神经网络的反向调整过程中使模型达到整体最优。与传统神经网络相比,DBN深度结构的优势在于克服了传统神经网络在深度结构增加时训练时间长、易陷入局部最优、大数据处理慢的缺点。DBN可以认为是带有已训练初始权值的神经网络。已有工作证明了下面的3个规则:(1)顶层单元个数超过阈值,准确性在一定水平保持稳定;(2)层数增多,计算性能趋于下降;(3)RBM训练随着迭代次数增长,性能也相应提高[11]。
在一个由m个RBM组成的深度信任网络当中,第n(n<m)个RBM模型在第n-1个RBM模型训练后开始,P(hn;hn-1,w)的输入是来自于第n-1个RBM模型的输出P(hn-1;hn-2,wn-1)。同时,它的输出P(hn+1;hn,wn+1)就构成了第n+1个RBM模型的输入。文献[22]认为,有1个隐含层的典型的DBN,可视数据v和隐含向量h的关系可以用概率表示成如下形式:
5.1 多特征融合
对于复杂图像,一般来说一个特征是很难具有足够辨识度的。显然,多种特征可以提供较高的辨识度,辨识度越高,分类也就越容易。
一类图像的显著特征有些表现在局部特征点上,有些表现在颜色特征上,还有一些则表现在纹理特征上或是形状特征上。采用单一的特征对所有图像进行分类很容易造成一类场景图像的显著特征丢失从而降低分类精度。不仅如此,同一类场景的不同图像的显著特征也存在差异,如果只采用一种特征来对图像进行分类,也很容易丢失单幅图像的显著特征,造成分类精度降低。而多特征融合能够改善这种情况,进一步提高分类精度[23]。
针对彩色图像中复杂目标的特点,本文为每一幅图像提取颜色、纹理和形状3种类型的特征,包括9个颜色矩、6个tam ura特征、20个灰度共生矩阵、7个Hu不变矩、16个边向直方图,共48个特征。然后采用多特征融合的算法,在图像分类中进行特征组合,避免单一特征存在的问题,提高分类精度。
5.2 DBN分类器构建
DBN采用的是4个RBM组成的深层结构,其结构为48-90-90-90-10。第1层RBM将输入视为显层,共有48个结点,对应图像的48个特征,RBM的隐层(输出层)作为第2层RBM的显层(共90个节点);第2层RBM的隐层(输出层)作为第3层RBM的显层(共90个节点);第3层RBM的隐层(输出层)作为第4层的显层(共90个节点);第4层RBM的隐层(输出层)将是DBN的输出,它包括10个单元,即对图像分成10类。第4层加入sigma函数,作为最终结果输出层。
sigma函数的公式为:
DBN分类器结构如图2所示。
图2 DBN逐层预训练示意图
5.3 算法流程
本文采用Corel 1K数据库,随机选取其中90%作为训练集,剩余的10%作为测试集。算法流程如图3所示。
图3 图像分类流程
具体步骤如下:
(1)特征表达与融合:对每一幅图像提取颜色、纹理和形状3类特征信息,共48个特征,形成48维的特征向量,对1 000幅图像形成1 000×48的特征集。
(2)归一化处理:为了使之后的实验更加准确,保证各数据的尺度一致性,必须将特征向量进行归一化处理,归一化后的所有数据都在[0,1]之间,其归一化公式为:
(3)数据分类:从特征集中随机选择900个(90%)作为训练集,其余100个(10%)的作为测试集。
(4)训练过程:采用4层DBN结构进行训练。利用文献[24]对比散度的快速学习算法进行学习。
(5)测试过程:采用DBN训练过程得到的权重和偏置对测试集进行测试,根据RBM的分布进行一次Gibbs采样后所获取的样本与原数据的差异进行误差评估,得出分类结果。
为了验证以上算法,本文实验的软件仿真环境为在W in8.1下安装的M atlab2013a,电脑硬件配置为Intel(R)Core(TM)2 Duo E8400,3.0 GHz CPU,4 GB内存,320 GB硬盘。
6.1 实验数据
Corel图像库是常用的图像分类和图像检索的图库之一。它有2类,分别Corel 10K和Corel 1K。图像均是256×384像素或384×256像素的jpg图像。Corel 10K包括10 000张图像,共有100类图,每类图像有100张。Corel 1K共有10类图,每类图100张。
为了同文献[24-27]的结果进行比较,本文采用与其相同的图像库,即Corel 1K图库。这10类分别为花、马、恐龙、大象、建筑、海滩、公共汽车、人、食物、山。类别分别为1到10,每类图像100张,共1 000张图像,图4显示了这10类图,每类显示了一张。
图4 Corel图
6.2 数据分组
将整个图像库分成两部分,其中一部分作为训练集,另一部分作为测试集;训练集为样本总数的90%;测试集为样本的10%。分类的过程采用随机分类。随机分类结果如表1所示。
表1 随机分类结果
6.3 实验结果
每次选其中9组作为训练集,另外一组作为测试集,得到一组结果。进行10次,从而保证每一个样本都可以作为测试集进行实验。通过10次实验,得出10组实验正确率。
图5显示了10组实验中各组的分类正确率。
图5 各组分类正确率
从每组的分类正确率来看,第10组的正确率最后,为92%。第7组的正确率最低为79%,平均正确率为85.1%。
根据10次实验统计结果,计算出每一类图像的错误分类情况,具体如表2所示。表2中每一行代表一类图像(共100张)的分类情况,aij(i=1,2,…,10;j= 1,2,…,10)表明第i类图像分类时分成第j类的数量。第j列的总计表明1 000张图像中分类成第j类的数量(每类应该为100张)。最后一列表明对应此类图像的分类正确率。从表2可以看出,在10类图像中,每一类的分类正确率各不相同,其中恐龙一组分类正确率最高,为100%,全部分类正确。正确率低于80%的有“人”、“海滩”、“建筑”和“大象”4类。
表2 实验分类结果
图6显示了10类图像的误分率。误分率为错误分成本类的图像数量除以分成成本类图像的总数,例如,每一个“人”,错误分成本类的数量为17幅,分成本类的总数量为89幅,其误分率为17/ 89×100%=19.1%。10类图像的误分率如图6所示。从图6可以看出,“建筑”、“大象”和“山”3类图像的误分率比较高,均超过20%。“汽车”、“恐龙”和“花”3类的误分率较低。
图6 10类图像的误分率
6.4 方法比较
6.4.1 单一特征与本文算法结果
表3列举了常见特征的分类结果,主要包括灰度直方图、颜色直方图、灰度共生矩阵、颜色共生矩阵和本文算法的结果。其中,前5个方法的分类大小均为16。
表3 单一特征与本文算法的分类正确率比较%
从表3可以看出,单一特征的平均分类正确率均不超过70%,而本文多特征融合算法的结果达到85.1%,分类效果较好。
6.4.2 本文算法与其他算法结果
表4列举了常用的图像分类算法在COREL 1K图库进行的分类结果[24-27]。
表4 各算法正确率%
从表4可以看出,无论是在平均正确率,还是各类中最大/最小的分类正确率,本文多特征融合的DBN算法均获得了较好的结果。
6.5 结果分析
由于图像本身的特点,比如场景的不同、图像中物体的大小、前景色与背景色的差异大小及不同类图像之间的差异不同,不同类别的图像分类正确率会有一定的差别。
从实验结果来看,10类图像中,每一类的分类正确率各不相同,其中“恐龙”一组分类正确率最高,为100%,全部分类正确;其次是“花”和“汽车”,分类正确率为99%和98%;正确率低于80%的有“建筑”、“人”、“大象”和“海滩”4类,正确率分别为64%,72%,74%,78%。“建筑”这一类有8张错分为“大象”;“人”这一类有7张错分为建筑、7张错分为大象;“大象”这一组有8张错分为人;“海滩”这一组有8张错分为“山”,“山”这一组有8张错分为“海滩”。这说明“人”、“建筑”和“大象”3类之间的特征有一定的相似;“海滩”和“山”的特征有一定的相似之处,难以进行互相区分。
从表3和表4可以看出,基于多特征融合的DBN图像分类方法比单一特征和其他多特征方法的分类正确率均要高。表4显示多特征融合的深度置信网络算法在单类最大/最小正确率、平均正确率方面均高于其他算法。
在真实图像上,同属一个类别的图像有时有明显的差异,而分属不同类别的图像有时又有很大的相似性,这主要是由于图像底层特征和高层语义之间的沟问题。语义上为同一类,俱在形式上却存在很大的不同,语义上属于不同类别的图像,可能形式上却很相似,这必然会对图像分类造成很大的困难。
例如,“海滩”这一组有8张错分为“山”,“山”这一组有8张错分为“海滩”,这16幅图像如图7所示。其中,第1行和第2行的图像是“海滩”类误分成“山”类的8幅;第3行和第4行的图像是“山”类误分为“海滩”类的8幅图像。从这16幅图像来看,图像本身并没有太多的区别,像第1行的第2幅和第3幅图像本身就包含山体的信息,从这个角度来看,这种误分是由于各类图像之间的特征极为相似导致的。
图7 部分误分图像示例
误分率可以衡量其他9类图像与本类图像的整体相似性。从误分率来看,误分率较高的有“大象”、“建筑”、“山”3类,分别为24.5%,23.8%和22.4%;误分率较低的为“恐龙”、“花”和“汽车”,分别为1.0%,6.6%和9.3%。
从分类正确率和误分率来看,“恐龙”、“花”和“汽车”的分类效果较好,“建筑”、“大象”的分类效果较差。
随着图像处理技术的发展和数字图像的数量飞速增长,如何有效地对图像进行分类是目前的主要研究目标。深度置信网络具有合适的从像素级逐层抽取的图像特征,比较适合较小的图像,但对较大的图像处理速度较慢。本文提出了一种基于多特征融合的深度DBN算法,能克服单一特征及现有方法分类正确率不高及直接从像素级利用DBN进行训练速度较慢的问题。通过与主流图像分类算法进行实验比较,结果显示出本文算法的优越性。下一步工作将通过图像分割、物体识别、图像去噪等方法进行图像预处理,然后提取图像的中层特征或高层特征,通过有效的DBN架构进行实验,研究更高效的图像分类算法。
[1] 许元飞.基于纹理的检索算法研究[J].西安科技大学学报,2013,33(4):470-474.
[2] Bengio Y,Delalleau O.On the Expressive Power of Deep Architectures[C]//Proceedings of the 14th International Conference on Discovery Science.Berlin,Germ any:Springer-Verlag,2011:18-36.
[3] Wei Huang,Yan Gao,Chan K L.A Review of Regionbased Image Retrieval[J].Journal of Signal Processing System s,2010,59(2):143-161.
[4] Datta R,Joshi D,Li J,et al.Image Retrieval:Ideas,Influences,and Trends of the New Age[J].ACM Computing Surveys,2008,40(2):1-5.
[5] 邓金杰,肖诗斌,吕学强,等.基于多特征融合的图像检索研究[C]//第四届图像图形技术与应用学术会议论文集.北京:中国传媒大学出版社,2009:189-193.
[6] Zheng Liang,W ang Shengjin,Tian Qi.Coupled Binary Em bedding for Large-scale Image Retrieval[J].IEEE Transactions on Image Processing,2014,23(8):3368-3380.
[7] Zheng Liang,Wang Shengjin,Liu Ziqiong,et al.Packing and Padding:Coupled Multi-index for Accurate Image Retrieval[C]//Proceedings of CVPR'14.Washington D.C.,USA:IEEE Press,2014:1947-1954.
[8] Freund Y,Schapire R E.Experiments with a New Boosting Algorithm[C]//Proceedings of ICM L'96. Washington D.C.,USA:IEEE Press,1996:148-156.
[9] Jordan A.On Discriminative vs.Generative Classifiers:A Comparison of Logistic Regression and Naive Bayes[C]//Proceedings of NIPS'01.[S.l.]:NIPS Foundation,Inc.,2001:605-610.
[10] Zhang J,Marszalek M,Lazebnik S,et al.Local Features and Kernels for Classification of Texture and Object Categories:A Comprehensive Study[J].International Journal of Computing Vision,2007,73(2):213-238.
[11] 孙劲光,蒋金叶,孟祥福,等.一种数值属性的深度置信网络分类方法[J].计算机工程与应用,2014,50(2):112-115.
[12] Bengio Y.Learning Deep Architectures for AI[J]. Foundations and Trends in Machine Learning,2009,1(1):321-360
[13] Hinton G E,Osindero S,Teh Y W.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.
[14] 付 燕,鲜艳明.基于多特征和改进SVM集成的图像分类[J].计算机工程,2011,37(21):196-198.
[15] Smith JR,Chang S.Automated Binary Texture Feature Sets for Image Retrieval[C]//Proceedings of IEEE International Conference on Acoustic,Speech,and Signal.Washington D.C.,USA:IEEE Press,1996:2239-2242.
[16] Haralick R M,Shanmugam K,Dinstein I.Texture Features for Image Classification[J].IEEE Transactions on Systems,1973,3(6):610-621
[17] Tamura H.Textural Features Corresponding to Visual Perception[J].IEEE Transactions on System s,1978,8(6):460-473.
[18] 孙志军,薛 磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810.
[19] Welling M,Rosen-Zvi M,Hinton G.Exponential Family Harmoniums with an Application to Information Retrieval[C]//Proceedings of NIPS'05.[S.l.]:NIPS Foundation,Inc.,2005:1481-1488.
[20] William s C,Agakov F.An Analysis of Contrastive Divergence Learning in Gaussian Boltzmann Machines,EDI-INFRR-0120[R].Edinburgh,UK:Institute for Adaptive and Neural Computation,University of Edinburgh,2002.
[21] Carreira-Perpinan M,Hinton G.On Contrastive Divergence Learning[C]//Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics.[S.l.]:Society for Artificial Intelligence and Statistics,2005:33-40.
[22] Hinton G E.Distributed Representations,CS-84-157[R]. Toronto,Canada:Computer Science Department,University of Toronto,1984.
[23] 罗晓清,吴小俊,王土同,等.基于二次融合多特征的多聚焦图像融合[J].数据采集与处理,2010,25(4):430-436.
[24] Hinton G E.Training Products of Experts by Minimizing Contrastive Divergence[J].Neural Computation,2002,14(8):1771-1800.
[25] Rao M B,Kavitha C H.A New Feature Set for Content Based Image Retrieval[J].Information Communication and Embedded System s,2013,1(1):84-89.
[26] Murala S,Maheshwari R P,Balasubramanian R.Directional Local Extrema Patterns:A New Descriptor for Content Based Image Retrieval[J].International Journal of Multimedia Information Retrieval,2012,1(3):191-203.
[27] Hirem ath S,Pujari J.Content Based Image Retrieval Using Color,Texture and Shape Features[C]//Proceedings of the 15th International Conference on Advanced Computing and Communications.Washington D.C.,USA:IEEE Press,2007:780-784.
编辑金胡考
Image Classification Algorithm for Deep Belief Network Based on Multi-feature Fusion
XU Qingyonga,b,JIANG Shunliangb,HUANG Weib,LI Jingb,XU Shaopingb,YE Famaob
(a.School of Economics and Management;b.School of Information Engineering,Nanchang University,Nanchang 330031,China)
Taking the single feature and the major classification algorithm s into consideration,an image classification algorithm based on fusion of multi-feature for Deep Belief Network(DBN)is proposed to classify the nature images. The features about color,texture,shape are extracted and the characteristic w eight matrix is form ed.Then the characteristic matrix is normalized.The samples are trained and classified using the DBN with four levels which is constructed.The proposed method has been evaluated on the Corel dataset by train w eight,and the result show s that the average classification accuracy is 85.1%by the proposed algorithm,which is higher then single feature algorithm and other mainstream algorithm s.
Deep Belief Network(DBN);image classification;feature extraction;multi-feature fusion;image retrival
10.3969/j.issn.1000-3428.2015.11.042
许庆勇,江顺亮,黄 伟,等.基于多特征融合的深度置信网络图像分类算法[J].计算机工程,2015,41(11):245-252.
英文引用格式:Xu Qingyong,Jiang Shunliang,Huang Wei,et al.Image Classification Algorithm for Deep Belief Network Based on Multi-feature Fusion[J].Computer Engineering,2015,41(11):245-252.
1000-3428(2015)11-0245-08
A
TP391
国家自然科学基金资助项目(61463032,61363046,41261091)。
许庆勇(1982-),男,讲师、博士研究生,主研方向:图像处理,机器学习,机器视觉;江顺亮,教授、博士后、博士生导师;黄 伟,副教授、博士;李 菁,博士;徐少平、叶发茂,副教授、博士。
2014-10-08
2014-11-12 E-m ail:xyongle@163.com