基于多尺度主线方向特征的DBN分类方法

2015-10-20 09:13强,李
电视技术 2015年15期
关键词:训练样本主线识别率

高 强,李 倩

(华北电力大学电气与电子工程学院,河北保定071003)

图像分类是根据图像具有的某种属性将其划分到预先设定的不同类别中[1]。如何能提高图像分类的准确性,最核心的问题是对图像的有效表达。因此,特征的构建和提取一直受到广泛关注。近些年来常用的特征提取方法有SIFT[2]、HOG、LBP[3]、Gabor[4]等,但不能反映图像最本质的特征。深度学习能通过无监督的方式让机器自动地从样本中提取到表征这些样本的低层、高层特征,从而使学习到的特征更具有推广性和表达力。

深度信念网络(Deep Belief Network,DBN)作为深度学习的一种模型。自从Hinton等人[5]提出基于DBN的贪婪逐层训练算法之后,DBN作为一种无监督特征学习复杂层次概率模型的方法,已成功应用于语音识别[6]、手写字体识别[7]、人脸识别[8]、遥感图像分类[9]和垃圾邮件过滤[10]等领域中。然而,进一步提升DBN模型的分类性能,提高算法的正确识别率仍是需要解决的根本问题。提升性能最简单和直接的方法就是通过增加DBN网络的隐含层数或每个隐含层神经元数来实现。但文献[11-12]研究发现当DBN中的隐含层数和神经元数目达到一定峰值后,再增加数目并不会提升识别性能,反而导致整个 DBN网络训练时间过长。文献[13]从DBN网络结构着手,提出一种由DBN串联而成的层次结构深度信念网络方法,进而提升DBN的性能。文献[14]通过把卷积神经网络的局部感受野引入到DBN的单层中,把DBN的单层分成多个子RBM,提出一种改进的深度信念网络,用于有效提高识别率。文献[15]提出了基于Gabor小波和RBM的二次特征提取,来获取具有更好分类性质的特征。文献[16]通过将瓶颈结构与DBN结合实现了有效提高语音识别率的目的。

因此,DBN的性能仍有进一步提升的空间。鉴于DBN的可视层输入是将一个图像矩阵一维向量化,输入信息仅包含幅度信息,没有充分考虑到图像的二维结构信息。本文通过在DBN可视层输入端加入多尺度主线方向(Multi-Scale Main Direction,MSMD)信息的方法(简称 MSMD-DBN),增加有效信息的维度,进而提升DBN的性能。实验结果表明,该算法可以有效提高图像分类的正确识别率。

1 深度信念网络

DBN是一种概率生成模型,由多层受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)单元组成。DBN的结构如图1所示。

图1 DBN的结构图

1.1 受限玻尔兹曼机

一个典型的RBM子模块结构图是由可视层和隐含层两层神经元构成的,每层有若干个节点,层内节点无连接,不同层之间的节点依靠权值系数矩阵来连接。各层之间的权重值是采用无监督的贪心算法获取的。

RBM是一种能量模型,其可视层和隐含层的联合组态能量表示为

式中:θ=(W,a,b),为 RBM 模型中的3个参数;wij是可视层节点i与隐含层节点j之间的连接权重值;ai和bj分别是可视层第i个节点、隐含层第j个节点的偏置值;vi和hj分别是可视层第i个节点、隐含层第j个节点的状态值。对应于可视层神经元和隐含层神经元的相应映射概率分布为

式中:σ是Sigmoid函数。RBM采用迭代的方式进行训练,训练的目标在于学习出参数θ=(W,a,b)的值,以拟合给定的训练数据。参数θ可以通过最大化对数似然函数得到,最大化似然函数常用的数值方法是梯度上升。参数θ=(W,a,b)的迭代公式为

式中:η为预训练的学习率,L为目标函数。采用Hinton提出的对比散度(CD)算法对重构数据进行近似拟采样,可得各参数的更新规则为

式中:〈·〉data为训练样本集所定义的分布之上的数学期望;〈·〉recon为重构后的模型所定义的分布上的期望。

1.2 DBN算法的训练学习过程

通过式(5)~式(7)这样一个非监督的预训练过程就可以将一个RBM调整到合适的初始值,然后再将多个RBM自底向上组合建立DBN模型,最后通过使交叉熵最小,采用BP算法对整个网络进行监督式学习,最终建立DBN。

具体过程归纳为两步:

1)无监督预训练。DBN模型采用无标签的数据,以重构误差为目标函数,基于CD-k的快速学习算法逐层地训练每个RBM来获得可视层和隐含层的偏置值,以及可视层和隐层间的权值。

2)有监督微调。DBN模型采用带标签的数据,以交叉熵为目标函数,利用共轭梯度算法训练分类器,并实现整个DBN网络参数的优化调整。

2 MSMD-DBN算法

DBN的输入端是将图像二维矩阵转化成一维向量输入到可视层中,然后通过逐层的学习训练提取特征。提取特征的精细程度直接影响后续图像分类识别的性能,甚至决定成败。本文正是从特征提取角度着手,在保证原有信息不丢失的情况下,通过增加多尺度主线方向(MSMD)特征的方法,增加有用信息的维度,有效补偿DBN模型自身的缺点,提升DBN性能。简称这种算法为MSMD-DBN。

2.1 多尺度主线方向信息的特征提取

为了能提升DBN的性能,提高分类器的分类精度。提取特征的有效性非常关键。当用所有的特征进行分类训练时,会取得一个较高的错误识别率;而仅使用关键特征变量,则得到的分类器性能较好[17]。本文的核心思想是在原有DBN输入信息的基础上,提取主线方向信息中的关键特征,即主线方向特征。并通过选择不同的尺度,获取更多的局部信息和全局信息。具体步骤如下:

1)计算图像的方向投影值。假设样本图像的大小是m×m,选取图像左上角的区域块,大小为d×d(d为奇数),以1个像素为步长,向右或向下平移,得到(m-d+1)×(m-d+1)个区域块。再对区域块的像素值进行归一化处理。

以一个尺度为d的区域块为例,将经过区域块中心点的垂直方向的直线作为基准,以π/dr的角度为间隔,逆时针旋转得到dr条直线,则每条直线与正方向的夹角分别为π/dr,2π/dr,…,(dr-1)π/dr,π。计算每一条直线所经过的区域块的像素值,并将这d个像素值累加求和作为该区域块在某个方向上的投影值Rθ。

改变角度θ就可以得到该区域块在dr个方向上的投影值。向右或向下移动区域块,就可以得到(m-d+1)×(md+1)个区域块在dr个方向上的投影值。

2)根据不同方向上的投影值,计算线方向图和能量图。

将步骤1)中得到的dr个投影值放在一个1行dr列的矩阵里,矩阵记为R1×n;选取矩阵R中的最小值,将该最小值记为r,并记录对应的列号(n)。线方向图和能量图的计算规则如下

式中:D为线方向图;E为能量图;dr为选取方向的个数;x和y分别是尺度为d的某个区域块的中心点在原图像中对应的横、纵坐标。

移动区域块,利用式(8)~式(9)就可以计算出不同位置点(x,y)对应的线方向值 D(x,y)和能量值 E(x,y),进而得到整个线方向图D和能量图E。

3)计算能量图E的二值图Eb。将能量图中的所有能量值按从大到小排序,并选取某个合适的能量值作为门限值M,对能量图进行二值化,规则如下

4)计算能量二值图Eb的方向分离图EAb和EBb,规则如下

5)以3×3区域为最小单位,删除EAb,EBb中连通区域的面积(Si,i=1,2,…,n)小于 P 的线条,将去掉杂线后的方向分离图(LA,LB)合并为主线能量图。即

同理,计算得到LB

式中:PL为主线能量图。

6)简化步骤2)中的线方向图D,提取主线方向信息:提取主线方向信息,即记录主线能量图PL像素值为1的位置,并保留线方向图D的此位置,其余位置置于0。即

式中:Ld(x,y)为主线方向特征图。

采用以上步骤得到的多尺度主线方向信息,与传统DBN方法中输入的灰度信息,两两独立,互不相关,因此,能最大程度地反映原始训练样本图像所包含的信息[18]。

2.2 MSMD-DBN算法及模型

增加DBN可视层输入端信息的维度有助于提高图像分类的正确识别率。借助此思想把第2.1节提出的多尺度主线方向特征提取的方法与DBN模型结合,得到基于多尺度主线方向信息的DBN二次训练模型,即MSMD-DBN模型。其基本模型结构如图2所示。

图2 MSMD-DBN算法模型图

根据图2的模型结构,该算法的训练学习过程如下:

1)根据第2.1节的多尺度主线方向信息特征提取方法,获得训练样本集的多尺度主线方向信息;

2)将训练样本图像特征与1)中得到的多尺度主线方向特征作为可视层的输入来训练第一个RBM,每个RBM的输出作为下一个RBM的输入数据,用来训练RBM,类似这样,利用无监督预训练算法逐层训练获得网络参数值;

3)当逐层学习完成一组堆叠的RBM后,即将参数调整到一个比较合适的初始值后,再利用有监督微调方法对整个网络进行优化。

该算法在保证原有输入信息的前提下,通过添加多尺度主线方向信息的方法,增加输入端信息的维度,提升DBN的性能,使RBM更好地拟合数据,提取到更本质的特征,进而提高图像分类的有效正确识别率。

3 基于MSMD-DBN算法的分类实验

为了验证本文提出的MSMD-DBN算法模型识别性能的有效性,实验选用CIFAR-10和MNIST数据库来进行测试,并与传统DBN算法以及文献[15]提出的Gabor小波与RBM二次特征提取方法进行对比。

3.1 CIFAR-10数据库上的实验

实验以CIFAR-10数据库为例,选取飞机、汽车和鸟三类图像,每类包括6 000幅,分辨率为32×32。从每类中随机抽取5 000幅图像作为训练样本集,另外1 000幅组成测试样本集。该实验中,主线方向信息特征提取方法中采用3×3和9×9这2个尺度空间,12个方向,门限值M=280,DBN的结构设置为:4028-300-300-800,RBM无监督预训练和DBN有监督微调中的迭代次数都设置为50次。

实验中用到的部分训练样本集和用3×3尺度空间提取到的对应的主线方向特征图分别如图3和图4所示。

图3 部分训练样本集

图4 图3对应的主线方向特征图

为了验证本文算法的有效性,本实验采用3种算法在CIFAR-10数据库上进行测试,性能指标包括训练样本正确识别率和测试样本正确识别率。其中,文献[15]的算法采用4个方向的Gabor滤波器组。

实验1以飞机和鸟为实验对象进行分类,实验2以飞机、汽车以及鸟这3类图像为实验对象进行分类,3种算法的实验结果比较分别如表1、表2所示。

表1 实验1的分类性能比较

表2 实验2的分类性能比较

由表1和表2可知,相比于传统DBN算法,本文算法正确识别率有明显的提高,提高了11%左右;相比文献[15]也有一定的提高。这是因为本文的MSMD-DBN算法在输入端添加了更多的有效局部、全局主线方向信息,增加了输入信息的维度,使得提取到的特征更具有代表性。

为了进一步综合评价该算法,表3给出了不同算法在实验1中的耗时对比。

下面例子左边是某卖家客户信息(姓名、年龄),要求运行后输出用户显示信息的C#代码段。右边图引入面向对象分类编程各种模块类组成字段及方法函数的图解描述(代码模块化)。见图4。

表3 算法耗时比较

从运行结果可以看出,本文算法由于增加了信息的维度,相对于传统DBN算法,耗时较长,但相比于文献[15]的算法运行效率明显提高。综合考虑分类性能和耗时,本文算法相比于其他算法,既能保证一定的运行效率,又能提高识别性能。

3.2 MNIST数据库上的实验

实验以MNIST手写字体数据库为例,选取数字0,3和8等3类图像进行分类测试。从数字0中随机选取5 900幅图像作为训练样本集,900幅图像作为测试样本集;从数字3中随机选取6 100幅图像作为训练样本集,1 000幅图像作为测试样本集;从数字8中随机选取5 800幅图像作为训练样本集,900幅图像作为测试样本集。所有样本图像的分辨率为28×28。

该实验中,主线方向信息特征提取方法中采用3×3的尺度空间,12个方向,门限值 M=190,DBN的结构设置为:1568-500-300-800,RBM无监督预训练和DBN有监督微调中的迭代次数都设置为30次。

实验中用到的部分训练样本集和提取到的对应的主线方向特征图分别如图5和图6所示。

图5 部分训练样本集

图6 图5对应的主线方向特征图

图7 重构误差曲线

为了进一步比较和数据分析,本实验采用3种算法对MNIST数据库中的数字0,3,8进行分类测试,文献[15]的算法同样采用4个方向的Gabor滤波器组。实验结果比较如表4所示。

表4 3种算法的分类性能比较

从表4的运行结果可以看出,本文算法相比传统DBN算法,正确识别率有一定的提高,而文献[15]的算法对手写字体分类性能不能起到改善作用。

4 小结

本文提出了一种基于多尺度主线方向特征的深度信念网络图像分类算法(MSMD-DBN)。在DBN可视层输入端加入主线方向信息,增加有用信息的维度,可有效补偿DBN模型自身无空间结构信息的缺点,进而提升DBN的性能,提高图像分类的正确识别率。在CIFAR-10和MNIST两个数据库上的实验也同样验证了MSMD-DBN算法的有效性。如何选择合适的门限值,并从理论上研究确定门限值的准则,进一步提取到更具有代表性的主线方向特征,将是下一步的研究重点。

[1]亓晓振,王庆.一种基于稀疏编码的多核学习图像分类方法[J].电子学报,2012,40(4):773-779.

[2]党建武,宗岩,王阳萍.基于SIFT特征检测的图像拼接优化算法研究[J].计算机应用研究,2012,29(1):329-332.

[3]袁宝华,王欢,任明武.基于完整LBP特征的人脸识别[J].计算机应用研究,2012,29(4):1557-1559.

[4]张刚,马宗民.一种采用Gabor小波的纹理特征提取方法[J].中国图象图形学报,2010,15(2):247-254.

[5] HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.

[6]陈硕.深度学习神经网络在语音识别中的应用研究[D].广州:华南理工大学,2013.

[7] JI Nannan,ZHANG Jiangshe,ZHANG Chunxia.A sparse-response deep belief network based on rate distortion theory[J].Pattern Recognition,2014,47(9):3179-3191.

[8] LIN Miaozhen,XIN Fan.Low resolution face recognition with pose variations using deep belief networks[C]//Proc.2011 4th International Congress on Image and Signal Processing.Shanghai:CISP,2011:1522-1526.

[9]吕启,窦勇,牛新,等.基于DBN模型的遥感图像分类[J].计算机研究与发展,2014,51(9):1911-1918.

[10]孙劲光,蒋金叶,孟祥福,等.深度置信网络在垃圾邮件过滤中的应用[J].计算机应用,2014,34(4):1122-1125.

[11] MOHAMED A,DAHL G E,HINTON G.Acoustic modeling using deep belief networks[J].IEEE Trans.Audio,Speech and Language Processing,2012,20(1):14-22.

[12] DAHL G E,DONG Y,LI D,et al.Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J].IEEE Trans.Audio,Speech and Language Processing,2012,20(1):30-42.

[13]王一,杨俊安,刘辉,等.一种基于层次结构深度信念网络的音素识别方法[J].应用科学学报,2014,32(5):515-522.

[14]吕刚,郝平,盛建荣.一种改进的深度神经网络在小图像分类中的应用研究[J].计算机应用与软件,2014,31(4):182-184.

[15]柴瑞敏,曹振基.基于Gabor小波与深度信念网络的人脸识别方法[J].计算机应用,2014,34(9):2590-2594.

[16]李晋徽,杨俊安,王一.一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用[J].计算机科学,2014,41(3):263-266.

[17]毋媛媛,刁智华,王会丹,等.作物病害图像形状特征提取研究[J].农机化研究,2015,37(1):64-67.

[18]方晨,杨叶,伍书剑.主成分分析和聚类分析在软件重构中的应用[J].计算机工程与设计,2009,30(2):366-367.

猜你喜欢
训练样本主线识别率
基于类图像处理与向量化的大数据脚本攻击智能检测
人工智能
人物报道的多维思考、主线聚焦与故事呈现
更加突出主线 落实四个到位 推动主题教育取得实实在在成效
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
数字主线
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法