邱 东,刘德雨
(长春工业大学 电子与电气工程学院,吉林 长春 130000)
随着机器视觉技术和人工智能的迅速发展,行人检测逐步成为军事、社会公共安全、交通和互联网发展等社会领域里的热门研究课题之一。但是行人检测问题涉及到模式识别、图像处理、计算机视觉和机器学习等多学科,同时受到行人穿着、光照、身体姿态、尺度、视角和复杂背景等因素的影响,至今也未能(也不可能)设计出一种通用的、实时的、鲁棒的检测算法。
2006年,Hinton教授在《Science》上提出了一种面向复杂通用学习任务的深度神经网络,指出具有大量隐藏层的神经网络具有非常好的特征学习能力,而且网络的训练可以采用“逐层初始化”和“反向微调”技术解决,从此开启了对人工智能领域的研究热潮,深度学习的概念开始被提出。深入学习领域的大多数研究人员专注于深度网络设计和相应的快速学习算法,一些研究工作试图改进深度学习技术模型表示。孙劲光等[1]提出数值属性的DBN,并在UCI的多个数据集上进行对比验证,证明了其有效性。N. Wang等[2]在2014年提出了具有高斯线性单位的高斯限制玻尔兹曼机器(GRBM)来学习来自实值数据的表示,通过用高斯函数替换二进制值可见单元来改进RBM。许庆勇等[3]在2015年提出了一种基于多特征融合的深度置信网络图像分类算法,通过提取样本图像中的颜色、纹理和形状特征,构成多特征融合的权重矩阵,并对特征矩阵进行归一化处理,利用构建的4层DBN分类器进行训练和分类。
文中将传统深度置信网络同模糊集理论相结合,提出一种基于多特征的模糊深度置信网络的行人检测方法。该方法在传统的深度学习模型深度置信网络的基础上引入模糊集的理论思想,一方面把深度学习的典型结构之一深度置信网络与模糊算法相结合,构建用于图像分类和识别的模型;另一方面,利用模糊受限玻尔兹曼机构建深度网络,同时改进训练过程,用于图像识别,以进一步提高行人检测的正确率。
对称三角模糊数如图1所示。
图1 对称三角模糊数
(1)
受限玻尔兹曼机(RBM)[4]是由Hinton和Sejnowski于1986年提出的,由一个可见层和一个隐藏层构成,可见层与隐藏层的神经元之间为双向全连接,是一种可通过输入数据集学习概率分布的随机生成神经网络。标准的受限玻尔兹曼机是由二值(布尔/伯努利)隐层和可见层单元组成,该模型是用参数θ表示跨层节点之间的权值和偏置的连接的。权重矩阵W=(wij)中的每一个元素指定了隐藏层单元hj和可见单元xi之间的权重度置信网络。受限玻尔兹曼机是基于能量的概率模型,定义概率分布如下:
(2)
(3)
受限玻尔兹曼机的能量函数定义为:
E(x,h,θ)=-bTx-cTh-hTWx
(4)
其中,bj和ci为偏移量;Wij为连接第jth可视节点和第ith隐藏节点的权重;θ={b,c,W}为系统参数。
传统受限玻尔兹曼机中代表可视节点和隐藏节点之间的参数被限制为常量,这会引发很多其他的问题。首先,它将限制表示能力,因为变量经常以某种不确定的方式相互作用。其次,它训练带有噪声的采样数据的鲁棒性也不高。2015年,C. L. Philip Chen等[5]提出的模糊受限玻尔兹曼机[2]可以很好地解决这些问题,同时通过跨层单元关系的线性化来减少误差和失真。
随着一些快速学习算法和典型深度学习算法的提出,如深度自编码器[6]、深度置信网络[4]和深度受限玻尔兹曼机[7]等,受限玻尔兹曼机受到了越来越多的关注,之后受限玻尔兹曼机及其相关的深度学习结构也在降维[8-10]、分类[11-14]、特征提取[15-16]等方面得到了广泛的应用。受限玻尔兹曼机通过非监督学习方式,用一定的数据集来训练网络,设置可视神经元的值匹配数据集中的数据点的值,当网络训练完成以后,就可以用来对未知数据进行计算,从而进行分类。
深度置信网络是一个概率生成模型,和传统的判别模型的神经网络相对,生成模型建立一个观察数据和标签之间的联合分布。深度置信网络是由多个受限玻尔兹曼机层组成,模糊能量函数定义为:
(5)
通过边缘化隐藏单元和化简式5得到模糊自由能量函数:
(6)
(7)
同时,去模糊化的概率可以表示为:
(8)
因此,在模糊受限玻尔兹曼机模型中,目标函数是负对数似然,表示为:
(9)
其中,D表示训练数据集。
深度置信网络是一种结合无监督学习和有监督学习方法的机器学习方法。无监督学习的优点在于,学习使用的数据来源简单,不需要进行大量的手工标注,缺点在于难以得到准确的结果。而有监督学习的优缺点正好与之相对,需要有手工标注的数据进行监督训练,能得到更加准确的学习结果。针对传统的深度置信网络中求解最优参数计算量大及鲁棒性不高的缺点,提出一种基于模糊深度置信网络的行人检测方法。如图2所示,包括以下两个部分:
(1)借助模糊深度置信网络提取行人特征,从图像像素开始,建立图像的深度学习网络,通过逐层学习得到图像的表达;
(2)采用监督学习提高FDBN分类的性能。FDBN不仅继承了DBN的强大抽象能力,而且展示了处理行人数据的诱人的模糊分类。
图2 深度置信网络
FDBN通过引入模糊集理论,获得嵌入类先验知识与深度框架的能力。利用一个新的深度框架集成限制玻尔兹曼机(RBM)的抽象能力和模糊集的分类能力。RBM可以快速降维,模糊集可以基于每个类的成员函数提高深度框架的分类精度。FDBN通过逐层贪心的非监督学习构建,参数空间通过梯度下降监督学习微调。特征提取和分类步骤使用相同的深度框架,在充足的非标记数据的帮助下提高了概括能力,避免了显式的特征提取过程,通过隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习。同时,局部的权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。FDBN可以通过反向传播策略使用一个指数损失函数直接优化构建的深度框架。框架模型结构具体如图3所示。
图3 模糊深度置信网络模型
模糊深度置信网络训练过程主要有两个步骤:
(1)根据输入的HOG特征自底向上地训练模糊受限玻尔兹曼机;
(2)根据步骤1的训练结果,采用BP算法对整个DBN结构进行微调,使其更有利于分类。
由于图像特征的特性,采用二值型模糊受限玻尔兹曼机进行特征学习将会丢失特征的属性,因此在整个模糊深度置信网络中的第一层模糊受限玻尔兹曼机的可视层采用的是服从高斯分布的模糊受限玻尔兹曼机,其余仍为二值的。
为了优化分类结果,进一步完善模糊深度置信网络结构,需要将网络的输出结果与真实的结果进行对比,利用对比结果对模糊深度置信网络结构和参数进行微调,以实现进一步优化分类器的目的。文中使用BP网络对输出值进行反向监督,利用BP网络良好的反向传播能力,将分类结果误差反向传入模糊深度置信网络,实现整个网络模型的微调。
文中算法在Win10系统,4 GB内存,Nvidia GTX960显卡的计算机上进行实验,实验数据来源于INRIA行人数据库(大小为64×128),其中训练集包含2 000张正样本单个行人图片和2 000张负样本图片,测试集为300张多行人图片。实验对文中提出的模糊深度置信网络行人检测方法的性能进行评估和分析,在同一检测环境下与其他几种经典的行人检测方法的性能进行比较。为了评估各方法的分类以及检测性能,采用最能直观反映检测性能的检测率、虚警率和检测速度等指标来衡量和分析整个系统的检测性能。性能指标的计算方法如下:
(10)
(11)
其中,TP表示正确分类的正样本数;FP为被错分类的正样本数;FN表示被误分类为正样本的负样本数。
首先对模糊深度置信网络自身结构的搭建对检测结果的影响进行检测和分析,分别搭建3、4、5、6层模糊置信网络结构,隐藏层的神经节点数分别设为80,100,120,150,120,100,80,迭代次数设为1 500。结果如表1所示。
表1 不同结构的模糊深度置信网络的检测性能对比
从表1中的数据可以看出,不同结构的模糊深度置信网络的检测性能并不相同,4层深度网络的检测率最高,并且虚警率也没有任何结构比它低,并不是隐层的层数越多识别性能就越好;相反,随着整体结构越来越复杂,可能会出现过拟合的现象,从而导致识别性能的降低。综合考虑隐层数和隐层单元的识别性能,文中采用的是4层模糊深度置信网络,其中3层隐含层的神经节点数为80、100、150的模糊深度置信网络,设定迭代次数为1 500。
将提出的模糊深度置信网络和文献[14-16]提出的性能较优的分类算法在相同的检测平台上进行对比,具体检测结果如表2所示。
表2 不同的深度学习网络的测试结果对比
从表2的数据可以看出,在相同的条件下,文中提出的模糊深度置信网络分类检测的检测率和虚警率都优于其他方法,虽然检测速度比CS-SVM-AdaBoost要慢一些,但是基本可以实现实时检测,满足实时性的要求。
针对复杂背景下行人检测性能不稳定的问题,引入深度学习的方法进行特征提取实现对行人的识别和检测,并在此基础上将传统的深度置信网络同模糊集思想相结合,提出一种模糊深度置信网络的行人检测方法。使用模糊深度置信网络可以提取更加有效的特征,进一步提高算法的检测精度。实验结果表明,该算法在检测率、漏检率、实时性等方面都比传统的深度置信网络有所提升,可以较快地从大多数的复杂背景下检测和识别出行人目标。因为图像的质量直接影响最终的检测效果,使用提出的方法在分辨率较低的图像中难以将行人从复杂的背景中区分出来,这也是接下来需要重点解决的问题。