一种用于行人检测的隐式训练卷积神经网络模型

2016-06-08 05:48陈致远赵宇明

计算机应用与软件 2016年5期

关键词：行人部件卷积

黄　咨　刘　琦　陈致远　赵宇明

(上海交通大学电子信息与电气工程学院系统控制与信息处理教育部重点实验室　上海 200240)

一种用于行人检测的隐式训练卷积神经网络模型

黄咨刘琦陈致远赵宇明

(上海交通大学电子信息与电气工程学院系统控制与信息处理教育部重点实验室上海 200240)

摘要行人检测已经成为社会各领域里的热门研究课题之一。卷积神经网络CNNs(Convolutional neural networks)良好的学习能力使其学习得到的目标特征更自然，更有利于区分不同目标。但传统的卷积神经网络模型需要对整体目标进行处理，同时要求所有训练样本预先正确标注，这些阻碍了卷积神经网络模型的发展。提出一种基于卷积神经网络的隐式训练模型，该模型通过结合多部件检测模块降低计算复杂度，并采用隐式学习方法从未标注的样本中学习目标的分类规则。还提出一种两段式学习方案来逐步叠加网络的规模。在公共的静态行人检测库INRIA[1]上的试验评测中，所提模型获得98%的检测准确率和95%的平均准确率。

关键词行人检测隐式训练部件检测卷积神经网络

0引言

随着过去几十年经济的飞速发展，行人检测逐渐成为包括国防军事、社会安全、公共交通、互联网发展和商业应用等各领域的一个热点课题。大量的研究都对行人检测产生了浓厚而热忱的兴趣[2,3]。然而，行人具有各种不同的面部容貌、身体形态、皮肤颜色、服装、光亮和遮挡等多变因素，行人所处的场所环境也缤纷复杂，使得基于计算机视觉的行人检测面临巨大的挑战。

当前比较常见的检测模型常常对应用环境提出很多严格的假设性要求，如小尺度、小角度的变化等，这些约束条件在现实应用中很难得到满足。此外，这些模型通常采用复杂的人工特征提取方法来获得原始输入中和目标有关的表达信息，并在提取的和目标有关的特征信息上学习分类器，如类Haar+AdaBoost、HoG+SVM等。然而，这些基于人工特征提取方法的检测模型在很大程度上依赖于特定的检测任务，对于不同身体形态的行人目标，需要设计者仔细思考如何去提取其特征，模型的最终识别效果也深受设计者们是否有充足的相关经验的影响。这些缺点阻碍了传统检测模型进一步获得更符合行人特性的特征描述。

在过去的几十年中，机器学习在模式识别和目标检测中扮演越来越重要的角色。如何让计算机更自然地模拟人类提取特征的过程去获得图像的信息？这个问题已经成为了模式识别和检测领域研究的一个热点课题。在2006年，Hinton教授在Science上发表的《降低神经网络的数据维度》文章[4]，再次证明了多层人工神经网络所拥有优秀的学习能力。通过多层神经网络学习得到的目标特征更自然，更有利于区分不同目标。卷积神经网络CNNs是一种将多层人工神经网络和卷积运算相结合的新型网络。它可以识别各种各样的目标模式并对一定尺度的扭曲和形变有良好的鲁棒性。基于这些优点，很多据此提出的检测方法或模型在各种目标识别中都获得了不错的结果。然而，传统的卷积神经网络模型只能针对整个目标区域进行处理，其通常应用于数字、字母等结构较简单的对象的目标检测中。对于一些结构复杂的检测目标，如行人、大型动物等，模型通常需要非常多的中间隐藏节点，从而使得整个学习过程的运算量十分巨大，训练周期相当漫长。其次，传统模型只能进行有监督的学习，即所有的训练标签都需要事先正确标注。虽然在大部分情况下标注正样本的标签相对简单，但标注负样本是一个非常主观的任务，负样本的类型很难事先确定。

因此，本文提出一种建立在卷积神经网络结构上的新型目标检测模型。该模型通过结合部件检测模块，将目标切分成多个不同的部件分别进行检测，减少了模型训练和检测期间的运算量。本文还提出了一种隐式训练方法，该方法可以训练本文模型从未标注的样本中确定隐藏变量的标签，进而学习目标的分类规则。最后，本文还采用了两段式学习方案逐步叠加网络的规模，提高了误差信息在本文模型中反向传递的有效性，加强了模型参数的自适应学习能力。

1相关工作和本文贡献

1.1相关工作

在过去的几十年里，人们做了大量的工作来设计特征描述和提取的方法。Papageorgiou等[5]描述了基于类Haar特征的行人检测方法。Dahal等[2]采用方向梯度直方图HOG(Histograms of oriented gradients)特征来检测人。Lowe等[6]介绍了尺度不变特征转换SIFT(Scale-invariant feature transform)，用来提取图片中特殊的不变特征。Dollár等[7]研究了行人检测领域里积分通道特征(Integral channel features)的表现。当前常见的检测方法使用上述的特征描述和提取方法来获得目标的特征信息，并在此基础上通过学习得到一个可训练的分类器。Papageorgiou等[5]描述了基于多项式支持向量机SVM的目标检测器。Viola等[8]将类Haar特征和AdaBoost分类器结合起来用来检测移动的人。Mikolajczyk等[9]基于类尺度不变特征转换方向特征建立了部件检测器，并结合了AdaBoost分类器。Han等[10]提出的基于方向梯度直方图和支持向量机的两段式人和车检测模型。

上述基于人工特征提取的建模方法在很多检测领域都取得了不错的效果，然而这些方法也存在着诸多的不足之处。首先，人工特征提取方法需要设计者掌握足够的特征提取原理，要求设计者拥有比较高的学术理论和实际经验。其次，人工特征提取方法自身也有一定的局限性，如类Haar特征计算量大并且对复杂目标的描述效果不佳；尺度不变特征转换要求检测目标要有足够的纹理信息，否则容易发生错配的情况；方向梯度直方图只适用于无遮挡的检测问题，很难满足实际检测任务的需要。最后，基于人工特征提取的建模方法把特征提取和学习分类两个过程分隔开来。虽然学习分类过程中的分类器具有一定的泛化性和可学习性，但其输入的特征向量却是手工选择的并且已经固化的。如果特征提取过程中提取的特征向量对目标的描述不够好，那些丢失的有用信息再也无法从后续的学习分类过程中恢复出来。

最近，深度学习领域的兴起，使得人们逐渐发现将简单处理后的图像交由计算机学习得到的目标特征不仅更符合对目标特性的描述，还避免了人工提取方法存在的大量冗余信息。LeCun等[11]验证了在二维图形中卷积神经网络的表现优于其他所有技术，并且在MNIST数据库上获得了巨大的成功。Nowlan等[12]描述了在视频处理方法里用卷积神经网络定位手的位置。Garcia等[13]提出了一种基于卷积神经网络的人脸检测方法，对各种面部模式拥有良好的鲁棒性。Osadchy等[14]给出了一种基于能量的人脸检测模型，该模型采用卷积神经网络在低维流形上匹配人脸图像。Krizheysky等[15]在LSVRC-2010 ImageNet训练集上的实验证实了卷积神经网络降低了目标的错分率。Ouyang等[16]也把卷积神经网络应用于一个联合深度模型中来检测行人。然而对于复杂目标的检测，卷积神经网络模型也存在着运算量大、无法处理无标注样本等诸多不足。

1.2本文贡献

本文提出一种基于卷积神经网络的新型行人检测模型，主要关注以下工作：

1.2.1部件检测

对于复杂目标的检测，其部件形态才是检测的重要线索。如对于行人，其头、肩、腿等部件，才是检测的关键点[17]，并能为进一步的遮挡问题提供了可行的处理方案。因此，本文模型结合了多个部件检测子，将目标切分成上半身和下半身两个部件分别进行检测，从而缩减了网络的中间层规模，减少了模型训练和检测期间的计算量。这两部分部件将在最终的分类层里融合起来组成对行人的整体特征描述。

1.2.2隐式训练

传统的卷积神经网络模型采用监督学习方法，需要正确标注所有训练样本的标签。然而通常情况下，负样本很难预先确定部件的位置分类等信息，使得为负样本设置了多重分类的检测模型难以在实际场景中得到很好的训练。本文采用了隐式训练的相关方法，可以使本文模型能够进行某种程度的无监督学习，能从未标注的样本中学习目标的分类规则，挖掘出更多对目标检测有帮助的信息，从而改善模型在目标检测上的表现。

1.2.3两段式学习

对于传统的多层人工神经网络，随着网络深度的不断增加，在反向传播过程中网络高层的误差将越来越难以有效地传递到底层，这在很大程度上限制了模型参数的自适应学习能力。为了克服这个问题，本文提出的模型采用两段式学习方案逐步叠加网络模型的规模。其中第一阶段隐式训练三层部件确定所有样本的部件标签，第二阶段通过添加一层最终分类层生成四层全局模型，最后经过训练得到模型最终的参数和样本最终的分类。

2隐式训练CNN模型

2.1模型结构

本文提出的隐式训练CNN模型如图1所示。这是一个由三层部件模型和一层最终分类层组成的四层模型。三层部件模型类似于典型的五层卷积神经网络结构：两层卷积层、两层子采样层和一层输出层——部件分类层P3。P3一共有六个检测子，其中四个主要用于检测隐式训练的负样本。最终输出层O4是一个和P3全连接的分类层。在整个学习过程中采用两段式的训练策略，先训练三层部件模型，再训练四层整体模型。当训练整体模型时，上半身图像和下半身图像需要成对输入。

图1　隐式训练CNN模型

2.1.1第一阶段训练(部件模型)

第一阶段训练是训练三层部件模型。对于行人检测，模型输入是上半身图像、下半身图像和背景图像。这些图像已经从原图像中裁剪完毕并且尺寸统一为28×28。在训练过程中，输入图像先被一组5×5的滤波器卷积得到C1层的输出，再经过子采样为12×12的低维特征图像得到S1层输出。然后在C2层到S2层再重复一遍卷积和子采样并获得4×4的中维特征，最后计算分值得到输出部件评分。

与已有的五层卷积神经网络相比，本文模型在P3层有六个部件检测子，其中四个部件检测子主要用来检测负样本的信息，也即对负样本采用了多重分类的策略，如图1中P3层的深色圆圈所示。这种安排更充分地利用了负样本包含的信息，目的是为了降低模型分类的“第一类”错误率和“第二类”错误率。此外本文引入了负样本隐式训练的方法，使得模型可以无监督地学习负样本的分类。由于不可能(或很难)获得负样本各部件的正确评分，对于多重负样本目标来说，隐式训练方法是一个非常关键的地方。在训练过程中，本文采用如下公式来更新负样本多重目标的损失函数：

L(Yneg,E(W,Yneg,X))=minL(y,E(W,y,X))y∈Yneg

(1)

能量函数[18]E(W,Y,X)衡量了在参数集W下，输入X和分类集Y的隶属关系。损失函数L(Y,E(W,Y,X))计算了能量函数E(W,Y,X)和期望目标Y之间的偏差值。Yneg表示Y的负分类集。经过反向传播后，新目标Ynew的选择如下所示：

Ynew=argminE(W,Y,X)

(2)

可以把Yneg看作一个过渡目标，每个训练周期里都会对其进行更新。Yneg的最终目的是为了获得Y的最佳目标。当第一阶段训练全部完成后就得到了可以把输入图像精确归类为各部件评分的三层部件模型。

2.1.2第二阶段训练(整体模型)

在第一阶段训练完成后，下一步就是训练四层整体模型。整体模型和部件模型很相似，除了它多了一个额外的输出层O4。O4是一个和P3全连接的最终分类层，其主要功能是累加P3层的部件评分并输出最终的分类结果(如告诉我们一张输入图像在何种程度上属于行人/非行人)。

在第二阶段训练中，本文用第一阶段训练好的三层模型参数来初始化四层整体模型。这非常有吸引力，能让整体模型获得非常好的初始化值，O4的输入数据已经是归类好的部件评分。当传统的模型分离了特征提取和模式分类，我们的模型仍然采用了整体的反向传播，这意味着在第二阶段训练时，低层次的参数仍然是可训练的。即使第一阶段获得的参数不够好，模型在第二阶段训练时可以继续调整这些参数。值得注意的是，与部件模型使用28×28的上下半身图像不同，整体模型使用56×28的输入图像。每张图像先被分割为两张28×28的图像，然后成对输入到模型中。在O4层，这对图像的12个部件评分值根据权值累加起来得到最终的输出。

2.2前向传播

卷积神经网络由Hubel和Wiesel在生物学的发现[19]引申而来，是一种特殊的多层神经网络。由于其包含的感受野、权值共享和子采样，卷积神经网络可以识别丰富的模式并对一定程度的扭曲变换拥有一定的鲁棒性。我们的模型同样基于卷积神经网络，因此前向传播和卷积神经网络很相似。

2.2.1卷积层

在卷积神经网络中，卷积可以看作是从原始图像中提取特征。在卷积层，输入图像被一个可训练的核卷积来得到输出。我们对输出用激活函数来转换，以此使模型获得非线性特性并把输出限制在给定的范围内，公式如下：

(3)

(4)

2.2.2激活函数

激活函数是一种非线性函数，它为模型提供了非线性特性。它还可以用来归化输出(或输入)来把输出(或输入)限制在给定的范围内。一个通用的激活函数是Sigmoid函数f(x)=1/(1+e-x)，这是一个值域为(0, 1) 单调递增函数。本文模型采用了文献[20]提到的函数：

(5)

与Sigmoid函数相比，此双曲正切函数拥有两个主要优势：其一，此函数是一个原点对称函数，它产生的平均输出接近于零，这可以改善训练过程中的收敛性；其二，当输入恰好为-1或+1时，此函数的输出也为-1或+1，这非常适合于标记为-1或+1的二值训练目标。

2.2.3子采样层

子采样层生成输入数据的下采样版本[21]。子采样主要是在二维空间里进行池化(Pooling)操作。具体来说，就是根据特征矩阵所处的空间位置，按块分割特征，并在小块中计算新的特征值。池化方法主要有两种，最大值池化和均值池化。本文采用了最大值池化，即选择每个小块里的最大值作为新特征：

(6)

在卷积神经网络中，子采样扮演了很重要的角色。它大大减少了隐层(输入层和输出层之间的中间层)所包含的节点数，降低了计算复杂度，还使得模型对一定程度的扭曲和形变拥有了鲁棒性。

2.2.4全连接层

在多层网络中，全连接层通常出现在最后几层[21]。它的主要功能是把二维特征降维到一阶输出。全连接层的结构类似于卷积层，它们的不同之处在于全连接层把所有特征值拼接成一个长向量并与权值相乘，而卷积层直接用权值进行卷积运算。全连接层的具体计算公式如下：

(7)

2.3后向传播

后向传播算法是神经网络中的一种监督学习算法。由于其原理简单，计算高效，因此被广泛使用。后向传播的主要思想是根据模型的实际输出值与期望分类目标值之间的差值来反复调整模型的权值和偏差。当差值小于一个特定的值后，就自然获得了使真实模型分类的G(W,X)接近期望目标集Y的参数集W。在行人检测阶段，本文用经训练后的推理函数G(W,X)来推断输入数据的分类。

2.3.1损失函数

为了评价能量函数的好坏，需要一种方法来测量模型的实际输出值G与期望目标集Y之间的差值，这就是损失函数。损失函数可以看作是对某个输入的错误分类的惩罚。出色的损失函数应当给正确分类最低的分值，并给其他错误分类更高的分值。损失函数有很多种，如能量损失、广义感知损失、广义边际损失(例如平方指数损失[22])和负对数似然损失[20]。每种损失函数都在某种或某些情况下有着良好的表现。本文简单选取均方差的能量损失函数：

(8)

式中，n为输入的训练样本个数。训练的最终目的就是找到使损失函数L最小的参数集W，从而让模型的实际输出G尽可能符合预期输出Y。

2.3.2参数更新

之前讨论过，训练的一般问题是找到最小化损失函数的办法。一个简单和可行的方法是基于梯度的学习算法。事实上，基于梯度的学习算法被认为是多层感知器上最高效的反向学习算法[23]。其最基本的思想是梯度可以高效地从高层传播到低层。在最简单的情况下，权值参数集W和偏差参数集b的更新公式如下：

(9)

(10)

式中，η为学习速率的标量常数。本文模型采用了文献[20]中提到的动量方法来加速收敛，公式如下：

(11)

(12)

式中，μ表示动量项目。这个增加的项目降低了高曲率方向上的步进，从而间接增加了低曲率方向的学习速率[24]。

2.3.3学习率

学习速率η的选择是一个启发式的问题，它取决于具体的任务并极大依赖于人们的经验。在大部分情况下，学习速率是一个常量、变量或是对角矩阵。一般的处理方法是采用随时间下降的学习率[25]，如下所示：

(13)

式中，c是初始速率，d是衰减常量，t是迭代周期的序数。如果采用LeNet-5模型[11]，一个推荐的学习速率如表1所示。

表1　LeCun 的LeNet-5模型的学习率

本文模型采用了一个较大初始值的学习率，并且该学习率会根据本次和前一次的损失函数的差值来自适应下降，公式如下：

(14)

3实验和评估

本文模型的评估基于INRIA人类数据库[1]，这个数据库包含了各种不同姿态和背景的站立着的行人图像。

在训练阶段，实验使用训练集中全部2416张训练正样本，并从原始训练负样本中随机采样了12 180张负样本。所有正负样本大小都被裁剪为128×64，并在输入到模型前压缩为56×28。对于第一阶段训练，输入图像被裁剪为28×28(上半身和下半身)，如图2所示；第二阶段训练采用整张56×28图像作为输入。

图2　INRIA数据库的训练正样本的一些例子

注：第一排每张图像大小为56×28，随后被分为两张28×28的图像

在测试阶段，实验使用测试集中全部1126张测试正样本，并随机采样10 000张背景图像作为测试负样本。实验还使用Si等[26]提供的评估工具计算平均准确率，并采用DET曲线[27]，即漏检率相对于单位窗口的第一类错误率FPPW(False positives per window)的对数，来直观地评价行人检测的表现。DET曲线越低代表检测效果越好。

3.1总体表现

在总体表现上，本文模型(简记为L-CNN)与结合方向梯度直方图和支持向量机检测模型[2](简记为HoG+SVM)，混合图像模板模型[26](简记为HIT)和基于LeNet5结构的传统卷积神经网络模型[11](简记为CNN)进行比较。

实验结果如图3所示。由图可得，本文提出的L-CNN模型的总体表现优于其他三种模型，尤其在10-7～10-5FPPW 区域内，L-CNN的漏检率远低于另外三种模型。同时，L-CNN的检测平均准确率达到了95.38%，分别比HIT、HoG+SVM和CNN高3.7%、2.1%和1.6%。L-CNN对行人目标获得了98%的检测准确率。

图3　INRIA数据库上的总体表现

3.2扩展实验

本节实验测试L-CNN模型采用的训练策略对行人检测表现的影响效果。首先，为了测试两段式学习方案对目标检测模型的影响效果，模型省略了L-CNN模型中的三层部件模型训练过程，直接进行四层全局模型的学习训练。这个模型标记为L-CNN(One Stage)。

其次，为了测试隐式训练对目标检测模型的影响效果，模型省略了L-CNN模型中隐式更新部件标签的步骤。由于无法得知负样本部件的真实标签，因此对负样本部件采用随机的分类目标标签。这个模型标记为L-CNN(No Latency)。

实验结果如图4所示。无论是L-CNN(One Stage)模型的DET曲线还是L-CNN(No Latency)模型的DET曲线都要比L-CNN高出很多，在FPPW全范围域上漏检率都有了明显上升；从平均准确率也可以看出，L-CNN(One Stage)和L-CNN(No Latency)的平均准确率分别比L-CNN低了2.43%和2.75%，从而验证了两段式学习方案和隐式训练方案都能在一定程度上改善目标检测模型的检测表现。

图4　INRIA数据库上的扩展实验表现

4结语

本文介绍了一种基于传统的卷积神经网络的隐式训练的行人检测模型。该模型采用部件检测模块，将目标切分成多个不同的部件分别进行检测，在很大程度上缩减了检测模型结构的规模，减少了模型训练和检测阶段的计算量。本文还提出了一种隐式训练方法，使模型能够从未标注的样本中学习目标的分类规则，挖掘出更多对目标检测有帮助的信息，改善模型在目标检测上的表现。最后，本文还采用了两段式学习方案，其中第一阶段隐式训练三层部件确定所有样本的各个部件的标签值；第二阶段通过添加一层最终分类层生成四层全局模型；最后经过训练得到模型最终的参数和样本最终的分类。这个方案克服了多层人工神经网络中随着网络深度的不断增加误差将越来越难以有效地传递到底层的问题。本文最后通过一系列实验验证了本文提出的模型在行人检测任务中的效用和优越。

参考文献

[1] Dalal N.INRIA Person Dataset[CP/OL].http://pascal.inrialpes.fr/data/human/.

[2] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893.

[3] Dollar P,Wojek C,Schele B,et al.Pedestrian detection:An evaluation of the state of the art[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2012,34(4):743-761.

[4] Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.

[5] Papageorgiou C,Poggio T.A trainable system for object detection[J].International Journal of Computer Vision,2000,38(1):15-33.

[6] Lowe D G.Distinctive image features from scale-invariant keypoints[J].International journal of computer vision,2004,60(2):91-110.

[7] Dollár P,Tu Z,Perona P,et al.Integral Channel Features[C]//British Machine Vision Conference(BMVC),2009,2(3):5.

[8] Viola P,Jones M J,Snow D.Detecting pedestrians using patterns of motion and appearance[C]//Computer Vision,2003.Proceedings.Ninth IEEE International Conference on.IEEE,2003:734-741.

[9] Mikolajczyk K,Schmid C,Zisserman A.Human detection based on a probabilistic assembly of robust part detectors[C]//Computer Vision-ECCV 2004.Springer Berlin Heidelberg,2004:69-82.

[10] Han F,Shan Y,Cekander R,et al.A two-stage approach to people and vehicle detection with hog-based svm[C]//Performance Metrics for Intelligent Systems 2006 Workshop.2006:133-140.

[11] Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[12] Nowlan S J,Platt J C.A convolutional neural network hand tracker[J].Advances in Neural Information Processing Systems,1995,8(1):901-908.

[13] Garcia C,Delakis M.Convolutional face finder:A neural architecture for fast and robust face detection[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2004,26(11):1408-1423.

[14] Osadchy M,Cun Y L,Miller M L.Synergistic face detection and pose estimation with energy-based models[J].The Journal of Machine Learning Research,2007,8(1):1197-1215.

[15] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems,2012:1097-1105.

[16] Ouyang W,Wang X.Joint deep learning for pedestrian detection[C]//Computer Vision (ICCV),2013 IEEE International Conference on. IEEE,2013:2056-2063.

[17] Sabzmeydani P,Mori G.Detecting pedestrians by learning shapelet features[C]//Computer Vision and Pattern Recognition,2007.CVPR’07.IEEE Conference on.IEEE,2007:1-8.

[18] Lecun Y,Chopra S,Hadsell R,et al.A tutorial on energy-based learning[J].Predicting structured data,2007,1(1):191-246.

[19] Hubel D H,Wiesel T N.Receptive fields and functional architecture of monkey striate cortex[J].The Journal of physiology,1968,195(1):215-243.

[20] Lecun Y A,Bottou L,Orr G B,et al.Efficient backprop[M]//Neural networks:Tricks of the trade.Springer Berlin Heidelberg,2012:9-48.

[21] Bouvrie J.Notes on convolutional neural networks[J].Notes on convolutional neural networks,2006,1(1):1.

[22] Lecun Y,Huang F.Loss functions for discriminative training of energy-based models[C]//Artificial Intelligence and Statistics(AIStats),2005:120-122.

[23] Lecun Y.A theoretical framework for back-propagation[J].A theoretical framework for back-propagation,1988,1(1):1.

[24] Wiegerinck W,Komoda A,Heskes T.Stochastic dynamics of learning with momentum in neural networks[J].Journal of Physics A:Mathematical and General,1994,27(13):4425.

[25] Theano Development Team.Multilayer Perceptron[CP/OL].http://deeplearning.net/tutorial/mlp.html.

[26] Si Z,Zhu S C.Learning hybrid image templates (hit) by information projection[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2012,34(7):1354-1367.

[27] Martin A,Doddington G,Kamm T,et al.The DET curve in assessment of detection task performance[R].National Inst of Standards and Technology Gaithersburg MD,1997.

A LATENT TRAINING MODEL OF CONVOLUTIONAL NEURAL NETWORKS FOR PEDESTRIAN DETECTION

Huang ZiLiu QiChen ZhiyuanZhao Yuming

(KeyLaboratoryofSystemControlandInformationProcessing,MinistryofEducationofChina,SchoolofElectronInformationandElectricalEngineering,ShanghaiJiaoTongUniversity,Shanghai200240,China)

AbstractPedestrian detection has become one of the hot research topics in various social fields. Convolutional neural networks have excellent learning ability. The characteristics of targets learned by these networks are more natural and more conducive to distinguishing different targets. However, traditional convolutional neural network models have to process entire target. Meanwhile, all the training samples need to be pre-labelled correctly, these hamper the development of convolutional neural network models. In this paper, we propose a convolutional neural network-based latent training model. The model reduces the computation complexity by integrating multiple part detection modules and learns the targets classification rules from unlabelled samples by adopting a latent training method. In the paper we also propose a two-stage learning scheme to overlay the size of the network step by step. Evaluation of the tests on public static pedestrian detection dataset, INRIA Person Dataset[1], demonstrates that our model achieves 98% of detection accuracy and 95% of average precision.

KeywordsPedestrian detectionLatent trainingPart detectionConvolutional neural networks

收稿日期：2014-11-25。国家自然科学基金项目(61175009)；上海市产学研合作项目(沪CXY-2013-82)。黄咨，硕士生，主研领域：深度学习，行人检测。刘琦，硕士生。陈致远，硕士生。赵宇明，副教授。

中图分类号TP183

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.05.037