夏百战,骆 昊
(电子科技大学中山学院,广东 中山 710119)
随着人工智能技术的不断进步,计算机视觉已经广泛涉及到人脸识别、手势识别等智能应用中,其中人体目标检测[1]受到广大学者的关注。人类希望计算机视觉可以自主识别人体日常动作,使计算机与人类的交流更加自然,当下人体目标检测主要应用在人机交互、智能安防等领域。
为了对人体目标进行准确的检测与识别,国内外的研究人员提出了多种目标检测方法。文献[2] 采用改进的光流算法通过时间与空间的变化对运动目标环境做出快速标记,通过对目标区域滑动窗口的检测完成人体各部位的匹配,并利用树形结构对人体目标进行建模,实现对运动目标的识别,结果表明该方法识别的准确率较高,但对运动目标的特征提取效果不好。文献[3]通过使用特征保留层来提高人体目标识别的稳定性,并增加了人体目标特征约束项和正规化对目标函数进行优化,为了使样本在模糊前与特征映射一致,采用减小特征目标函数值的方法,结果表明该方法大大提高了目标的识别率,但泛化能力较差。文献[4]为了降低模型参数与卷积神经网络的运算量,重新构建了目标识别网络模型,通过在识别模型中加入多空间金字塔模块的方法提高目标识别精度,并利用通道极限压缩方法降低冗余参数,提高计算速度,结果表明该方法明显提高了目标的预测速度,但精度损失较大。
基于以上研究,针对移动人体目标的检测问题,本文提出一种基于B2DPCA与神经网络相结合的算法。通过增加特征函数的特征保留项,使清晰图像与模糊图像具有相似特征,完成特征保留层的学习,并对特征学习重构误差优化处理,得出适合分类的左右投影矩阵,验证人体目标检测识别的正确性。
神经网络是一种典型的深度学习模型,其具有较高的识别率,能在不影响视野的情况下对映射函数非线性进行修改,并可通过多层结构自主学习图像中的特征[5]。本文以神经网络模型为核心,在剩余网络层中建立较大的学习率进行训练,通过小学习率调整神经网络,并将图像训练的结果作为参数,训练网络模型。通过图像特征保留项减小模糊图像与清晰图像间的特征差距,实现网络模型图像的特征保留。当识别的模糊图像通过神经网络模型特征表达后与清晰图像特征相近时,通过softmax进行辨别,使模糊图像具有较高的辨别率,从而获得人体目标的识别结果。
神经网络由网络结构、卷积池化层、全连接层、特征保留层以及softmax判别层组成。为了避免图像识别的过度拟合,将网络权重加载到前几层的网络结构中,并通过小学习速率对全连接层与特征保留层做出微调整。由于目标函数是神经网络拟合数据过程中的重要指标[6],因此本文对目标函数的多项式回归方程进行优化,使其满足模糊图像分布。优化目标函数过程中,使特征保留方向呈降低趋势,可以使最终解满足图像识别数据的真实分布。
假定训练样本及其对应的标签分别为X={xi}和Y={yi},yi表示样本的真实标签向量,除了一个为1的元素外,其余都为0元素。通过输入目标可对{X,Y}进行训练,得出神经网络模型,那么特征保留层和softmax判别层的输出结果可表示为
(1)
其中,Bret_i和Bdis_i分别表示特征保留层和softmax判别层的网络权重;A2(xi)表示softmax判别2层的输出;Cret和Cdis分别表示特征保留层和softmax判别层的网络偏置。
在训练样本和对应标签已知的情况下,神经网络模型不仅要减少训练数据集上的误差率,还要具备任意样本的特征保留能力。本文将模糊图像xi与清晰图像yi的距离作为特征保留的约束条件,于是新的学习目标函数可表示为
(2)
其中,S(X,Y)表示softmax损失函数;αE(xi,yi)表示特征保留约束项;α和β表示权衡参数。为了使损失函数最小,softmax损失函数表示为
(3)
其中,N表示样本个数。特征保留约束项可使原来的图像样本与处理后的样本具有相似的特性。通过对特征保留约束项的定义,减小模糊图像与清晰图像样本的特征误差,特征保留约束项展开后的公式可表示为
(4)
为了对图像数据进行优化,采用随机梯度下降方法表示为
(5)
为了增强神经网络得出的深度特征,并对深度特征矩阵进行性能分类,本文使用B2DPC模型进行分类处理,并通过迭代优化的方法对模型进行求解。
B2DPC模型可通过2个投射矩阵对原始人体目标图像矩阵进行特征描述。假设一个维数m×n的目标图像矩阵为Ii,其左投影矩阵和右投影矩阵分别为W∈Rm×s和V∈Rn×t,那么目标图形可被压缩成维度为s×t的矩阵,用公式可表示为
Ji=WTIiV
(6)
最优的投影矩阵可通过极小化训练样本,重新构建误差求解出,公式表示为
(7)
(8)
其中,d1和d2表示分类惩罚系数。通过整体模型可以优化特征学习的重构误差与错误分类的误差,提高图像的分类性能。对于任意图像通过优化后都可求出最优解,进而图形的预测标签用公式可表示为
(9)
模型优化可分解为对W、V和K交替迭代优化,分别对其中的一个进行优化求解。
1)对V变量优化
对V变量优化时,由于V变量处于Stiefel流行上,且Stiefel流行的梯度计算较复杂,因此需要对凸松弛加以考虑,公式表示为
(10)
其中,γ表示Stiefel流行惩罚系数,且γ>0。通过松弛计算,可对变量无约束优化,优化的目标函数是不可微的,因此采用次梯度下降方法进一步优化处理,公式表示为
Vs+1=Vs-ts∂V(Vs)
(11)
其中,ts表示迭代步长;∂V(Vs)表示目标函数在Vs处的次梯度,计算表达式可表示为:
(12)
其中
(13)
2)对W变量优化
W变量优化的思路与V变量优化的过程除了次梯度表达式不同外,其它优化过程相似,W变量优化的次梯度用公式可表示为
∂W(Ws)=-2PVsWs+
(14)
其中
(15)
2)对K变量优化
W变量优化是一种典型的SVM问题,可通过工具箱[8]进行求解优化。
由于B2DPC模型通常在2步内完成收敛,因此B2DPC优化迭代的W和V初始值可通过收敛结果得出。整个迭代求解过程可视为一个具有隐藏层的浅层网络,W和V的求解过程可视为无监督特征学习训练过程,通过训练最终得出最佳的网络参数。
为了调整基于B2DPC与神经网络对人体目标的检测性能,主要进行2步对目标检测识别。检测的目标共分为5类,分别为人、车、机器人、猫、狗。选取每类目标500张图片,根据距离设置检测目标与物体表面的反光程度,获得清晰的成像效果。对清晰图像集xi做10个不同模糊度的模糊处理,使用清晰图像与模糊处理后的图像y1~y8作为训练样本,用于训练神经网络模型。训练集共有3万张图片,较差验证集与测试集均为6千张图片,且对每张图片都作归一化处理。
将预训练参数迁移到神经网络中对应的网络层,且将全连接层的学习率设置为0.001,其它网络层的学习率均设置为0.0001,经过2万次迭代。对迁移到神经网络的训练样本进行求和运算,通过激活函数增加映射函数的非线性。经过最大池化处理后,图像的数据特征在均为有用信息的情况下数量会减少一半,得出图像的分布式特征。经过特征保留层与特征保留约束处理后,模糊图像接近清晰图像的特征向量样本,那么网络输出值与样本标签的误差用公式可表示为
(16)
其中,e表示样本标签,且e=[r1,r2,r3…];仅当样本属于对应类别i时ri为1,其余情况为0。依据误差权值计算与偏置调整,输入层到隐藏层的权重调整量及隐藏层到输出层的权重调整量用公式分别表示为
(17)
其中,Qij表示输入层到隐藏层的权重;Sij表示隐藏层到输出层的权重。根据权重调整量,调整的网络权值用公式可表示为
(18)
其中Xin表示输入向量;Yout表示输出向量。将调整量通过反向传播反馈给神经网络的权重,这便完成了一次网络训练,直到迭代次数为网络训练结束为止。
为了验证基于B2DPC与神经网络算法对人体目标检测的性能,采用模糊尺度为10的样本测试集1000张,对传统算法与本文算法进行测试,计算出目标检测的平均识别率,移动人体识别率用公式可表示为
(19)
其中,n表示各类别识别正确的样本数;Ocat表示样本种类;M表示样本总数。分别对传统算法与本文算法在不同模糊度的人体图像的平均识别率进行对比,结果如图1所示。
从图中可以看出随着模糊度的增加,两种方法网络平均识别率均有下降的趋势,通过平均识别率可验证两种系统的有效性,但传统算法随着模糊度的增加波动程度较明显,且平均识别率较低。而采用本文算法的人体目标具有特征保留性,平均识别率较高,泛化性能较强。
图1 网络平均识别率
为了进一步验证本文算法的稳定性,在不同样本个数情况下对传统算法与本文算法进行比较。实验中训练样本个数选择为每类样本的前n个样本,测试样本为剩余的其它样本。仿真比较两种方法的分类准确率,对比结果如图2所示。
图2 不同训练样本的辨识准确率
从图中可以看出,两种方法均能达到最好的分类准确率,但在训练集种类较少的情况下,传统方法的正确识别率较低,而采用本文方法无论训练集样本个数为多少,人体目标识别的准确率均较高,相对传统方法具有明显的优势。
通过仿真分析不同主成分个数对传统方法和本文方法分类准确率的影响,为了方便比较,投影后的矩阵选择行列数相同的情况,辨识准确率对比结果如图3所示。从图中可以看出,随着主成分个数的不断增加,两种方法的辨识准确率也不断提高,采用传统方法的准确率较为不稳定,而本文方法非常稳定,且辨识准确率更高。
图3 主成分个数不同的辨识准确率
对于移动人体目标检测问题,本文提出一种基于B2DPCA与神经网络相结合的算法。通过优化目标函数,使图像模糊前后的样本集特征向量保持一致,并采用随机梯度下降方法对图像数据优化处理。为了增强神经网络的深度特征,使用B2DPC模型进行分类处理,并通过迭代优化的方法对模型进行求解。并选择5类检测目标,对清晰图像集做10个不同模糊度的模糊处理,预先对训练权重进行加载,通过人体清晰图像与不同模糊度图像进行训练。由传统算法与本文算法的对比实验可知,采用本文算法可以很大程度地改善移动人体目标在模糊情况下的检测识别率,且人体目标具有特征保留性,平均识别率和泛化性能均有所提高。