基于深度先验知识的堆叠沙漏网络人体姿态检测方法研究

2020-06-19 08:50方勇朱志林
科学与信息化 2020年10期
关键词:卷积神经网络

方勇 朱志林

摘 要 針对人体姿态变化会引起特征点回归不准确的问题,提出一种基于深度先验知识的堆叠沙漏网络人体姿态检测方法。对人体区域的关键点拟合采用四阶沙漏网络的方式,考虑人体姿态变化引起的特征点损失权值不同以及人体特征点之间的空间深度位置关系,在热力图loss函数中加入深度偏移作为loss函数的权值系数,提高特征点拟合速度与精确度。在目前的人体姿态数据集中训练测试,验证了算法的鲁棒性。

关键词 卷积神经网络;姿态检测;深度信息;沙漏模型;损失函数

引言

人体姿态估计任务具体而言是从单张RGB图像或深度图中,精确识别人体位置以及定位骨架的稀疏关键点。与传统求解方法[4]不同的是,深度学习时代,姿态估计的求解方式已由特征表达和关键点空间位置求解的独立任务转化成端到端的求解方法,这种方法将特征提取、分类和位置关系求解直接用神经网络建模,更加方便设计与优化。针对场景复杂程度的不同,求解任务分为单人姿态和多人姿态估计,多人姿态估计的实质是单人姿态估计和人体检测两阶段方法的结合,按照结合顺序的不同又划分为自顶向下和自下向上的不同求解方法。

近年来,基于这些方法实现多人姿态检测的文章[1-3]层出不穷,并且取得不错的进展与实验效果。为了得到更好的实验结果,有学者从深度图的角度[5-6]出发对此类问题开展研究,这种方法很大程度克服光照和色彩的变化,但相较RGB图像信息缺失严重,还有学者从关节部件位置关系对检测准确性做优化[7-8],此类方法虽有效提高最终实验结果却增加计算负担。

为此本文提出一种利用深度值矫正RGB图像姿态估计结果的一种方法,在热力图与特征点回归loss函数中加入深度偏移作为loss函数的权值系数,提高特征点拟合速度与精确度,保证计算效率的同时同样有优秀的实验结果。

1 网络模型

1.1 总体网络

如图1所示,所使用的深度学习模型可以分为3部分,图像初始化部分,点热力图回归模块,坐标点预测模块。初始化部分指对原始数据经过卷积、残差模块与池化下采样后的,初步获得图像特征作为沙漏模型的输入。使用四段堆叠沙漏网络,在每段网络输出中通过1x1的卷积得到对应特征点的热力图。热力图反映出特征点在图像中位置的概率分布,通过阈值分割找出最大概率位置,与当前沙漏网络另一分支的featuremap相加,作为下一个网络的输入,下一个网络可根据上一网络的热力图得到特征点之间的位置分布关系。坐标点预测模块为四段沙漏网络的输出,得到最终的特征点的坐标位置。添加深度监督信息,将预测特征点的深度值计算与真实值的偏差程度作为特征点的权值系数,对不同点的loss做权值区分,将每个特征点都可以拟合的更准确。

1.2 热力图回归

对每段的沙漏网络模型输出两个分支,包括热力图与提取的特征图,热力图反映出图像中真实特征点的分布概率,距离特征点越近的位置,热力图中的像素值就越大。热力图的分布公式如下:

式中,表示HeatMap中坐标(x,y)的像素值,()表示特征点坐标,越靠近特征点,值越大。表现为以特征点x,y位置为中心点的高斯分布。

通过将热力图与featureMap结合可以加入特征点空间位置关系特征,更好地回归特征点,但遇到姿态旋转较大或部分特征点遮挡的情况会导致特征点回归的偏移,所以加入深度信息作为热力图中继监督的权值系数可以有效改善这部分问题,提高特征点热力图回归的鲁棒性。

1.3 损失函数

沙漏模型采用中间监督的方式拟合特征点,表现为在模型中输出特征点的热力图,并对热力图做出阈值分割。计算热力图中的特征点的最大似然位置与真实值的均方误差作为损失函数。

式中,,表示特征点的x,y预测值与真实值,为每个特征点的权值系数,考虑每个特征点因为姿态变化,遮挡等影响,会导致每个点的权值损失不一致,考虑加入深度偏移作为权值系数,使损失函数能够更准确地将偏移大的特征点进行权值更新。表示第i点的位置深度值与深度真实值的差值,表示所有m个点的深度差值的和。

对于模型输出的特征点位置,计算与真实值的均方误差作为损失函数。考虑深度的偏移影响,将位置点坐标为(x,y,z),将深度值加入损失函数。损失函数:

式中,,表示特征点的x,y,z的预测值与真实值。对x,y的loss值计算使加上,加入深度偏移作为权值系数,使损失函数能够更准确地将偏移大的特征点进行权值更新。将公式2与公式4相加作为总的loss函数,对网络进行训练。

2 实验结果与分析

选用包括RGB与深度图的数据集作为训练集与验证集,挑选姿态变换多,或有部分遮挡的目标作为测试集的主要情况。将RGB与深度图作为模型的输入,在改进的堆叠沙漏模型中进行训练,并与原始的沙漏模型进行比较。采用头部长度为归一化参考,计算检测关键点与对应ground truth间归一化距离小于设定阈值的比例作为准确性的评估依据。在包括深度监督信息的测试集中,将本文改进算法与hourglass做比较,定性与定量结果分析如下。

2.1 定性分析

(a)hourglassNet

(b)本文算法

在测试集中发现在部分遮挡与姿态旋转变化较大的情况下,本算法要优于原始堆叠沙漏模型。所下图2所示,有较大姿态变化时原有算法会有特征点位置检测偏移的情况,而改进后的算法引入深度值的权值系数,可以更好地校正识别的位置,使识别的位置更准确。在人体侧身或弯腰的情况下,可以发现堆叠沙漏模型有检测特征点偏差的情况,当完全遮挡的特征点情况,特征点回归位置偏移较大,而本文算法引入深度监督信息,可以将这部分特征点检测,比较之前有明显改善。同时,实验结果中发现在手臂与腿部与背景深度差异明显,且会有较多遮挡情况的时候,深度信息可以更好地作为中继监督,保证回归结果的准确性。

2.2 定量分析

将改进前后的两种算法在同样的测试集中做人体特征点检测,两种算法检测的特征点的位置与真实值求距离,以头部长度为归一化参考,比较两个算法PCKh值。比较的结果如下表所示。根据测试集中的PCKh的值可以证明本文比原算法在检测准确度上有提高,在人体姿态复杂或部分遮挡的情况下有改进。

综合以上定性与定量分析结果,表明了在原有算法的改进提升了检测准确性。定性分析可以得出在复杂姿态中检测位置上的误差偏移,在部分遮挡或旋转变化时算法效果有优化。定量分析表明在以部分遮挡或旋转变化等情况下的测试集中,PCKh的值比之前算法要高,说明了在测试集中算法准确性的提升。

3 结束语

本文提出了一种改进沙漏网络的人体姿态识别算法,通过改进沙漏网络中的loss函数,引进深度偏移权重,将深度位置关系结合到训练loss函数中,在姿态旋转或部分遮挡的情况下实现更好的识别准确性。实验结果表明本文算法在改进后对于人体姿态的识别准确性更高,识别的鲁棒性更好。但本文算法在以下方面存在不足:当人体出现部分特征点出镜或大部分遮挡情况下,识别的准确性会有下降,同時在算法实时性也有不足。在之后的工作中还需要对这些情况做出优化改进。

参考文献

[1] Wei S E,Ramakrishna V,Kanade T,et al. Convolutional pose machines[C].Proceedings of the IEEE conference on Computer Vision and Pattern Recognition,2016:4724-4732.

[2] Newell A,Yang K,Deng J. Stacked hourglass networks for human pose estimation[C].European conference on computer vision. Springer,Cham,2016:483-499.

[3] 许忠雄,张睿哲,石晓军,等.深度学习实时多人姿态估计与跟踪[J]. 中国电子科学研究院学报,2018,13(4):491-496.

[4] Urtasun R,Darrell T. Sparse probabilistic regression for activity-independent human pose inference[C].2008 IEEE Conference on Computer Vision and Pattern Recognition. IEEE,2008:1-8.

[5] 贾文浩.基于深度图像的人体姿态估计及相似性度量[D].北京:北京工业大学,2018.

[6] 徐岳峰,周书仁,王刚,等. 基于深度图像梯度特征的人体姿态估计[J]. 计算机工程,2015,458(12):206-211.

[7] 冯健颖.基于卷积神经网络的人体姿态估计研究[D].哈尔滨:哈尔滨工业大学,2018.

[8] 谢子威. 基于深度学习的3D人体姿态估计研究[D].北京:北京邮电大学,2019.

猜你喜欢
卷积神经网络
基于深度神经网络的微表情识别
卷积神经网络中减少训练样本时间方法研究
卷积神经网络语言模型研究
基于卷积神经网络的车辆检索方法研究
基于卷积神经网络温室智能大棚监控系统的研究
基于深度卷积神经网络的物体识别算法
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
深度学习技术下的中文微博情感的分析与研究
基于卷积神经网络的树叶识别的算法的研究