林敏强
摘 要:目前高分辨率人体姿态估计已经非常准确,但是低分辨率人体姿态估计效果并不理想,主要原因是低分辨率时模型性能严重下降,而偏移学习是解决模型性能下降的一种有效方法。实验表明,本文提出的基于偏移学习的低分辨率人体姿态估计算法量化误差小,准确率高。
关键词:人体姿态估计;低分辨率;偏移学习
*基金项目:深圳市科技创新委员会资助项目(项目编号:JSGG20191129143214333)
人体姿态估计是人体生成,动作识别,行人序列重识别,行人跟踪和行人目标检测中最关键的技术之一。由于受人体的大尺度变换、人体遮挡和拍摄角度等因素干扰,人体姿态估计充满挑战。现有的人体姿态估计算法大部分是基于高分辨率的,低分辨率人体姿态估计研究较少。高分辨率人体姿态估计计算量大,严重阻碍了人体姿态估计的应用。城市监控多采用远距离拍摄,获取的图像分辨率都比较低,因此低分辨率人体姿态估计更具有研究和应用价值。
人体姿态估计算法主要分三类:基于坐标的人体姿态估计算法;基于热图的人体姿态估计算法;基于偏移的人体姿态估计算法。基于坐标的人体姿态估计算法是以人体2D图像作为输入并学习人体部位的归一化坐标,为了提升模型的性能,主要采用级联网络来改进预测效果,为了提高低分辨率人体姿态估计的性能,研究还采用了监督学习和对比学习的方法,强制让特征和输出保持一致性;基于坐标的方法的人体姿态估计算法模型简单,但是模型容易过拟合,基于热图的人体姿态估计算法刚好可以缓解过拟合。基于热图的人体姿态估计算法采用隐士人体结构,且用高斯分布对关键点坐标进行编码,不仅可以防止模型过拟合,而且可以增加容错能力;但是它容易受到下采样算子的影响,导致量化误差增大。基于偏移学习的人体姿态估计算法将人体姿态估计分为部分检测和偏移回归任务,明显减少了量化误差。本文采用基于偏移学习的人体姿态估计算法在低分辨率数据集上减少了量化误差,提升了准去率。
1 算法
2 实验
本实验是COCO数据集上完成的。COCO数据集是用于图像检测、语义分割、人体姿态估计最常用的数据集,它包含220张有标注的图像(COCO数据集超过330张图像),150万个目标,80个行人、汽车、动物等目标类别,91种草、墙、天空等材料类别,并且每张图片还包含5句图像描述,最重要的是它包含250000个带关键点标注的行人。实验用平均精度(mean average precision,mAP)和平均召回率(average recall, AR)来作为评价指标。实验结果如表1。
从上表可以看出,本文算法在COCO数据集上的平均精度和平均召回率明显优于其它算法,说明本文提出的基于偏移学习的低分辨率人体姿态估计算法在低分辨率人体姿态估计上是有效的。
3 結语
本文提出的基于偏移学习的低分辨率人体姿态估计算法,在低分辨率人体姿态估计时,将人体姿态估计分为部分检测和偏移回归任务,明显减少了量化误差,提升了准确率。
参考文献:
[1] ZHANG Y, HASSAN M, NEUMANN H, et al. Generating 3d people in scenes without people[C]. 2020 IEEE Conference on Computer Vision and Pattern Recognition, 2020:6193-6203.
[2] HUANG J, ZHU Z, GUO F, et al. Delving into unbiased data processing for human pose estimation[C]. 2020 IEEE Conference on Computer Vision and Pattern Recognition, 2020:5700-5709.
[3] MA C, RAO Y, CHENG Y, et al. Structure-preserving super resolution with gradient guidance [C]. 2020 IEEE Conference on Computer Vision and Pattern Recognition, 2020:7766-7775.
[4] FENG Z, XIATIAN Z, HANBIN D, et al. Distributionaware coordinate representation for human pose estimation[C]. 2020 IEEE Conference on Computer Vision and Pattern Recognition, 2020:7091-7100.
[5] QIAN X, FU Y, XIANG T, et al. Pose normalized image generation for person re-identification[C]. 2018 European Conference on Computer Vision, 2018:661-678.
[6] CHEN Y, WANG Z, PENG Y, et al. Cascaded pyramid network for multi-person pose estimation[C]. 2018 IEEE Conference on Computer Vision and Pattern Recognition, 2018:7103-7112.
[7] SUN K, XIAO B, LIU D et al. Deep high-resolution representation learning for human pose estimation[C]. 2019 IEEE Conference on Computer Vision and Pattern Recognition, 2019:5693-5703.
[8] XIAO B, WU H, WEI Y, et al. Simple baselines for human pose estimation and tracking[C]. 2018 European Conference on Computer Vision, 2018:472-487.