基于人体关节点视觉特征的姿态识别方法研究进展

2023-08-01 15:44梅健王甜甜黄凯邹青宇
化工自动化及仪表 2023年2期
关键词:深度学习人工智能

梅健 王甜甜 黄凯 邹青宇

摘 要 随着深度学习和人工智能的发展,相关算法在人体姿态识别领域得到了广泛应用。基于人体关节点智能化算法的姿态识别得到了利用和优化,现有的研究成果不同程度涉及各类算法,亟待系统性总结和分类。综述近年来基于视觉特征的姿态识别领域的研究成果,将这些方法分为两类:单人姿态识别和多人姿态识别。分析各方法的原理和突出进步,并介绍基于OpenPose方法的多人姿态研究,指出了未来研究的趋势与焦点。

关键词 人工智能 深度学习 多人姿态识别 智能化算法 OpenPose

中图分类号 TP389.1   文献标识码 A   文章编号 1000?3932(2023)02?0119?06

随着科技的发展,智能化的概念和产品日新月异,在人工智能领域,人体姿态识别是计算机视觉领域中极具挑战的研究方向,在道路姿态监

控[1]、人体动作分析[2,3]、运动培训[4~6]等方面都有重要的应用前景,也是我国科研攻坚的热点。人体姿态通过智能识别检测将提供一种全新的交互模式,如在车站或智能化娱乐场所,使用姿态识别的人工智能交互方式,能够提供更准确更智能的服务[7~9]。

姿态识别的重点是检测人体关节点和肢体,并且能够适应各种多变的场景,姿态识别技术的本质是问题归类[10,11]。姿态识别以向量作为输出,因此人体姿态识别方法需要一个从高维检测向量到高维姿态向量的映射。在二维空间中,根据场景中人体个数的差异,将人体姿态识别分为单人姿态和多人姿态[12~14]。

1 单人姿态识别

随着深度学习的发展与应用,科研人员逐渐使用深度学习算法替代传统方法进行单人姿态识别,传统的单人姿态识别是各种人体姿态分析的基础,对于分析图像或视频中的人体姿态至关重要。在深度学习的姿态识别方法中,人体姿态的骨骼节点具有尺度小、容易被遮挡的特性,因此算法需要更高的精度要求。

当前,单人姿态识别方法中,坐标回归[14]、热力图检测和使用熱力图表示坐标回归是主流方法[15]。

坐标回归的原理是将二维坐标的骨骼关节点作为有效值,训练网络模型后实现关节点的输出,在热力图检测方法出现之前,这类研究思路通常用于机器学习的单人姿态识别系统[14]。使用热力图表示坐标回归方法结合了坐标和热力图两者的优点,构建组合方式的有效值,同时具有检测和回归任务[16]。

1.1 基于坐标回归的单人姿态识别

人体姿态识别中,坐标回归的数据存在大量冗余,这类问题的本质是数值坐标回归。研究人体关节点回归主要有两种方法:

a. 全连接层直接回归坐标点。此类方法的优势是输出点就是坐标点、缩短了训练时间、效率高,并且是端到端的全微分运算。但特征图容易丢失空间信息,直接回归欠缺泛化性[17]。文献

[18]中指出,采用全连接输出坐标点方式会极大损害空间泛化能力。全连接方式所得权重严重依赖训练数据的分布,非常容易造成过拟合。

b. 热力图检测方式。通过热力图检测可以收集海量数据,Argmax提出峰值对应的索引即为坐标点的方法,使其精度高于坐标回归。但是从输入到输出不是一个全微分的算法,低分辨率的采样精度低,并且内存冗余高。

目前,全卷积网络是单人姿态识别最常用的方法之一,其解决了环境和人体动作的干扰。基于坐标回归的单人姿态识别主要分为两大类:多阶段直接回归和多阶段分步回归。

文献[19]针对视觉定位的局限性,提出回归查询像素点对应的场景坐标方法,此方法用于姿态识别的全卷积神经网络,将彩色图像中二维像素对应的三维坐标映射到场景图像的RGB值中,快速建立匹配关系,无需特征检测和特征匹配过程。

文献[20]使用双源深度卷积神经网络(Dual Source Deep Convolutional Neural Network,DS?CNN)从单一图像设计二维人体姿态算法,提出将整个身体的外观和多个微观图像结合起来,可以更加准确地实现人体姿态识别。

1.2 基于热力图检测的单人姿态识别

单人姿态识别算法依据任务的定义和监督形式可以划分为两类:直接坐标回归和热力图(Heatmap)检测。各骨骼关节点相对原始图片的偏移是坐标回归所需的数据,这个过程对于非线性的要求非常高。所以,在基于坐标回归思路之后,热力图检测方法成为单人姿态识别的主流方法[21]。

热力图检测思想是将每个关节点的位置信息由一张低分辨率的热力图表示,热力图中的每一个像素值都代表该位置是否是关节点的概率。这种特性很容易利用高斯函数模拟。

文献[22]针对人体关节点的热力图干扰姿态识别造成的姿态不一致的问题,提出了一种基于图模型推理的单人姿态识别网络,设计了人体姿态图显示人体结构信息,并通过图模型推理网络实现关节点热力图间的信息交互。

文献[23]提出一种基于深度卷积神经网络(Deep Convolutional Neural Network,DNN)的级联姿态预测器,极大增强了骨骼关节点识别的准确度。

从姿态识别开始,不论完整图像还是深度卷积神经网络的回归向量,都可以使用细节联合的方式预测数据。但是由于其固定的输入大小,使得算法对于细节的处理存在不足。为了获得更高的精度,训练多样化成为主要待解决问题,或者可以结合回归和检测两种方式进行姿态识别。

1.3 基于回归与检测混合方式的姿态识别

单人姿态识别中,坐标回归的优点是更快的前向速度和端到端全微分训练,热力图检测的优点是精度高。结合两者的优点,坐标回归中效果最好的方法是使用热力图表示坐标回归,直接坐标回归方法是从图像到骨骼关节点坐标的即时反映,弊端是网络学习空间、收集数据空间不足和丢失空间信息[24]。

基于回归和热力图检测的人体姿态识别虽然性能良好,但存在后处理不可微、量化误差大等问题。文献[25]通过积分运算将热力图表示与联合回归结合,解决了后处理和量化误差问题,并且兼容任何基于热力图表示的方法。

诺丁汉大学计算机视觉实验室的ADRIAN B和GEORGIOS T提出一种检测后回归的由两个相互连接深度子网组成的卷积神经网络级联[21],级联输出的顺序是先检测热力图再回归。该架构不仅可以指导算法在图像中的焦点位置,还可以有效应对遮挡问题,从而引导网络的回归部分来预测位置。

2 多人姿态识别

人体姿态算法从人数上区分为单人人体关节点检测和多人人体关节点检测两类,自顶向下(Top?Down)和自底而上(Bottom?Up)是多人姿态识别领域常用的两种处理思路。其中,自顶向下用于定位骨骼关节点的设计,包括人体检测和人体关节点检测,先从环境背景中估计每个待检测目标,然后对单个人的关节点进行检测;自底而上的逻辑与之相反,分别检测和类聚关节点,即先检测出图像中所有的人体骨骼关节点,然后将全部关节点连接成个人[14]。

自顶向下和自底而上确定关节点的方法如图1所示。

2.1 自顶向下算法

自顶向下算法是先用目标检测算法检测出图像中存在的所有人体实例,然后逐个检测不同人体的关节点[15,17,18]。二维多人姿态估计方法使用串联网络提取特征,然后提高特征图的分辨率,用于关节点的定位[26~30]。

文献[31]研究了顺序卷积结构模型,多层深度卷积网络是卷积姿态结构的基础,每层网络都是在原始图像和前期数据的特征图上进行,最终可以得到人体各关节点结构图。文献[28]提出的算法使用ResNet来提取特征,用反卷积提高分辨率。最初,多人检测网络为Faster R?CNN[32],Faster R?CNN的出现缩短了检测网络的运行时间。Mask R?CNN提高了检测回归的准确性,并使用像素到像素的方式进行分割预测,便可以对检测到的目标进行多人姿态识别[33]。

文献[34]提出一种用于多人检测和二维姿态识别的自顶向下方法。针对关节点类型,提出且实现了完全卷积用来预测热力图。

文献[35]采用自顶向下的二维多人姿态识别算法,使用金字塔卷积,采用一种基于多尺度融合的二维多人姿态识别模型,该模型能够同时取得图像中人体局部的关节信息和全局结构信息,从而可以更准确地定位难以检测的关节点。

2.2 自底而上算法

自底而上算法是检测图像中所有人的身体关节,再将其分组为个体。由于设计识别中尺度的变化,自底而上的人体姿态识别方法难以高精准度估计人体姿态。文献[29]使用金字塔卷积网络方法提出了一种新的自底而上的更迅速的定位关节点,并且可以解决多人姿态检测中尺度变化的检测方法。

为了联合应对检测和姿态识别,更准确地识别环境中的人数,判断遮挡的重要关节点,并且消除相互重合的身体部分[36~39],文献[40]为确定关节点对应的人体部位,首先提出了DeepCut,改进了快速区域卷积神经网络来检测骨骼关节点,组合成关节点密度图,再标记检测出的关节点。文献[41]为优化算法的复杂度,精简了DeepCut算法,提高了檢测的精准度,利用残差网络ResNet获取人体骨骼关节点,提高了鲁棒性。

文献[42]设计了OpenPose,最先使用VGG网络对图样特征进行粗提取,从而得到关节点置信图(Part Confidence Maps,PCMs)和部位亲和域(Part Affinity Fields,PAFs),使用匈牙利算法[43]最优化匹配,连接所有骨骼关节点。

3 基于自底而上的OpenPose方法

OpenPose是根据卷积神经网络与监督学习,以Caffe为框架编写的开放源代码库,能够进行人的脸部、躯干与四肢的跟踪,不仅适用于单人也适用于多人,同时具有较好的鲁棒性[14],是用于2D、3D多人人体姿态估计的最流行的自底而上的方法之一,该成果在单人和多人人体姿态识别中取得了成功。

OpenPose算法、G?RMI算法、DL?61算法和R4D算法在2016年COCO比赛中的准确度对比见表1,其中,AP表示实验结果中与关节点坐标对比的准确度,AP50与AP75表示与关节点相似度在50%以上及75%以上的准确度,APM与APL则分别表示识别小规模人群和大规模人群的准确度。

美国卡耐基梅隆大学(Carnegie Mellon University)在2016年开源了OpenPose项目,该成果在单人和多人人体姿态识别中取得了巨大成功。OpenPose项目采用自底而上的思路,先找出图像中人体的各个关节点,再用这些点拼接成人的骨架,完成姿态识别的任务。OpenPose可以实现人体关节点的信息检测,并且适用于单人和多人环境。研究表明,OpenPose具有很高的鲁棒性和精准度,适用于户外等复杂环境[44,45]。

文献[42]给出了OpenPose算法模型,解决了多人肢体关节点连接的问题,不过仍然存在模型较大、网络参数较多等现实问题需要解决。文献[46]提出一种新的自底而上的多人人体姿态识别方法,构建了一个完全卷积、单发的设计,该方法利用部分强度场定位身体部位,利用关联场将身体各部分结合了起来。文献[47]在OpenPose的基础上首先提出了Lightweight OpenPose轻量级的方法,探讨了适合于实时人体姿态识别网络边缘设备上的性能。使用Mobilenet[48]提取数据,最后结合空洞卷积[49]优化OpenPose。

4 总结和展望

人体姿态识别是计算机视觉的分支,在多领域都具有高质量的发展。国内关于人体姿态识别的研究起步晚、研究投入少,但在国家安防和日常生活中,该技术具有极大的应用市场和发展前景。目前,人体姿态识别的问题和难点集中在两点,往后的工作也会从这两方面展开:

a. 提高数据采集的鲁棒性。样本数据的噪声和样本种类的相似度都会降低数据采集的质量、影响特征选取和导致边缘轮廓缺失。使用模型驱动输入可以保持原有特性,在识别检测过程中会有输入噪声影响结果,通常采用空约束来提高输出质量。因此,对于基于模型驱动的方法,探讨更有效的运动空间时序约束十分必要。在户外环境中捕捉图像会受到多种因素的影响,主要有气候环境变化、背景干扰、光照变换、人体移动的影子、摄像机的运动等,这些都给实验数据的采集和预处理带来了影响。对于处理的图像序列,在目标检测中,虽然可以进行多种数据预处理,但是数据依然存在冗余,非必要的数据依旧会影响整体的运算量和速度,开发新的高效率算法,在数据采集和判断过程中是急需解决的问题。

b. OpenPose算法的有效性和实时性之间的误差。当前,人体姿态研究都是基于相似的算法,算法的创新程度存在一定限制。OpenPose架构在人体姿态识别上具有优势,先找出环境中的人体关节点,再逐一拼接成人体骨架,但是对于环境的判断存在不足。基于模型的算法可以更精准地判断和描述关节点特征,大幅降低外部环境的影响。因此,低功耗、高精度的姿态算法是目前姿态算法重要的研究目标。

参 考 文 献

[1] 朱栋栋.基于视觉检测与定位的快速路车辆异常行为识别[D].北京:北京邮电大学,2022.

[2] 汪雯.基于深度学习的人体动作分析与识别方法研究[D].成都:电子科技大学,2022.

[3] 崔莉亚.运动场景下人体动作分析算法研究[D].郑州:郑州大学,2021.

[4] 李淑敏,周曙,田国辉,等.科技助力冬奥:人工智能在冰雪运动训练中的应用与发展[C]//中国体育科学学会运动训练学分会.2022年全国运动训练学术研讨会.2022:106.

[5] 韩晓明,乔凤杰.人工智能助力全民健身参与的基本逻辑、现实困境与突破路径[J].天津体育学院学报,2022,37(5):559-565.

[6] 朱厚伟,申翠梅,郑哲,等.基于人工智能的运动辅助系统研发进展研究[C]//中国体育科学学会运动生物力学分会.第二十二届全国运动生物力学学术交流大会.2022:391-392.

[7] 洪梁杰.基于视觉的人体躯干特征提取与姿态识别[D].吉林:东北电力大学,2022.

[8] 王珊,张双寒,高靖楠,等.基于PoseNet模型实现人体姿态识别[J].电脑编程技巧与维护,2022(1):112-113;135.

[9] 黄国范,李亚.人体动作姿态识别综述[J].电脑知识与技术,2013,9(1):133-135.

[10] 史伟民.基于深度学习的人体姿态估计方法研究[D].北京:北京化工大学,2021.

[11] 车鑫.基于深度学习的二维人体姿态估计研究[D].武汉:华中科技大学,2021.

[12] 王梓任.人体关节点多视角融合和人体姿态估计[D].济南:山东大学,2019.

[13] 王子沁.基于OpenPose的人体行为识别系统研究与实现[D].南京:南京邮电大学,2021.

[14] 邓益侬,罗健欣,金凤林.基于深度学习的人体姿态估计方法综述[J].计算机工程与应用,2019,55(19):22-42.

[15] 張锋,叶茂,曾凡玉.深度学习的单人姿态估计方法综述[J].小型微型计算机系统,2020,41(7):1502-1507.

[16] SUN K,XIAO B,LIU D,et al.Deep high?resolution representation learning for human pose estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:5693-5703.

[17]  NIBALI A,HE Z,MORGAN S,et al.Numerical Coordinate Regression with Convolutional Neural Networks[J].arXiv,2018.10.48550/arXiv.1801.07372.

[18]  LIN M,CHEN Q,YAN S C.Network in Network:10.48550/arXiv.1312.4400[P].2013-12-16.

[19] ALEX K,MATTHEW G,ROBERTO C.PoseNet:A Convolutional Network for Real?Time 6?DOF Camera Relocalization[C]//IEEE International Conference on Computer Vision.Santiago,Chile,2015:2938-2946.

[20]   FAN X C,ZHENG K,LIN Y W,et al.Combining Local Appearance and Holistic View:Dual?Source Deep Neural Networks for Human Pose Estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:1347-1355.

[21]   ADRIAN B,GEORGIOS T.Human pose estimation via convolutional part heatmap regression[C]//Proceedings of the European Conference on Computer Vision(ECCV).2016:717-732.

[22]   马丽华.基于推理的多等级预测单人姿态估计方法[D].西安:西安电子科技大学,2020.

[23]   TOSHEV A,SZEGEDY C.Deeppose:Human pose es?timation via deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern  Recognition.2014.10.1109/CVPR.2014.214.

[24]   LEE C Y,XIE S N,PATRICK W G,et al.Deeply?Supervised Nets[J].arXiv:Machine Learning,2014.10.48550/arXiv.1409.5185.

[25]   SUAN X,XIAO B,WEI F Y,et al.Integral human pose regression[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:529-545.

[26]   郭天晓,胡庆锐,李建伟,等.基于人体骨架特征编码的健身动作识别方法[J].计算机应用,2021,41(5):1458-1464.

[27]   林里浪,宋思捷,刘家瑛.基于人体骨架特征学习的动作识别[J].中国传媒大学学报(自然科学版),2021,28(5):22-28.

[28]   XIAO B,WU H P,WEI Y C.Simple Baselines for Human Pose Estimation and Tracking[C]//European Conference on Computer Vision.2018:472-487.

[29] CHENG B W,XIAO B,WANG J D,et al.HigherHRNet:Scale?Aware Representation Learning for Bottom?Up Human Pose Estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:5385-5395.

[30]   BOBICK A F,WILSON A D.A state?based approach to the representation and recognition of gesture[J].IEEE Trans PAMI,1997,19(12):1325-1337.

[31]  WEI S E,RAMAKRISHNA V.Convolutional pose machine[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.2016.

[32]   REN S Q,HE K M,ROSS G,et al.Faster R?CNN:towards Real?time Object Detection with Region Proposal Networks[C]//Proceedings of IEEE ANIPS15.2015.

[33]   HE K M,GKIOXARI G,DOLLAR P,et al.Mask R?CNN[C]//Proceedings of IEEE International Confe?rence on Computer Vision.2017:2961-2970.

[34]   PAPANDREOU G,ZHU T,KANAZAWA N,et al.Towards accurate multi?person pose estimation in the wild[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition CVPR.2017.

[35]   汤香渝.基于多尺度融合的二维人体姿态估计算法研究[D].北京:北方工业大学,2021.

[36]   MUHAMMED K,SALIH K,ENRE A.MultiPoseNet:Fast multi?person pose estimation using pose residual network[C]//European Conference on Computer Vision.2018.

[37]   SANGHOON H,BYUNG SEOK R,KYE?HYEON K,et al.PVANet:Lightweight Deep Neural Networks for Real?time Object Detection[J].arXiv Preprint arXiv,2016.

[38]  VASILEIOS B,ANDREW Z.Recurrent human pose estimation[C]//2017 12th IEEE International Confer?ence on Automatic Face and Gesture Recognition(FG).2017.

[39]   HE K M,ZHANG X Y,REN S P,et al.Deep residual learning for image recognition[C]//2016 IEEE Con?ference on Computer Vision and Pattern Recognition.2016.

[40]   PISHCHULIN L,INSAFUTDINOV E,TANG S,et al.DeepCut:Joint subset partition and labeling for multi person pose estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recogni?tion.2016:4929-4937.

[41]   ELDAR I,LENONID P,BJOERN A,et al.DeeperCut:A deeper,stronger,and faster multi?person pose esti?mation model[C]//Proceedings of the European Conference on Computer Vision.2016:34-50.

[42]   ZHE C,TOMAS S,SHIH?EN W,et al.Realtime multi?person 2D pose estimation using part affinity fields[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017:7291-7299.

[43]   STEFANO B,CARMEN D A,MARIA F,et al.Pilot assignment in cell?free massive MIMO based on the Hungarian algorithm[J].IEEE Wireless Commun?

ications Letters,2021(1):10.

[44]   MARK S,ANDREW H,ZHU M L,et al.MobileNet?

V2:Inverted Residuals and Linear Bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).2018.

[45]   TSUNG?YI L,MICHAEL M,SERGE B,et al.Micro?soft COCO:Common objects in context[C]//European Conference on Computer Vision.2014.

[46]   SVEN K,LORENZO B,ALEXANDRE A,et al.Pifp?af:Composite Fields for Human Pose Estimation[C]//IEEE Computer Vision Foundation.2020:11977-11986.

[47]   DANIIL O.Real?time 2D Multi?Person Pose Estima?tion on CPU:Lightweight OpenPose[C]//International Conference on Pattern Recognition Applications and Methods.2019.

[48]   ANDREW G H,ZHU M L,CHEN B,et al.Mobile?Nets:Efficient convolutional neural networks for mobile vision applications[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017.

[49]  YU F,VLADLEN K,THOMAS F.Dilated Residual Networks[C]//IEEE Computer Vision Foundation.2017.

(收稿日期:2022-08-29,修回日期:2022-11-22)

Study Progress in Posture Recognition Method Based on Visual Features of Human Joints

MEI Jian1, WANG Tian?tian2, HUANG Kai1, ZOU Qing?yu2

(1. College of Information and Control Engineering, Jilin Institute Chemical Technology; 2. College of Electrical and Information Technology, Beihua University)

Abstract   With the development of deep learning and artificial intelligence, relevant algorithms have been widely applied in human postures recognition and the posture recognition based on the intelligent algorithms for human joints has been optimized. Existing research results involve all kinds of algorithms at various degrees, wait for being systematically summarized and classified. A large number of recent research achievements in the posture recognition were reviewed and divided into single?person posture recognition and multi?person posture identification, including having their principles and outstanding progress analyzed, and their future research trends and hot spots were pointed out based on describing the OpenPose?based study of the multi?person postures.

Key words   AI, deep learning, multi?person posture recognition, intelligent algorithm, OpenPose

基金项目:中央引导地方科技发展资金吉林省基础研究专项(YDZJ202101ZYTS170);教育部产学合作协同育人项目(202102181046);2020年度吉林省高等教育教学研究课题;国家大学生创新创业训练计划项目(202210201055);吉林省职业教育与成人教育教学改革研究课题(PX?521509);吉林市科技创新发展计划项目(20210103098)。

作者简介:梅健(1995-),硕士研究生,从事人体姿态识别方面的研究。

通讯作者:邹青宇(1983-),副教授,从事复杂网络的研究,zouqingyu2002@126.com。

引用本文:梅健,王甜甜,黄凯,等.基于人体关节点视觉特征的姿态识别方法研究进展[J].化工自动化及仪表,2023,50(2):119-124.

猜你喜欢
深度学习人工智能
我校新增“人工智能”本科专业
2019:人工智能
人工智能与就业
数读人工智能
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现