(西华大学计算机与软件工程学院 四川 成都 610039)
计算机视觉[1]是一个跨学科的领域,它主要解决的是如何让计算机像人一样可以理解图像或者视频中的信息,即高级、抽象的信息,视觉也是获得信息最直观的方式,可见其重要性。计算机视觉分为以下研究方向:场景重建、事件检测、目标跟踪、目标识别、姿态估计、动作估计、机器学习和图像恢复等。目前国际上有关计算机视觉比较权威的期刊有TPAMI、IJCV、PR、TIP等,学术会议有国际计算机视觉和模式识别大会、国际计算机视觉大会、计算机视觉欧洲会议等。数字图像处理技术加上机器学习算法,随后随着神经网络、深度学习的兴起,直接赋予计算可以看到人类世界的能力,同样也是人工智能的核心。数字图像处理技术加上机器学习算法,随后随着神经网络、深度学习的兴起,直接赋予计算可以看到人类世界的能力,也是让机器感受世界最直观的方式,同样也是人工智能的核心。数字图像处理是进行后续步骤不可缺少的步骤,计算机通过摄像头获取图像,转化为数字图像,经过图像解码、变换、去噪声、增强或复原等一系列步骤,再通过Sobel、Haar、梯度直方图等手段对图片中进行特征提取,最后交由机器学习的算法,比如K-means、SVM等获得想要的结果。让计算机“看”懂,就是根据数据进行一些特征的提取,建立相关的数学模型,在线性空间或则非线性空间进行关系映射,输出数据可能的值或者所属的区域。
人体姿态估计是视频中人体各关节点(以下称为关键点)位置估计预测并对各关键点按层级顺序连接形成完整人体骨架的过程。传统的方法以人体特征和人体模型为主。Mori G等[2]在2002年提出基于形状上下文作为特征,通过距离度量来判断图像的相似度;ShaKhnarovich等[3]在2003年提出的局部敏感哈希的快速高维数据的近似最近邻查找算法,在大量数据中快速精确查找匹配人体关节姿势图;Agarwal等[4]在2004年提出使用轮廓上下文特征作为人体外观特征,利用带正则项的最小二乘作为损失函数,最后用支持向量机进行回归。Wang F,Li Y[5]在2013年提出的树模型在人体姿态估计中可以适应场景的变化,并利用单一部位和已连接部位去估计它们在树模型中的联合分布,最后在已学习的隐变量树进行推断预测。随着Krizhevsky 等[6]在2012年提出的AlexNet使用卷积神经网络在ImageNet中由于其高分类正确率脱颖而,随后,深度学习成为研究的热点。Pfister T[8]等在2015年的ICCV上提出Flowing ConvNet用于单人姿态估计,并将姿态估计问题看作为检测问题,输出热度图(heatmap),使用参数池化方法,将多张heatmap合并为一张scoremap。其创新点在于从CNN的第3和7层提取出来,再经过卷积操作,用来提取关节点的内在联系。Wei S等[7]在2016年提出的卷积姿态机是顺序化的卷积架构来表达空间信息和纹理信息,并在每一阶段都采用监督训练。Newell A等[9]在2016年提出的堆叠沙漏网络使用多尺度特征,捕捉人体各关节的空间位置信息。每一个top-down到down-top结构都是一个堆叠沙漏模块。Cao Z等[10]在2017年提出的基于部件亲和场的多人实时姿态估计,它采用自底向上的方法,框架分为两路,一路使用卷积网络,根据置信图进行关节预测,另一路使用CNN获取每一个关节的PAF(记录肢干位置和方向的2D向量),两路进行联合学习预测。
在近五年中,人体姿态估计随着神经网络和深度学习的发展,方法已经取得了很大的进展,但仍有以下两个方面需要克服:(1)基本方法的局限性。由于深度学习本身就对训练的数据量有着很大的依赖性,模型训练离不开大量数据,前期对数据进行标准化,必将成为一个非常耗时耗人力的工作。随着模型层数的增加,训练的权重参数量增多,对计算资源需求增大。(2)遮挡问题。对画面中人体进行姿态估计时,可能会出现人体有部分被场景中的其他物体遮挡,多人存在相互遮挡的问题,需要区分识别到的关键点属于哪一个人。
二维人体姿态估计是三维人体姿态估计的基础,其中关键点的个数可以由稀疏的关键点到稠密关键点的过度,进一步为三维提供实现的可能性。原来都是对单帧静态图像中的估计,现在越来越多的研究者将视线转到视频,这就为人体姿态估计进一步商用打下基础,例如,在娱乐产业中的应用(基于视频的体感游戏),安防领域(特殊场景中的特殊动作监控,家庭中婴儿老人的照看等),影视行业(例如在真实电影场景中加入虚拟人物、大型的三维电影)。
人体姿态估计仍是一个富有挑战性的课题,虽然在二维上已经取得了很惊艳的效果,但在实际应用中存在各种问题。该文从计算机视觉入手,简述了其中需要以及一直需要解决的问题,并对其中的姿态估计发展方法进行归纳,最后对仍然存在的问题进行详细地阐述,希望能对相关应用领域的工程师有所帮助。